相关性 ≠ 因果性
专家说,常食海参使人变得更聪明!
科学研究表明,20~50岁男人射精越频繁,以后患前列腺癌风险就越低!
你深信以上这种说法吗?是不是为了变聪明我们就要天天吃海参?是不是为了降低患前列腺癌的风险我们就要天天打飞机?
相信死理性派的读者,不会轻易就得出结论。但轻易下结论是很多人经常犯的毛病,为了分析类似这种结论的可信程度,我们先来看看这种结论都是如何得出的。
为了研究海参和聪明之间的关系,研究人员通常是这样做的:
首先在一定的人群中统计一下他们是否平时常吃海参,挑选出常吃海参的一组和不常吃海参的一组。然后进行智商测试,对总体结果进行统计,看看哪一组智商平均值更高,或者直接统计吃海参频率和智商之间的相关系数。如果常吃海参的一组平均智商得分更高,那么研究人员就会得出结论:常吃海参和智商高之间是呈正相关的关系的。
但根据这个研究,有的所谓“专家”则声称:海参吃得越多智商就越高哦!为了提高智商赶紧吃海参吧!
相关性 ≠ 因果性
即便是假设常吃海参的组平均智商真的更高,并且调查对象人数真的多到了具有统计意义,“专家”的声明仍然有一个致命的逻辑缺陷:相关性并不代表因果性!这是一个经常被人混淆,也经常被一些团体故意混淆已达到他们自己的目的。两个变量A和B具有相关性,其原因是有很多种的,并非只有A→B或者B→A这样的因果关系。一个很常见的导致相关性的可能性是A和B都是同样的原因造成的:C→A并且C→B,那么A和B也会表现出明显的相关性,但并不能说A→B或者B→A。
比如有统计表明,游泳死亡人数越高,冰糕卖得越多,也就是游泳死亡人数和冰糕售出量之间呈正相关性,我们可以由此得出结论说吃冰糕就会增加游泳死亡风险吗?显然不可以!这两个事件显然都仅仅是夏天到了气温升高了所导致的,吃不吃冰糕跟游泳死亡风险根本没有任何因果关系。
从这个例子可以明显看出,只依据统计数据是不足以得出因果性的,想要得出因果性,必须从理论上证明两个变量之间确实有因果性,并且要排除掉第三个隐含变量同时导致这两个变量的可能性。
回到海参的例子上来。海参和聪明之间的正相关性,有可能是因为经常吃到海参的家庭一般比较富裕,而富裕的家庭通常可以给孩子提供更好的教育资源,以使得孩子更聪明;也可能是有一个或者多个基因,同时起到了使人喜欢吃海参和提升智商两种作用。如果不排除这些其他可能性,说吃海参可以导致更聪明的说法就是不可信的,我就绝不会为了提升智商去吃海参。
辛普森悖论:诡异的男女比例
大学的男女比例问题一直是广大宅男同胞所关心的重大问题,也是高中同学聚会时必然谈起的话题,对于选择大学来说,这也是一项重要指标~..
一天,我拿出两个大学(P大和T大)的统计数据开始研究。“物理学院,P大男女比例大于T大;数学科学学院,P大男女比例又是大于T大…哇,怎么所有专业P大的男女比例都高于T大啊…那还犹豫什么呢,我肯定报T大了!”正当我刚刚心意已定的时候,突然看到了统计数据的最后一行:P大的总体男女比例低于T大!“什么?!有没有搞错?怎么可能P大的所有专业男女比例都高于T大,但是整体男女比例却低于T大了呢?!肯定是哪里算错了吧…”于是我拿出计算器狂敲,却发现没有任何一个计算错了的数据,这种情况真的可能发生吗?
多说无益,请看下面编造出来的一份男女比例数据:(其中假设两所大学都只有物院和外院两个专业)
物院的数据:
男生人数 | 女生人数 | 男:女 | |
P大 | 45 | 8 | 5.6:1(大) |
T大 | 101 | 51 | 2.0:1 |
外院的数据:
男生人数 | 女生人数 | 男:女 | |
P大 | 50 | 201 | 0.25:1(大) |
T大 | 9 | 92 | 0.10:1 |
学校整体数据(即上述两个专业人数之和):
男生人数 | 女生人数 | 男:女 | |
P大 | 95 | 209 | 0.45:1 |
T大 | 110 | 143 | 0.77:1(大!) |
数据可不会是骗人的,不信可以自己动手验算一下,真的出现了这种违背常理的情况!这种现象被称为“辛普森悖论”,虽然这么叫,但其实这不是个真正的悖论,它内部没有包含逻辑上的矛盾,只是违背了人们的常理。…
貌似违背理性人假设的一组选择
最近正在看《牛奶可乐经济学2》,有一个原理下面的例子挺神奇的,我想看看是不是像他说的那样,因此发起了这个投票。请大家略加思考以后如实作答,在AB里面选择一项,CD里面选择一项,EF里面选择一项,谢谢配合!对此次投票的解释我将过几天再写。
[poll=2]Update on 2009.2.28:…