Skip to content

Posts tagged ‘统计’

4
Jun

相关性 ≠ 因果性

专家说,常食海参使人变得更聪明!

科学研究表明,20~50岁男人射精越频繁,以后患前列腺癌风险就越低!

你深信以上这种说法吗?是不是为了变聪明我们就要天天吃海参?是不是为了降低患前列腺癌的风险我们就要天天打飞机?

相信死理性派的读者,不会轻易就得出结论。但轻易下结论是很多人经常犯的毛病,为了分析类似这种结论的可信程度,我们先来看看这种结论都是如何得出的。

为了研究海参和聪明之间的关系,研究人员通常是这样做的:

首先在一定的人群中统计一下他们是否平时常吃海参,挑选出常吃海参的一组和不常吃海参的一组。然后进行智商测试,对总体结果进行统计,看看哪一组智商平均值更高,或者直接统计吃海参频率和智商之间的相关系数。如果常吃海参的一组平均智商得分更高,那么研究人员就会得出结论:常吃海参和智商高之间是呈正相关的关系的。

但根据这个研究,有的所谓“专家”则声称:海参吃得越多智商就越高哦!为了提高智商赶紧吃海参吧!

相关性 ≠ 因果性

即便是假设常吃海参的组平均智商真的更高,并且调查对象人数真的多到了具有统计意义,“专家”的声明仍然有一个致命的逻辑缺陷:相关性并不代表因果性!这是一个经常被人混淆,也经常被一些团体故意混淆已达到他们自己的目的。两个变量A和B具有相关性,其原因是有很多种的,并非只有A→B或者B→A这样的因果关系。一个很常见的导致相关性的可能性是A和B都是同样的原因造成的:C→A并且C→B,那么A和B也会表现出明显的相关性,但并不能说A→B或者B→A。

比如有统计表明,游泳死亡人数越高,冰糕卖得越多,也就是游泳死亡人数和冰糕售出量之间呈正相关性,我们可以由此得出结论说吃冰糕就会增加游泳死亡风险吗?显然不可以!这两个事件显然都仅仅是夏天到了气温升高了所导致的,吃不吃冰糕跟游泳死亡风险根本没有任何因果关系。

从这个例子可以明显看出,只依据统计数据是不足以得出因果性的,想要得出因果性,必须从理论上证明两个变量之间确实有因果性,并且要排除掉第三个隐含变量同时导致这两个变量的可能性。

回到海参的例子上来。海参和聪明之间的正相关性,有可能是因为经常吃到海参的家庭一般比较富裕,而富裕的家庭通常可以给孩子提供更好的教育资源,以使得孩子更聪明;也可能是有一个或者多个基因,同时起到了使人喜欢吃海参和提升智商两种作用。如果不排除这些其他可能性,说吃海参可以导致更聪明的说法就是不可信的,我就绝不会为了提升智商去吃海参。

31
Jan

辛普森悖论:诡异的男女比例

大学的男女比例问题一直是广大宅男同胞所关心的重大问题,也是高中同学聚会时必然谈起的话题,对于选择大学来说,这也是一项重要指标~..

一天,我拿出两个大学(P大和T大)的统计数据开始研究。“物理学院,P大男女比例大于T大;数学科学学院,P大男女比例又是大于T大…哇,怎么所有专业P大的男女比例都高于T大啊…那还犹豫什么呢,我肯定报T大了!”正当我刚刚心意已定的时候,突然看到了统计数据的最后一行:P大的总体男女比例低于T大!“什么?!有没有搞错?怎么可能P大的所有专业男女比例都高于T大,但是整体男女比例却低于T大了呢?!肯定是哪里算错了吧…”于是我拿出计算器狂敲,却发现没有任何一个计算错了的数据,这种情况真的可能发生吗?

多说无益,请看下面编造出来的一份男女比例数据:(其中假设两所大学都只有物院和外院两个专业)

物院的数据:

男生人数 女生人数 男:女
P大 45 8 5.6:1(大)
T大 101 51 2.0:1

外院的数据:

男生人数 女生人数 男:女
P大 50 201 0.25:1(大)
T大 9 92 0.10:1

学校整体数据(即上述两个专业人数之和):

男生人数 女生人数 男:女
P大 95 209 0.45:1
T大 110 143 0.77:1(大!)

数据可不会是骗人的,不信可以自己动手验算一下,真的出现了这种违背常理的情况!这种现象被称为“辛普森悖论”,虽然这么叫,但其实这不是个真正的悖论,它内部没有包含逻辑上的矛盾,只是违背了人们的常理。…

26
Feb

貌似违背理性人假设的一组选择

最近正在看《牛奶可乐经济学2》,有一个原理下面的例子挺神奇的,我想看看是不是像他说的那样,因此发起了这个投票。请大家略加思考以后如实作答,在AB里面选择一项,CD里面选择一项,EF里面选择一项,谢谢配合!对此次投票的解释我将过几天再写。

[poll=2]

Update on 2009.2.28: