相关性 ≠ 因果性

标签: Ideas 统计 逻辑学 误解 | 发表时间:2011-06-04 11:15 | 作者:Eagle Fantasy 杀手
出处:http://www.eaglefantasy.com

专家说,常食海参使人变得更聪明!

科学研究表明,20~50岁男人射精越频繁,以后患前列腺癌风险就越低!

你深信以上这种说法吗?是不是为了变聪明我们就要天天吃海参?是不是为了降低患前列腺癌的风险我们就要天天打飞机?

相信死理性派的读者,不会轻易就得出结论。但轻易下结论是很多人经常犯的毛病,为了分析类似这种结论的可信程度,我们先来看看这种结论都是如何得出的。

为了研究海参和聪明之间的关系,研究人员通常是这样做的:

首先在一定的人群中统计一下他们是否平时常吃海参,挑选出常吃海参的一组和不常吃海参的一组。然后进行智商测试,对总体结果进行统计,看看哪一组智商平均值更高,或者直接统计吃海参频率和智商之间的相关系数。如果常吃海参的一组平均智商得分更高,那么研究人员就会得出结论:常吃海参和智商高之间是呈正相关的关系的。

但根据这个研究,有的所谓“专家”则声称:海参吃得越多智商就越高哦!为了提高智商赶紧吃海参吧!

相关性 ≠ 因果性

即便是假设常吃海参的组平均智商真的更高,并且调查对象人数真的多到了具有统计意义,“专家”的声明仍然有一个致命的逻辑缺陷:相关性并不代表因果性!这是一个经常被人混淆,也经常被一些团体故意混淆已达到他们自己的目的。两个变量A和B具有相关性,其原因是有很多种的,并非只有A→B或者B→A这样的因果关系。一个很常见的导致相关性的可能性是A和B都是同样的原因造成的:C→A并且C→B,那么A和B也会表现出明显的相关性,但并不能说A→B或者B→A。

比如有统计表明,游泳死亡人数越高,冰糕卖得越多,也就是游泳死亡人数和冰糕售出量之间呈正相关性,我们可以由此得出结论说吃冰糕就会增加游泳死亡风险吗?显然不可以!这两个事件显然都仅仅是夏天到了气温升高了所导致的,吃不吃冰糕跟游泳死亡风险根本没有任何因果关系。

从这个例子可以明显看出,只依据统计数据是不足以得出因果性的,想要得出因果性,必须从理论上证明两个变量之间确实有因果性,并且要排除掉第三个隐含变量同时导致这两个变量的可能性。

回到海参的例子上来。海参和聪明之间的正相关性,有可能是因为经常吃到海参的家庭一般比较富裕,而富裕的家庭通常可以给孩子提供更好的教育资源,以使得孩子更聪明;也可能是有一个或者多个基因,同时起到了使人喜欢吃海参和提升智商两种作用。如果不排除这些其他可能性,说吃海参可以导致更聪明的说法就是不可信的,我就绝不会为了提升智商去吃海参。

射精越频繁,前列腺癌风险越低?

对于什么是可靠的理论分析,我个人一直持有“无引用不相信”的原则,我们读到的科普文或者科技新闻,总是经过一次或者几次转述,很可能因为需要把某些说法夸张了。所以为了辨别这些说法的真伪,一定要根据文章的引用找到发表在学术期刊上的原文去读,看看原文的结论是什么,得出这个结论是用到了什么方法。而如果没有引用的话,就应该保留态度,此处存疑,不可尽信。

最后再来说说关于射精频率和前列腺癌患病率的负相关关系。“20~50岁男人射精越频繁,以后患前列腺癌风险就越低”,这个问题最近引起了不小的争论。依旧用“无引用不相信”的原则,我们搜索到一篇 文献 ,这篇论文依据的正是统计调查,因此其研究结果只得出了相关性的结论,并没有给出因果关系。原文的最后结论说的很明确也很谨慎:“Our results suggest that ejaculation frequency is not related to increased risk of prostate cancer.”翻译过来是:“我们的结果表明,射精频率与前列腺癌发病率的升高并没有相关关系。”所以不能因此就下这样的结论:射精越频繁导致前列腺癌风险越低。至于为了降低患前列腺癌的风险天天打飞机,更不可取。最后还有一点需要说明,相关不等于因果,不代表相关就不可能是因果关系,只不过为了论证因果关系,需要更加严密的实证来说明。

---------------------------------------

/*本文原载于果壳网。文章发出后在新浪微博上引起了不小的争论。其实我本无意引发争论,大家同是为科普事业而努力,何必互喷。为了对文章最后一段进行补充,我又看了一篇文章,并且评论在了果壳网原文下面,现也贴出来吧:*/

这篇论文也是有关射精频率和前列腺癌患病风险的。这篇论文里结论部分写道:
Ejaculatory frequency, especially in early adult life, is negatively associated with the risk of prostate cancer, and thus the molecular biological consequences of suppressed or diminished ejaculation are worthy of further research.
翻译过来就是:射精频率,尤其是在刚成年的时期,和前列腺癌患病风险是成负相关关系的。因此压抑或减少射精的分子生物学结果是值得研究的未来研究方向。
这个结论也很谨慎的说是负相关关系,而没有说是因果关系,并且指出这种因果性是个值得研究的方向。
该论文正文中提到了多种可能的负相关关系的解释,其中一种可能的解释就是本文中提到的C->A并且C->B:有可能刚成年时射精频率较低的人,体内某些激素含量较低(正是激素少才导致性欲不算旺盛才导致射精少),同时前列腺癌的患病风险又是同激素含量相关的。
因此,仅仅从这篇论文的负相关性得出因果性,仍然是值得推敲,不算太严谨的。

我猜您也喜欢:
统计数据、相关性与因果关系
用逻辑学规范物理学(二)
用逻辑学规范物理学(一)
用逻辑学规范物理学(三)
我这篇日志的回复率为100%
无觅

相关 [相关性 因果性] 推荐:

相关性 ≠ 因果性

- 杀手 - 宇宙的心弦
专家说,常食海参使人变得更聪明. 科学研究表明,20~50岁男人射精越频繁,以后患前列腺癌风险就越低. 是不是为了变聪明我们就要天天吃海参. 是不是为了降低患前列腺癌的风险我们就要天天打飞机. 相信死理性派的读者,不会轻易就得出结论. 但轻易下结论是很多人经常犯的毛病,为了分析类似这种结论的可信程度,我们先来看看这种结论都是如何得出的.

相关性问题

- - 扯氮集--上海魏武挥的博客 - 扯氮集--上海魏武挥的博客
人的本性是趋利避害的,任何合作(或者交易,或者搭伙,或者配对,反正就不是一个人干的事)都会存在三个可能:有利、有害、无利无害. 对于合作一方来说,至少应该保持一个无害的结果,这是常识. 如果觉得有害的可能性很大,于是,我们就会拒绝合作. 问题在于,谁也不是神仙,没有人可以事先100%断定合作必然会有利或至少无害,于是人们需要很多背景信息来供决策.

Elasticsearch:什么是相关性

- - 翟志军
我们已经注意到,搜索结果会以相关性的倒序方式返回. 但是什么是相关性,它又是如何被计算出来的呢. 每一份被搜索出来的文档都带有一个由正的浮点数来表示的相关性评分,被称为_score. 这个分数越高,代表这份文档越相关. 查询子句会为每份文档生成一个评分_score. 如何生成这个评分依赖于查询子句的类型.

Lucene TF-IDF 相关性算分公式

- - 鲁塔弗的博客
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序. TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为 向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则. 某个词或短语在一篇文章中出现的次数越多,越相关. 整个文档集合中包含某个词的文档数量越少,这个词越重要.

使用Python进行相关性分析

- - 标点符
在数据分析时,经常会针对两个变量进行相关性分析. 在Python中主要用到的方法是pandas中的corr()方法. corr():如果由数据框调用corr函数,那么将会计算每个列两两之间的相似度,返回DataFrame. corr(other):如果由序列调用corr方法,那么只是该序列与传入的序列之间的相关度,返回一个数值型,大小为相关度.

社交相关性排序:Google+ 的终极武器?

- rosa - 爱范儿 · Beats of Bits
用过 Buzz 的人都知道,除了暴露隐私的致命弱点,Buzz 还有一个让人讨厌无比的设计:有评论即置顶. 这使得某条信息不断侵占你的时间线. 在刚开放注册的几天,使用 Google+ 也会出现同样的情况,如果你在某条信息发表了一条评论,那么只要别人也发表评论,这条信息就会上升到你的时间线顶部. 难道是 Buzz 的噩梦再现.

研究发现素食和低自杀风险存在相关性

- - Solidot
日本国立国际医疗研究中心等研究团队的一项调查发现,越是爱吃蔬菜、大豆、海草、蘑菇等健康食品的人自杀风险越低. 调查对约9万名40~69岁男女的饮食倾向进行了调查,平均追踪时间达8.6年. 研究人员向调查对象询问了摄取134种食品饮料的频度,根据饮食偏好将其分成三大类:(1)蔬菜、大豆等“健康型”;(2)肉类、面包、果汁等“欧美型”;(3)米饭、味增汤等“日本型”.

香港研究称PM2.5浓度和死亡率存在相关性

- - Solidot
香港大学医学院研的科学家完成了一项被官方新闻稿称为亚洲首个长期暴露于空气中的PM2.5粒子对人体健康的研究,发现死亡率和PM2.5浓度存在相关性,居住地的PM2.5浓度越高,死亡率也越高. 研究对像为1998至2001年之间参加健康调查的66820名65岁以上长者,到2011年其中16400名死亡,研究人员运用NASA卫星监控的气溶胶光学厚度数据,推算全港每1平方公里土地面积范围内空气中的PM2.5浓度,再将参与者的住址经地图编码,推算居所位置暴露于PM2.5的程度.

利用Redis的有序集合做购物车商品相关性分析

- - zzm
本文所指的“商品的相关性”,就是依据与某个商品同时出现在购物车中次数最多的商品. 在某一商品的detail页面,推荐给用户与该商品相关的N个商品;. 在添加购物车成功页面,当用户把一个商品添加到购物车,推荐给用户N个与之相关的商品;. 在货架上将相关性比较高的几个商品摆放在一起;. 利用Redis的有序集合做法如下:.

如何使用机器学习解决实际问题-以关键词相关性模型为例

- - Dustinsea
本文以百度关键词搜索推荐工具字面相关性模型为基础,介绍一个机器学习任务的具体设计实现. 包括目标的设定,训练数据准备,特征选择及筛选, 以及模型的训练及优化. 该模型可扩展到语意相关性模型,搜索引擎相关性及LTR学习任务的设计实现. 目标设定:提升关键词搜索相关性. 作为一个搜索+推荐产品,百度关键词搜索推荐系统的产品形态是向凤巢用户推荐适合他业务的关键词.