不要相信直觉!那些概率统计的奇妙结论

标签: 相信 直觉 概率 | 发表时间:2011-08-10 09:19 | 作者:(author unknown) liuce.cn
出处:http://www.guokr.com/site/logos/

对于概率和统计的不确定性,我们始终有足够的直觉。虽然如此,这依旧远远不够,多数人对概率的理解其实并不充分。要知道这是一个数学家稍有闪失就会错的一塌胡涂的领域,原因很多时候正是我们的直觉,而正确结论却与之相悖。我们不妨来看看几个概率统计中的奇妙结论,这也正是概率统计这门学科的魅力所在。


贝特朗奇论

在单位圆内随机地取一条弦,其长超过该圆内接等边三角形的边长√3的概率等于多少?

这个问题看似简单,结果却让人大跌眼镜。我们可以用三个完全正确的方法,得到三个完全不同的答案!

1.将弦的一段固定在等边三角形的某一个顶点上,然后另一端绕着圆周旋转。可以在图一中发现,只有当另一端点位于上方的圆弧时,这条弦的长度才会超过三角形的边长,由此可得所求概率为1/3。

/gkimage/yn/l4/ib/ynl4ib.png

2.根据几何学原理,圆内弦的长度与弦到圆心的距离有关。从图二可以看出,当弦心距小于1/2时,这条弦的长度大于三角形边长,所以这样求出的概率为1/2。

/gkimage/jp/js/ln/jpjsln.png

3.再来考虑一条弦的中点,根据图三可以得出:只有当弦的中点位于半径为1/2的小圆内部时这条弦的长度才满足要求,同时因为这个小圆的面积是大圆的1/4,所以所求概率也是1/4。

/gkimage/1q/p7/hs/1qp7hs.png

你能说出到底哪种方法是错的吗?如果它们都是对的,那么这样的一道客观题又怎么会有三个不同的答案呢?

其实这三种说法都是正确的。但是它们的结果之所以不同,只是因为它们各自对问题的理解不同,采用了不同的等可能性假定。在第一种方法中,我们默认的假设是“圆内弦的端点在圆周上是均匀分布的”;在第二种方法中,我们默认的是“圆内弦到圆心的距离是均匀分布的”;第三种方法默认的假设则是“圆内弦的中点在整个圆的内部是均匀分布的”。这三种假设对应着三种不同的求解方法。

需要说的是,随意指责哪个假设是不合理的有所不妥,因为它们都是有依据的。不妥的地方在问题本身,这个问题问的并不严谨,没有对问题中的“基本空间”进行定义,导致在解题人求解时只能够依靠自己的理解补充解题所需条件。如此一来,一问三解就不足为怪了。

上述问题被称为“贝特朗奇论”,是数学家贝特朗在上世纪初提出来的,用于批判当时尚不严谨的概率论。也正是在贝特朗工作的推动下,此后概率论的研究开始向公理化方向发展。

本福特法则

据说,1881年天文学家西蒙•纽康伯发现对数表以1起首的数所在的那几页较其他页破烂,由此他怀疑以1开头的数字就是比其他数多,大量统计之后发现果真如此。这个故事的真实性已无从考究,不过它可能是本福特法则第一次被注意到。

所谓本福特法则,是指在一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,是人们通常期望值1/9的3倍,它的确切值等于lg2,而越大的数字,以它为首位的数出现的机率就越低。更一般地,我们能够说明在r进制中,以n开头的数字出现的概率是 log r (n+1)- log r (n)。根据这个公式,可以制作出十进制下数字1~9开头的概率表:

开头 1 2 3 4 5 6 7 8 9
概率 30.1% 17.6% 12.5% 9.7% 7.9% 6.7% 5.8% 5.1% 4.6%

这个神奇的法则几乎完全违背了人们的直觉:哪个数字开头的概率不应该是一样的嘛!

维基百科上对此有个简单的解释:就数数而言,从1开始,历经1,2,3,...,9,到这点终结的话,以哪个数起首的几率是相同的,但9之后是10至19,到这里以1起首的数出现的几率又大大高于了其他的数。而在下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。如果这种数法一旦有个终结点,以1起首的数的出现率一般都会比9大。

也就是说,我们平时认为的“以1开头和以9开头的数字一样多”这种情况,实际只有在[1,999]此类区间里才会出现。任意给一个区间,由于样本的不完整性,基本不可能出现这种情况。从这里也可以看出,要想使得本福特法则生效,便不能对数字的区间范围进行明确的规定。

说到这里,大家自然会进而关心本福特法则在实际生活中的应用。我们可以在 这个页面 下方列出的表格中看到,不论是各国人口数量还是门牌号码都基本服从本福特法则,而且这些统计得到的结果和理论预测值的误差也很小。从而这些生活中的实例也说明了以1开头的数字确实是最多的,死理性派对此曾有过 详细的介绍

这个法则最经典和广泛的应用是验证统计数据真伪。如果一个包含了几千个数字的样本居然完全不服从本福特法则,那么你可要小心了,这个样本很有可能是伪造的。而除此之外,本福特法则在会计、股票甚至是选举领域也有着重要的应用。

友谊悖论

你是广交朋友的闪亮交际明星还是人际贫瘠的宅男?也许这个问题刺痛了许多不善交际的技术男的心:总能看到某个朋友每天应酬繁多、应接不暇,而自己的手机却常年不响一声。

实际上几乎每个人都会觉得朋友的朋友总是比自己的多。换句话说就是自己的朋友数,几乎总是小于自己所有朋友的朋友数的平均值。

这个结论看上去很违背直觉:如果我是某个人的朋友,那个人必然也会是我的朋友,友谊是双向的,所以我们会经验的认为整个数据是平均分布的,任何人的朋友数和他的朋友比起来应当差不多。怎么可能他们的平均朋友数会比我们自己的多呢?然而这却是事实,或者唯一的安慰是一切与你无关,这不过是一个不寻常的统计学案例。

我们不妨看看下面的这个例子。

/gkimage/wd/v9/td/wdv9td.png

上图是八个女孩之间的朋友关系图,其中标注了每个人的名字、朋友数和她的朋友的平均朋友数(括号内的数字)。可以发现,只有Sue和Alice两个人的朋友数比她们朋友的平均朋友数要多。如果对所有括号里的数求均数,得到的结果约为2.98;但是这八个人的平均朋友数是2.5(10条关系线×2,除以人数8)。群体中所有人朋友的朋友平均数大于群体所有人的朋友平均数,这是为什么呢?

其实这个看起来有些不可思议的结论可以这样解释:有一百个人,他们都能有一个拥有一百个朋友的朋友,但是只有一个人,能有一个只有一个朋友的朋友。这句话算不上严谨,而且很绕口,但是实际上它传达了这样的意思:在计算“朋友的朋友”这个过程中,一个人拥有越多朋友则越容易被重复计算进来。比如在上图中,Sue有四个朋友,那么“Sue拥有四个朋友”这个条件在Sue的四个朋友分别计算自己的“朋友的朋友数”时,就被重复使用了四次。

让我们来做一个简单的数学推理:设群体总人数为n,第i个人的朋友数为Fi,那么群体所有人的朋友均数就是( ∑ Fi )/n。至于所有人“朋友的朋友”则一共有 ∑ Fi 个样本(把每个人的朋友列举一遍),又因为第i个人的朋友数会被重复计算Fi次,所以群体中所有人“朋友的朋友”的总数为 ∑ Fi 2 。于是其朋友的平均朋友数就是(∑ Fi 2 )/( ∑ Fi )。根据均值不等式的变形可知,( ∑ Fi 2 )/( ∑ Fi )≥( ∑ Fi )/n。如此一来我们就证明了在朋友圈里,朋友的平均朋友数不小于每个人的朋友均数。更精确地描述就是:

朋友的朋友均数=朋友均数+朋友数方差/朋友均数

当然,大家即便知道了这个事实也请不要灰心,你的朋友看起来总是拥有比你更多的朋友,其实只是某几个人际交往明星从中作梗,让你产生了这种错觉而已。


在数学中没有任何一个其他分支有这么多例子能说明直觉与经验会得出如此错误的结论,而正确的解答又与直觉矛盾。当人们看到一个概率或者统计的悖论时,第一反应是不相信,而在了解了真相后,紧接着的反应几乎必然是想清除疑云迷雾。所以,好好学学概率和统计这门课吧。

参考资料:

http://mathworld.wolfram.com/BenfordsLaw.html

http://www.jstor.org/stable/2781907

相关 [相信 直觉 概率] 推荐:

不要相信直觉!那些概率统计的奇妙结论

- liuce.cn - 死理性派 - 果壳网
对于概率和统计的不确定性,我们始终有足够的直觉. 虽然如此,这依旧远远不够,多数人对概率的理解其实并不充分. 要知道这是一个数学家稍有闪失就会错的一塌胡涂的领域,原因很多时候正是我们的直觉,而正确结论却与之相悖. 我们不妨来看看几个概率统计中的奇妙结论,这也正是概率统计这门学科的魅力所在. 在单位圆内随机地取一条弦,其长超过该圆内接等边三角形的边长√3的概率等于多少.

概率论教你说谎:直觉思维的科学解释

- zhouqi - Matrix67: My Blog
    昨夜,M同学牵着女朋友的手走出宿舍楼,整夜没有回来;直到今天早晨,大家才见他支着腰回到寝室,样子十分疲惫. 我们几个好友似乎已经心领神会,于是一行人走上前去,带着淫邪的笑容拷问他:昨晚干啥了,那么疲惫. 本以为M同学会支支吾吾答不上话来,殊不知他义正严词地答道:我和女朋友去看通宵电影去了. 几个人不服气,问他,那电影票呢.

不相信直觉就是不承认人性

- AWard - 果壳网 guokr.com - 果壳网
工倕旋而盖规矩,指与物化,而不以心稽,故其灵台,一而不桎. 忘足,履之适也;忘要,带之适也;忘是非,心之适也;不内变,不外从,事会之适也. 始乎适而未尝不适者,忘适之适也. 图片中的女人是睁着眼睛的还是闭着眼睛的. 我们常常先根据直觉下结论,然后再想原因. 在心理学当中,这个问题当然不会有一个是或否的答案.

概率与测度 (3):概率模型

- Sosi - Free Mind
系列的前面两篇大致陈述了一下测度论方面的基础,由于这个学期有去旁听《概率论》这门课,所以主要还是按照课程进度来吧,不定期地把课程里一些有意思的内容抽取出来整理在这里. 先从一个例子开始,比如一个盒子里放了 8 个黑球和 2 个白球,从盒子里随机拿一个球,问它是白球的概率是多少,大家都会不假思索地说,1/5.

求解:概率选择题

- -_- - YesKafei Daily
“愤怒的小鸟”出现在物理考试中. 囧| 最牢固的车门 – 牢牢地被固定. 色狼等级考试试题 (@nuomifan). 2011年全国性考试时间表 (@17weiguan). 老外汉语考试,表情很痛苦 (@17weiguan). 围观公务员考试的壮观景象 (@17weiguan).

我相信 Google+

- pestwave - 36氪
一方面,Google+ 现在有 4000 万用户,是历史上增长最快的社交网络,而且它的用户已经上传了 34 亿的照片. 另一方面,Google 不肯说自己有多少活跃用户,一些人说 Google+ 流量开始大幅下滑,Google 的管理层自己都不用 Google+,并且很多人认同 Google 工程师 Steve Yegge 的长篇文章 – Google 不懂平台.

《乔布斯传》作者:天才的直觉

- 晋安渔夫 - cnBeta.COM
感谢snow boots的投递. 《纽约时报》网络版周六刊登了《乔布斯传》作者沃尔特・伊萨克森(Walter Isaacson)的文章. 文章称,乔布斯最大的特质在于独创性. 他能够将人文和科学相结合,从而实现真正的创新.

追MM功败垂成?只是概率惹的祸

- 欣 - 死理性派 - 果壳网
这种感觉应该不陌生:邂逅一个 MM,感觉不错,于是发动攻势. 先搞到 QQ 号或者手机号,然后请她吃饭她也欣然答应. 后来越聊越投机,甚至一起出去郊游. 可是,在某个月黑风高的夜晚,你蓄谋已久,“不经意间”拉起她的手,MM 却异常反感,从此以后电话不接短信不回. 而你,除了恢复以前的日子继续宅在宿舍枯坐于电脑前之外,偶尔也会感慨一下:为什么每次都是这样,总是在最后一步就不给力了.

用JavaScript玩转游戏编程(一)掉宝类型概率

- vento - 博客园-Milo的游戏开发
游戏(和一些模拟程序)经常需要使用随机数,去应付不同的游戏(或商业)逻辑. 本文分析一个常见问题:有N类物件,设第i类物件的出现概率为P(X=i),如何产生这样的随机变量X. 输入数组<0.12, 0.4, 0.4, 0.07, 0.01> 输出符合以上概率的随机数序列,如<1, 4, 2, 1, 2, 2, 1, 0, ...>.