社会科学的全面数字化
本文谈谈现代人,或者说现代的西方学者,是怎么研究社会科学的。在我国,常常是很多人因为感到数学不好学而去学社会科学,比如说去学法律。这样自然选择的 结果是产生了一大批像李银河这样感情充沛而不切实际的所谓学者。然而现在最领先的西方学者已经抛弃了过去那一套抱着悲天悯人的心态空谈理论的研究方法。如 果你去读他们的论文,你会发现其中到处都是图表和数学公式;如果你去观察他们的工作,你会发现他们大部分时间不是在写字,而是在编程。
法律领域内有一个非常经典的问题:给犯罪分子更长的刑期,是否会增强对他的改造,从而减少其出狱后的再犯罪率?在以往,人们可能会从伦理,道德,心理学 的角度去分析这个问题。有的人可能会举出各种例子来证明他的论点,然而这些例子往往是非常极端而没有代表性的。这个问题直到最近才得到一个有说服力的答 案。
耶鲁大学的Berube 和 Green 的研究完全基于数学统计。联邦法院总是随机的往不同的辖区派法官。有些法官倾向于重判,给长刑期;有些法官倾向于轻判,而随机过程决定了每个法官倾向于总 体面对类似的案件。这样一来,可能完全相同的犯罪事实,有的犯罪分子比较幸运就获得了较短的刑期,而不幸的就会刑期较长。作者通过对一万多名犯罪分子记录 的统计分析,结论是,刑期长短与再犯罪率无关。如果没有这样的统计数据,如果没有法官的随机指定,像这样的问题可能永远都无法解决。
统计是一个非常强大的研究社会问题的手段。NCAA篮球中有没有球队参与赌球?拉斯维加斯的一个赌博项目是每场比赛的胜负分差(Point Spread),也就是我们所常说的让多少球。比如宾夕法尼亚大学对哈佛大学,赌场开出的分差是14.5分,也就是说如果你押宾大,他们必须赢至少15分 你才能赌赢。如果你考察每场比赛的实际分差,和赌场事先开出来的比赛分差,其相差值几乎完美地符合正态分布(平均值是0)。这样一来,正好有50%的时 候,胜者实际赢了对手多少分比赌场预测值高,50%的时候比预测值低。也就是说赌博的赔率几乎是50%。这种50%概率正是赌场最喜欢的赌赢概率。
然而问题是,如果你考察那些胜负分差超过12分的场次,那么其分布就不是完美的正态分布了:有53%的机会,胜队实际取胜分差会比预测值低。为什么会出 现这种情况?宾大学者 WOLFERS 猜测,当稳操胜券的时候,胜队会故意放水一点,去操纵比赛分差来影响赌局(术语叫做 Shave Points)。也就是说使用统计方法,你甚至不需要任何直接的证据就能发现有人参与赌博。
类似的手段可以应用几乎任何社会领 域。比如说婚姻问题。传统的婚姻问题专家判断一对夫妇是否会离婚,成功率只有53%,只比瞎蒙高一点。而最新的方法,听一对夫妇之间的交谈15分钟,就有 能以95%的准确率判断他们未来15年内会不会离婚。其所使用的方法,是给这15分钟的交谈录像,然后几个人坐下来看录像,一个画面一个画面的分析其中人 物的细微表情和语言,然后把统计结果输入一个事先做好的复杂方程之中,这个方程会告诉你该夫妇离婚的可能性。这个方程是怎么设计出来的呢?用大量的数据回 归出来的。
统计方法能够大行其道的根本原因是现在网路和计算机技术的提高,特别是便宜的海量存储给大量的数据分析提供了可能性。现在指导社会科学的先进文化是理工科思维,先进生产力是统计模型,计算机和海量的数据。
这种通过分析海量数据来预测和理解社会问题的方法被人称为 number crunching,现在甚至已经有了专业的公司专门为商业公司干这个事情来预测顾客行为。这样做的一个结果是商家可能比你自己更了解你。比如你从 Blockbuster 租了一盘 DVD,Blockbuster 可能比你更了解你不按时归还的概率。
一个典型的专业公司是 Teradata。它为65%的世界顶级零售商,70% 的航空公司,和40%的银行服务。他们的一个典型业务是判断哪些老顾客可能会因为一次不愉快的服务经历而离开你们公司。Continental Airlines 就专门有人做这个。比如一次航班误点或者行李丢失事件发生之后,如果统计分析系统判断某个长期顾客有可能要因此从此不飞 Continental 了,这位客户就会得到特别好的照顾。
甚至赌场也这么做。每一个顾客入场玩都刷卡。他们根据每一个顾客的 收入,年龄,以往赌博记录,居住地等等计算该顾客的 pain point – 也就是此人一晚上最多输多少钱下次还能来玩。一旦发现某位顾客今晚输的钱已经接近 pain point 了,就会立即派服务员过去邀请他免费吃顿牛排停止赌博。
这件事情的最可怕前景是,商家将会可以根据顾客不同的价格承受能力,给每个顾客一个不同的价格。
传统的社会专家靠直觉,甚至是个人感情好恶来做研究,而未来属于数字。但我国在这方面可以说是相当落后。我国”主流经济学家”经常鄙视那些玩数学模型的海归,人们不习惯用数字说话。
更不利的一点是,我们可能根本就没有数字可以用。我国的统计水平可以说是极差,一个最基本的GDP数字居然都能随便变来变去。在这种情况下你怎么才能很 好的做出决策?我们看NBA比赛,无不赞叹美国人对数字统计的热衷:这是他的这个赛季的第几个两双,如果他两双了球队获胜的概率是多少,等等等等。量化思 维必须被培养成一种习惯。从这个角度讲,”吉尼斯世界纪录”的最大贡献可能是培养了人们尊重数字的习惯。
没有数字就没有真像。
本文素材主要来自两本书:Blink,作者是纽约人杂志的记者,和 Super Crunchers,作者是耶鲁法学院的教授,此人擅长用计算机做统计研究。