族群歧视与用户画像
- 族群标签
题图是这两天的新闻人物美籍越南人 Dr. Dao。美国朋友觉得奇怪,为什么要说他是越南人?我们只认得他是 Asian。另一位 Asian,估计是位澳大利亚籍香港人,发了一条推特说——Dr. Dao 当时反抗的暴力其实是合法的强制执法。第三位 Asian,相信是位中国籍大陆知友,读了这条推特很愤慨,挥键写就高赞爆款推送《比打人更可怕的是国人的落井下石》。
每当读到这些族群标签信息,我们的大脑就会搞一串可能正确更可能错误的神经网络模式匹配;我们的电脑读到这些标签,也会搞一串可能错误更可能正确的统计回归预测。这两种运算的结果就是 歧视(=Discrimination),中英文语义都是贬义。如果不说语义只看字面,中、英文字面都很理中客。比如「犹太人心智超群」这样的反向歧视,一样符合 Discrimination/歧视=「区别对待」的字面意思。
- 用户画像
让部分国人感到反转的是 Dr. Dao 律师 Demetrio 的声明:不相信这件事的背后有族群歧视动机。如果人脑根据族群标签比如Asian,对客户作出区别对待,这就叫族群歧视动机。如果人脑根据其它公开信息比如头像、姓氏,得到族群标签预测——比如「国人」,然后再作出区别对待,这也叫族群歧视动机。Demetrio 的意思是:不相信美联航经手这件事的职员作了基于族群标签自变量或中介变量的这两种区别对待。 麻烦的是,人工智能不经过人脑,仍然可能作出类似的区别对待。如果美联航的系统用了「用户画像 (Personas)」,就可以对不含族群标签的一摞变量应用机器学习,识别用户的类型加以区别对待。这种歧视甚至可以说是族群歧视的升级版——如果你虽然是 Asian 但不象 Asian 那样,它并不把你与其他 Asian 归成一类;如果你不是 Asian 但象多数 Asian 那样,它仍会把你与多数 Asian 归成一类;如果有两类 Asian 彼此非常不同,它还会小心地分开成两个归类;最妙的是,它并不把归出的类型打上任何族群标签。
与参数节俭的统计回归预测不同,机器学习的区别对待不是在算法层面写入歧视的族群标签,机器学习的区别对待是从数据自身面貌错落识别出歧视。反讽的是,人脑不经深思熟虑的直觉更象机器学习、更不象统计学习——人脑歧视更多时候也不是被教唆的算法,人脑歧视更多时候只是给数据面貌标了政治不正确的族群标签。现在好了,人工智能不仅可以帮人脑背锅完成分类区别对待,甚至可以比人脑更富于理性,甚之又甚者可以比人脑更富于(免于政治不正确的)德性。
- 心理剖面
用户画像技术近期最重大的进展,是对心理剖面 (Psychological Profiling) 的整合。英国脱欧与川普胜选背后隐藏着同一支代表了先进生产力的团队—— Cambridge Analytica。在这支团队的工作之前,业界的用户画像通常只用到人口学变量、用户行为变量、设备变量。例如 Bilibili 的用户画像,主要通过年龄段、性别、客户端、关注与上传的视频类别,将用户划分为不同的世代。Cambridge Analytica 革命性地引入测评技术已经很成熟的大五模型(Five-Factor Model),具体而言,是五个缩写为 OCEAN 的人格变量——
此前的用户画像只强调大数据,心理剖面反其道而行。从用户行为的一摞自变量到 OCEAN 得分的预测,这一步用的是监督学习范式。建立这个预测模型的样本量虽然不太小(五位数),每个个案的施测成本可也不少。这就不再是大数据而是深数据,得到的预测模型最后再整合到大数据(八位数以上)的多种应用场景。于是,共和党的助选团队从人口学的「区别对待」升级为心理学的「操控干预」,最终在关键选区获取关键优势,打破绝大多数主流调查机构预期,全球政局为之扭转。
如果熟悉同卵孪生相关系数的研究,就比较容易理解心理剖面怎样在技术上革命性地升级了用户画像。基因变量数量极其庞大,如果直接用来预测个体的干预操控效果,只适用大数据机器学习范式。目前基因测序行业还停留在这个层面,为客户作出的各种预测相当不靠谱,典型的预测比如「你得青光眼的概率比普通人高五倍」。但如果研究者掌握了其中一份表现型(同卵孪生兄妹)的关键变量,再从这组关键变量去预测客户的情况,预测的准确程度将大大超出公众媒体的认知。心理剖面先用几万被试烧进好多钱,得到行为变量→关键变量的映射,其精确程度接近于偷看了你克隆兄妹的OCEAN得分。
- 行为科学的政治正确
用户画像区别对待,怎么听都觉得政治不太正确。心理剖面操控干预更等而下之,可谓看人下菜、对症下迷药。芝加哥机场安保如果用心理剖面,可以对 OCEAN 的 N 高分乘客准备电棍以避免流血——N 高分更倾向抵抗执法暴力;美联航如果采用心理剖面,可以精准筛选 OCEAN 的 A 高分乘客请君出瓮——A 高分更容易配合、更倾向事后不起诉。
用户体验研究下的整个行为设计领域,更是在明火执仗地这么干。行为科学从根子上就是个非常政治不正确的学科。行为科学史许多研究者与极权政体有特殊关系。巴甫洛夫虽然是沙俄旧政权的知识分子,晚年却在苏联获得无上尊崇;民国最有影响力的行为主义学者、复旦心理系之父郭任远,直接参与了黄金十年南京政府的法西斯意识形态工作;斯金纳在美国正相反,被广泛视作政治极其不正确的异类。从行为设计产业回顾,可以发现行为主义学者的政治不正确正是对移动互联世代同一命题的预见前瞻。川普助选团队运用心理剖面破坏民主制度,其背景同样可以在行为科学史往回追溯。
斯金纳有句赤裸裸的名言:「人类的真问题不是如何 攻破操控获得自由,而是如何改良升级所 受的操控」。改良升级操控也许不是人类的真问题,但显然是行为设计的真问题。吊诡的是,行为设计特别强调用户体验的「操控感」,交互界面力求流畅,触控反馈绝少迟滞。那么,行为设计带给用户是操控还是受操控?卡尼曼的峰终律(Peak-End Rule)研究给出一个意外的深刻回答——
用经济学的术语,被试个体在每个时点当下的效用函数与长时段之后的效用函数完全不同,二者仅有近 0.5 的正相关。这个相关系数有多低,可以对比一下由不同家庭收养的同卵双胞胎,他们成年后的心理变量往往有超过 0.7 的正相关。把经济学黑话翻译成心理学黑话——短时记忆的你与长时记忆的你是两个不同的人格,差别要大过不同后天成长环境的遗传克隆同胞。行为设计帮助短时记忆直觉行为的你最大程度地增强操控,让长时记忆日常语言的您更「好」地受操控。
小结一下:用户的行为类型族群分野被无人干预的用户画像更好地识别,人工智能「升级改良」了族群歧视;用户的短时当下人格被无人干预的心理剖面更好地预测,行为设计升级改良了当下人格的操控感体验、同时「升级改良」了长时人格受操控的程度。
相关 Live 广告
- Live 《习得自助》后半场与文本相关,详见《习得自助》Live 后记
- 即将开讲的 Live《遗传进化》前半场内容是同卵孪生相关系数研究,为先天基因与后天家庭一解纠结
- 最早的 Live 《幸福三味》想讲的东西太多,Peak-End Rule 相关内容其实基本没讲,与文本相关内容只讲到「体验内容派生意识自我」
- 文中还提及 《哔哩哔哩用户画像分析》Live,免费软广没收 B站的钱