OpenAI科学家解密:为什么大语言模型会有幻觉?

标签: | 发表时间:2025-11-28 09:02 | 作者:
出处:https://weibo.com
OpenAI科学家解密:为什么大语言模型会有幻觉?

发一个技术文,OpenAI研究科学家Adam Kalai近期在普林斯顿高等研究院发表的讲座。原讲座有大量公式,在油管Institute for Advanced Study频道。

我读完,最大一个体会是:模型被鼓励不能说不知道。

一、什么是幻觉,为什么它比你想象的更严重

讲座一开始,Kalai就抛出了一个简单的问题:"PGGB代表什么?"

现场没有人回答——这正是Kalai想要的效果。

"我刚刚向你们证明了人类不会像语言模型那样幻觉。有人说'人类也会像语言模型一样幻觉,模型是从我们这里学的'——我们不会。我们房间里没有人开始胡说八道。"

而语言模型则会"自信"地编造答案:
• GPT给出了三个不同的答案:"Pulled Growth and Greenband"(互联网上搜不到)、"Public Gaming Group of Belgium"(比利时人喜欢玩游戏,肯定有这个组织吧?并没有)、"Personal Growth and Golding"(听起来很常见的术语,但根本不存在)
• DeepSeek给出了"Permutation of Go Given Barriers"——围棋策略相关的胡编
• Claude给出了"Pacific Gas and Electric Company"——这家公司的缩写是PG&E,连B都没有。更荒谬的是,Claude还补充说"在某些语境下有时缩写为PGGP"——问的是PGGB,它给的解释是PGGP

二、关于幻觉的四个常见误解

误解1:用准确率衡量幻觉

很多人看幻觉问题只看准确率,这是错误的思路。因为模型面对问题有三种选择:回答正确、回答错误、或者说"我不知道"。80%的准确率可能意味着20%的错误率(这是幻觉),也可能意味着20%的"我不知道"(这不是幻觉)。真正衡量幻觉的指标是错误率,不是准确率。

误解2:避免幻觉需要巨大的模型

Kalai半开玩笑地说:

"我认识的一些不那么聪明的人,反而相当有自知之明。对我来说说'我不知道'很容易——你用俄语问我问题,我会直接告诉你我听不懂。"

这其实是一个很好的学术挑战方向:用小模型证明概念,做一个不幻觉的小语言模型,展示它有多实用,然后再把方法移植到大模型上。

误解3:等准确率到100%就好了

问题在于,永远会有无法回答的问题——涉及隐私的问题、信息相互矛盾的问题、超出模型能力的数学问题。这时候模型需要说"我不知道",而不是硬猜。

误解4:幻觉要么已解决,要么永远无法解决

两种极端都不对。语言模型的幻觉率确实在下降,但还没到人类的低水平。最终目标是让模型以极低的概率幻觉,就像人类一样。

三、核心理论:为什么预训练必然导致幻觉

这是讲座最硬核的部分。Kalai提出了一个简洁的理论框架来解释幻觉的根源。

1、语言预测比分类更难

设想有两个集合:有效陈述(valid) 和错误陈述(error)。在传统的二分类任务中,你同时看到正例和负例,学习区分它们。但在语言预训练中,你只看到正例——训练数据理论上都是"正确"的文本,模型从来没见过"错误示范"。

"只从正例学习,应该比同时从正例和负例学习更难。"

这个直觉被形式化为一个定理:幻觉概率 ≥ 2倍分类错误概率 - 小项。

2、定理的核心洞察

如果存在一类事实,你根本无法学会区分正确和错误,那么在这类问题上你必然会大量幻觉。

什么样的事实无法学会区分?比如人的生日——生日之间没有规律可循,我告诉你房间左半边人的生日,你不可能推断出右半边人的生日。在这类问题上,分类错误率接近50%(跟瞎猜差不多),对应的幻觉率就接近100%。

有人问:"为什么模型不能永远说'我不知道',或者只重复训练数据里见过的内容?"

这是两个理论上不幻觉的极端策略,但问题在于它们没有"校准"(calibration)。什么是校准?简单说,就是模型对自己预测的置信度要准确——如果模型说某件事有70%的概率,那这件事真的应该在70%的情况下发生。

语言模型的训练目标(最小化交叉熵损失,可以理解为让模型预测的概率分布尽可能接近真实分布)天然会产生校准良好的模型。而"永远说我不知道"或"只重复训练数据"这两种策略,它们的概率预测是严重失真的,所以不会被训练过程选中。

3、古德-图灵估计器:量化幻觉率的下界

这个估计器来自图灵的合作者Irving Good。图灵当年研究的问题可以用钓鱼来类比:你钓了100条鱼,50条三文鱼,20条金枪鱼,还有一些其他品种……如果再钓一条,是你从没见过的新品种的概率有多大?

答案是:看有多少种鱼只出现过一次。直觉上,每种只出现一次的鱼,就像是一个"差一点就没见过"的样本——如果你少钓一次,这种鱼你就没见过了。所以它们代表了"再钓一次可能遇到新品种"的概率。

应用到幻觉问题:幻觉率的下界 ≈ 训练数据中只出现一次的事实占比。

Kalai问现场观众不同类型事实的出现频率:国家首都在训练数据中反复出现很多次,幻觉率低;名人生日是混合情况,有些人的生日出现很多次,有些可能从未出现;论文标题虽然每篇独特,但作者会在简历、个人网站、arXiv到处贴,所以大多数其实出现多次。

但这只是下界——实际幻觉率往往更高。比如论文标题,虽然在训练数据中出现多次,但神经网络不是存储和精确检索标题的好方式。更好的方法是用数据库直接存储标题列表,需要时直接查询。当表示方式不匹配任务需求时,实际幻觉率会远高于理论下界。

类似的例子是数字母:问"ladder这个词有几个d",语言模型的内部表示方式是把词拆成token(词元),每个token是一串字母的编号。模型必须学会"deer这个token(编号可能是19975之类的数字)包含一个d"——这是一个很别扭的学习任务,因为表示方式根本不是为数字母设计的。

四、为什么对齐阶段没能解决幻觉

语言模型训练分两个阶段:预训练(学习语言的统计规律)和对齐/后训练(让模型按照人类期望的方式回答)。预训练产生幻觉可以理解,但对齐阶段理论上应该消除幻觉。为什么没有?

1、评估标准的激励扭曲

想想你自己考试的时候。有多少人遇到不会的题会写"我不知道"或者空着?几乎没有。因为说"我不知道"和答错得分一样——都是零分。既然如此,猜一个至少还有蒙对的可能,所以猜测永远比承认无知更划算。

语言模型面临同样的困境。MMLU、GPQA Diamond、各种数学竞赛测试——这些主流评测(benchmark)都有一个共同特点:说"我不知道"等于答错,得零分。

"如果有人做出了一个不幻觉的更好模型,它在这些测试上的分数反而会更低。因为它会对不确定的问题诚实地说'我不知道',而在现有规则下,这等于白白丢分。"

2、人类评估同样有偏差

另一种评估方式是让人类对比两个模型的输出,选择更好的那个。问题是:人们往往更喜欢幻觉的答案。

你问"PGGB代表什么",一个模型说"我不知道",另一个模型给出带要点列表的详细解释。人们倾向于选择后者——因为他们自己也不知道PGGB是什么,没法判断那个详细解释是编的。

"人们喜欢那些有条有理的要点列表。所以很多评估方式实际上在奖励幻觉。"

3、真正的解决方案:改变评分规则

有人建议增加一个专门检测幻觉的评估。Kalai认为这远远不够:

"不要只加一个幻觉评估。语言模型现在有几百个评估指标,如果这几百个都在鼓励幻觉,我们只加一个反幻觉的评估,那是杯水车薪。应该改变所有现有评估的评分方式。"

具体方案:在题目中明确告诉模型惩罚规则。比如"答对得1分,答错扣3分,说'我不知道'得0分"。这样模型可以算出来:只有在超过75%确信时才应该作答,否则说"我不知道"期望收益更高。不同的惩罚系数对应不同的置信阈值,这提供了一个公平、可比较的评估框架。

之前有人提出过惩罚错误答案的想法,但关键的一步没做:没人把惩罚规则告诉模型。Kalai说这就像给你考试,告诉你"答错会扣分,但我不告诉你扣多少"——你没法做理性决策,而且不同模型也没法公平比较,因为它们心里假设的惩罚不一样。

Kalai在普林斯顿高等研究院做了实验验证:随着惩罚系数增加,模型说"我不知道"的频率确实相应增加,符合预期。但有趣的是,如果你看模型的实际得分(正确数 - 惩罚×错误数),在某个阈值之后,模型的得分会低于"全部说我不知道"的策略。这说明模型仍然过度自信——它以为自己知道的比实际知道的多。

五、行为校准:一个衡量"诚实度"的新维度

传统的校准(calibration)是关于预测准确性的:如果天气预报说降雨概率是70%,那在所有预报说70%的日子里,真的应该有70%下雨。如果实际只有50%下雨,就是校准不准。

Kalai提出了一个新概念:行为校准(behavioral calibration)。

"有些人会把手表调快10分钟。为什么要欺骗自己?因为这样对他们有好处——他们会更准时,表现更好。"

语言模型也有这个特点:如果你"骗"它说惩罚比实际更高,它的表现反而会提高。Kalai在实验中发现,给模型一个"最优谎言"(让它以为答错的惩罚更重),得分会上升。

理想情况下,我们希望模型不需要被"骗"——你告诉它真实的风险程度,它就能相应地调整自己的回答策略。一个行为校准良好的模型,应该能根据你说明的重要性,合理地决定何时作答、何时承认不知道。

---

六、人类为什么不幻觉:大脑双系统的启示

讲座快结束时,Kalai在黑板上画了一张大脑示意图。

人类大脑有两个主要的语言区域,功能截然不同:
• 韦尼克区(Wernicke's area):靠近耳朵,负责理解语言。它需要能听懂各种内容,包括谎言、脏话、你明知不是真的东西——你的耳朵需要能理解那些你绝不会说出口的内容
• 布罗卡区(Broca's area):靠近嘴巴,负责产生语言。这部分只输出你真正想说的、经过筛选的内容

有一种神经疾病叫韦尼克失语症(Wernicke's aphasia),患者会语无伦次地胡言乱语——这跟语言模型的幻觉惊人地相似。

"人类学会了不幻觉,因为如果我们胡说八道,我们看起来像傻瓜。我们不需要在考试里学这一课——在日常生活中瞎编被戳穿几次,自然就学乖了。"

这给AI设计带来一个启示:也许需要把"理解一切"和"只说有把握的"分成两个不同的模块。

对齐研究的核心问题是:我们到底希望语言模型说什么? 这是一个对所有人开放的大问题,你不需要了解语言模型的技术细节就能思考它——因为我们自己也还没有一个清晰的答案。

七、展望未来:当AI比我们更聪明时

Kalai在讲座最后分享了一些更长远的思考。

当AI变得比人类更聪明时,很多现有框架都会失效。幻觉仍然重要,公平性仍然重要,但会出现很多我们今天连定义都给不出的新问题。

他提出了一个发人深省的类比:把AI安全想象成密码学,而不是生物学。

很多人把AI当作一种自然现象来研究——观察它、记录它的行为、像研究某种正在失控进化的有机体。但密码学的视角完全不同:RSA加密和区块链是人类工程设计的产物,我们可以在数学上证明它们的安全性,甚至面对比我们拥有更多算力和更高智能的对手,它们仍然安全。

"密码学的核心就是:对抗一个比你有更多计算资源、可能比你更聪明的对手,同时保持安全。"

Kalai分享了一个与妻子Yael Tauman Kalai合作的理论结果:如果你有K个语言模型,其中大多数是"安全"的(不会产生有害输出),你可以构造一个中位数分布(median distribution)——它能放大安全模型的特性。具体来说,如果每个安全模型产生有害输出的概率都是极小的,那么中位数分布会保持甚至强化这个特性。

但目前有个实际障碍:不同语言模型之间的"重叠"可能极小。如果你拿Gemini和GPT来做这个实验,它们的输出分布可能几乎不重叠——比如同一道编程题,两个模型给出的代码风格完全不同。这会让上述算法难以应用。一个可能的解决方向是规范化输出——比如定义一个标准的"正确程序分布",让所有模型都朝这个标准靠拢,这样不同模型的重叠会变大,安全性放大的效果才能实现。

有人问:"能不能在预训练阶段就改变损失函数来解决幻觉?"

Kalai认为预训练可能不是解决这个问题的正确时机:

"因为有时候你其实想要幻觉。你让它写短篇小说、编菜谱——随便发挥。我告诉你我厨房里有什么食材,你尽管创造一个新菜谱。但问生日的时候,我不希望你瞎编。所以这是一个微妙的平衡——这类问题可以猜,那类问题不能猜,另一类问题要特别谨慎。我觉得这更像是一个需要明确指导的过程,不是单纯从数据里能学会的。"

有人追问:"但人类能自动学会什么时候该说'我不知道',为什么模型不能从数据中学会?"

Kalai承认这是个好问题,目前没有完美答案。也许通过提示词(prompting)就能部分解决——比如在提示中说"这是问题,现在请以那个非常谨慎的助手的身份回答",或者"如果你答错会很尴尬",甚至"如果你答错会被开除"。他提到一个有趣的实验发现:如果你在提示中告诉语言模型"答对给你20美元奖励",它的表现真的会变好。

相关 [openai 科学家 解密] 推荐:

OpenAI科学家解密:为什么大语言模型会有幻觉?

- -
OpenAI科学家解密:为什么大语言模型会有幻觉. 发一个技术文,OpenAI研究科学家Adam Kalai近期在普林斯顿高等研究院发表的讲座. 原讲座有大量公式,在油管Institute for Advanced Study频道. 我读完,最大一个体会是:模型被鼓励不能说不知道. 一、什么是幻觉,为什么它比你想象的更严重.

OpenAI团队成员都是谁

- -
「OpenAI团队成员都是谁,出乎意料吗. 」 新版 GPT-4 就要来了,据说很强大. 附图是ChatGPT的创建者OpenAI团队:(左起)首席执行官萨姆·奥特曼,首席技术官米拉·穆拉蒂,总裁格雷格·布罗克曼,以及首席科学家伊利亚·苏茨科弗. 首席执行官萨姆·奥特曼(Samuel H. Altman):1985年出生于芝加哥,犹太人,他十岁时出柜为男同性恋,他曾在斯坦福大学学习计算机科学,2005年退学创业.

基于OpenAI的代码编辑器:Cursor

- - 程序猿DD
最近随着OpenAI的一系列大动作,把软件领域搅的天翻地覆. 各行各业各领域,都出现了大量新产品. 开发工具领域首当其冲,各种新工具层出不穷,今天TJ就给大家推荐一个全新的开发工具:Cursor. 从官网介绍可以看到,Cursor基于OpenAI实现,继承了最新的GPT-4模型,支持Mac、Windows、Linux三大平台.

OpenAI 可能大到无法倒下

- - 奇客Solidot–传递最新科技情报
OpenAI 尚未盈利,其年收入仅为亚马逊的 2%. 它的企业重组基本完成,未来有望上市,可能成为第一家 1 万亿美元 IPO 的公司. 它与科技行业知名的企业如英伟达和甲骨文达成了复杂的交易,承诺投资和购买高达万亿美元的算力,通过一系列金额巨大的交易,OpenAI 似乎达到了“大到不能倒”的程度,如果真的倒下可能会对整个经济造成系统性风险.

OpenAI关于Kubernetes集群近万节点的生产实践

- - Indagate
OpenAI已经将Kubernetes集群规模扩展至7500个节点,为大型神经网络模型(如GPT-3,CLIP和DALL·E)及小型实验性研究提供了可扩展的基础架构. 很少将单个Kubernetes集群扩展到如此规模,为此进行了一些必要的改进,但好处是单一的基础架构使我们的机器学习研究团队可以在不修改代码的前提下,快速扩展以缩短实验时间、加速研发进度.

如何评价OpenAI的超级对话模型ChatGPT? - 知乎

- -
有幸参与ChatGPT训练的全过程. RLHF会改变现在的research现状,个人认为一些很promising的方向:在LM上重新走一遍RL的路;如何更高效去训练RM和RL policy;写一个highly optimized RLHF library来取代我的. dataset的质量、多样性和pretrain在RLHF的比重很重要.

ChatGPT实火!微软正洽谈100亿美元增持OpenAI

- - TechWeb 今日焦点 RSS阅读
【TechWeb】1月10日消息,据国外媒体报道,最近爆火的AI聊天机器人ChatGPT所有者OpenAI在日前传出打算以要约形式出售股票后,今日又传出了与微软更进一步投资合作的消息. 知情人士称,周二,微软正在与OpenAI就100亿美元的入股事宜进行谈判. OpenAI此次融资对象还包括其他风险投资公司在内.

ChatGPT的前世今生:OpenAI的技术“执拗”与“豪赌”

- - 新浪科技滚动新闻
本文全方位地介绍了 ChatGPT 的能力特征、发展历程以及 OpenAI 一路走来所坚守的技术路线,并对 ChatGPT 出现之后 NLP 领域的范式转换进行了展望,即 ChatGPT 开启‘文本生成 + 指令’的范式.   1、ChatGPT,不再‘愚蠢’的人工智能.   ChatGPT 的相关话题应该算是继 AlphaGo 以来,最出圈的人工智能热点了.

使用 OpenAi Api 在本地搭建一个 ChatGPT 网页版

- - SaltyLeo 的博客
之前 ChatGPT 在网络上大火,由于很多开发者使劲薅羊毛,OpenAi 也撑不住了,对于新注册账号只有5美刀的免费额度了,网页版也各种限制. OpenAi 使用了 CloudFlare 的防火墙,而我使用的 IP 是美西的机房,没有任何意外地被屏蔽了. 为了方便我继续使用,我在移动端设备使用 baye 大佬开发的.

OpenAI大模型上身机器人,原速演示炸场!

- - 量子位
量子位 | 公众号 QbitAI. OpenAI大模型加持的机器人,深夜来袭. 名曰 Figure 01,它能听会说,动作灵活. 能和人类描述眼前看到的一切:. 我在桌子上看到了一个红色的苹果,沥水架上面还有几个盘子和一个杯子;然后你站在附近,手放在桌子上. 听到人类说“想吃东西”,就马上递过去苹果.