机器思考的本质 / Gemini 的核心缔造者揭秘大语言模型推理的魔法与真相
2025 年初的一个下午,斯坦福大学 CS25 课程迎来了一位特殊的演讲者 —— Google DeepMind 推理团队创始人 Denny Zhou(周登勇)。面对座无虚席的教室,他抛出了一个看似简单却又深刻的问题:“大型语言模型(LLM)真的会推理吗?”
台下的学生们大多举手表示相信,但 Denny 的回答却出人意料:“说实话,我不知道。这完全取决于你如何定义 推理。“
这个诚实的开场白,为接下来一个多小时的精彩演讲定下了基调 —— 不谈玄学,不搞神秘主义,而是用工程师的严谨和科学家的好奇心,剖析 LLM 推理能力的本质。本文根据 Denny Zhou 的分享和演示文稿整理创作而成。
01
重新定义推理 —— 从哲学回归工程
什么是 LLM 的“推理”?
Denny 首先做了一件至关重要的事:为整场演讲建立一个清晰、可操作的"推理"定义。他强调,在没有明确定义的情况下参与“LLM是否会推理”的辩论毫无意义。
在 LLM 的语境下,推理被定义为: 在输入和输出之间生成的中间步骤(intermediate tokens)。这个定义简单的避开了意识、思维等哲学层面的纠缠,直接聚焦于可观察、可度量的现象。
其实这个想法其实并不新鲜。早在 2017 年,DeepMind 就发表了一篇开创性的论文,探讨如何使用自然语言的中间步骤来解决数学问题。在那个 AlphaGo 称霸围棋界、符号推理和搜索算法主导 AI 研究的年代,这篇论文就像一颗投入平静湖面的石子,激起了层层涟漪。
末字母串联:一个看似简单的测试
为了让抽象的定义变得具体,Denny 分享了他在创建 Google Brain 推理团队时设计的一个经典任务 —— “末字母串联”(last letter concatenation)。
问题很简单:将“artificial intelligence”这两个单词的最后一个字母连接起来,答案是什么?如果模型直接输出“le”,这只是一个简单的模式匹配。但如果模型生成这样的回答:"‘artificial’ 的最后一个字母是 'l';'intelligence' 的最后一个字母是'e'。将 'l' 和 'e' 连接起来得到 'le'。"
这些详细的步骤就是 Denny 所说的“推理” —— 那些为了得出最终答案而生成的、描述过程的中间文本。
有趣的是,Denny 透露他最初尝试的是"首字母串联",但发现几乎所有模型都能轻松完成,因为网络上充斥着大量的缩写词(如USA、CEO)。只有当换成模型不熟悉的“末字母”任务时,才真正考验并体现出了推理过程的必要性。
“我们必须时刻牢记,” Denny 强调道,“ LLMs 只是概率模型,它们不是人类。” 这种清醒的认知贯穿了整场演讲,也是理解后续所有技术演进的关键。
02
理论的力量 —— 为什么中间步骤如此重要
从理论看推理的必要性
接下来,Denny 从理论层面阐述了推理(即生成中间步骤)的深刻价值。他引用了与斯坦福大学合作的一项重要理论研究成果:
对于任何可以由大小为 T 的布尔电路解决的问题,一个规模恒定的 Transformer 模型可以通过生成 O(T) 数量的中间令牌来解决它。
这个结论听起来有些学术,让我用更通俗的方式解释:
想象你要解一道复杂的数学题。你有两个选择:
- 1. 建造一个超级复杂的大脑(深度巨大的模型),一步就算出答案
- 2. 用一个正常大小的大脑,但允许在草稿纸上写下推导过程
理论告诉我们,第二种方法不仅可行,而且更高效。这就像一个普通人通过在纸上一步步演算,可以解决复杂的微积分问题,而不需要拥有一个能瞬间得出答案的“超级大脑”。
如果我们强迫模型直接输出最终答案,就等于剥夺了它“思考”的过程。此时,要么需要一个极其庞大和深邃的内部结构来“硬算”出结果,要么就根本无解。这从根本上解释了为什么像“思维链”这样的技术能够奇迹般地提升 LLM 的能力 —— 它解放了模型进行逐步计算的潜力。
03
惊人的发现 —— 推理能力早已存在,只需"唤醒"
贪婪解码的局限
一个普遍的误解是,预训练的 LLM 本身无法推理,必须通过提示工程或微调来“教会”它。但 Denny 的研究揭示了一个大家普遍忽略的事实: 推理能力早已蕴藏在预训练模型中,我们缺少的不是能力本身,而是发现它的正确解码策略。
让我们看一个具体的例子:
“我有3个苹果。我爸爸比我多2个苹果。我们总共有多少个苹果?”
当你将这个问题输入一个未经任何推理优化的预训练模型(如早期的 LLaMA),使用标准的贪婪解码(Greedy Decoding)—— 即总是选择在每一步概率最高的词 —— 模型很可能会直接输出一个错误的答案:“五个苹果”。
这似乎印证了"模型不会推理"的观点。
隐藏在概率空间中的推理路径
然而,魔法发生在当我们超越贪婪解码时。Denny 的团队发现,推理过程其实隐藏在那些概率稍低一些的“备选答案”中。
当我们查看模型的多个候选输出时,会发现:
- 1. "5 apples." - 这是贪婪解码的结果,但错了
- 2. "I have 3 apples, my dad has 2 more apples than me, so he has 5 apples. 3+5=8." - 虽然以"I"开头的概率不是最高的,但它引出了完整正确的推理链
- 3. "We have 8 apples in total." - 直接给出正确答案
- 4. "You have 3 apples, your dad has 2 more apples than you, so he has 5 apples. 3+5=8." - 另一个展示完美推理过程的回答
关键洞察是:正确的推理链 存在于模型的输出空间中,只是它们没有在贪婪解码中胜出。问题从“模型会不会”转变成了“我们如何找到它”。
思维链解码:让推理浮出水面
基于这个发现,Denny 团队提出了一种全新的解码策略 —— 思维链解码(Chain-of-Thought Decoding):
- 1. 超越贪婪,探索更多可能:不再只看概率最高的路径,而是生成多个不同的候选回答序列
- 2. 信任答案的置信度:在所有候选回答中,选择那个对最终答案具有最高置信度的回答
这里的“置信度”指的是模型在生成那个特定答案词(比如数字"8")时给出的概率。Denny 揭示了一个非常有趣的现象: 当模型通过一步步推理得出答案时,它对这个答案的信心会异常地高。在苹果的例子中,当模型生成了完整的推理链后,预测出最终答案"8"的概率可能高达 98%,这在一个拥有数万词汇表的模型中是极为罕见的。
04
从解码到提示 —— 重塑输出空间
思维链提示的本质
虽然思维链解码效果显著,但它需要编程实现,不够“自然”。这就引出了大家更熟悉的技术:思维链提示(Chain-of-Thought Prompting)和“让我们一步步思考”(Let's think step by step)。
这些技术的本质作用是 重塑模型的输出概率分布,让包含推理过程的“好答案”能够自然地排在首位,被简单的贪婪解码直接找到。
当模型看到范例中的解题步骤,或者读到“让我们一步步思考”时,它会大幅提高生成类似推理步骤的概率。原本隐藏在低概率区域的正确推理路径,现在被"抬"到了最高概率的位置。
“让我们一步步思考”的魔力
Denny 分享了一段特别有趣的个人经历。当“Let's think step by step”这篇论文刚发表时,他的第一反应是:“这一定是个玩笑。” 他当时在 Google Brain 团队,非常清楚他们内部的大模型 PaLM 是如何构建的,其训练数据里绝对没有针对这句“咒语”做任何优化。
然而,当他抱着怀疑的态度在 PaLM 上尝试时,发现它竟然真的有效!“我当时震惊了,” Denny 回忆道,“这篇论文真正激发了我对LLM推理研究的深入探索。”
这个经历极大地启发了他,让他意识到 LLM 推理的研究中蕴藏着远超他们想象的深刻奥秘。这也从侧面证明了,推理能力是一种从大规模数据中 涌现出来的通用能力,而非特定指令训练的结果。
05
监督微调的困境 —— 为什么人类数据不是最优解
SFT 的基本思路
接下来,Denny 转向了一个看似更“主动”的方法 —— 监督微调(Supervised Fine-Tuning, SFT)。这是提升模型能力的常用方法,其思路直观而简单:
- 1. 收集大量问题和人类专家编写的高质量"标准答案"(包含详细推理步骤)
- 2. 用这些"问题-标准答案"对,对预训练好的大模型进行进一步训练
- 3. 目标是让模型输出尽可能接近人类写的标准答案
这个方法非常直观。OpenAI 的 GSM8K(小学数学题)数据集的早期工作就是遵循这一思路。理论上,只要我们给模型"喂"足够多高质量的人类解题范例,它就应该能学会如何推理。
现实的残酷
然而,现实是残酷的。
Denny 指出,他的团队早在 2021 年夏天就发现,SFT 在推理任务上的效果并不理想。模型或许能在与训练数据相似的任务上表现不错,但一旦遇到新的、未见过的问题类型,其性能就会急剧下降,表现出很差的泛化能力。
更令人沮丧的是,单纯地增加数据量(Scaling)也于事无补。
“不要盲目地扩大规模,” Denny 警告道,“一旦范式是错误的,无论你如何扩大规模,它都不会起作用。”
问题的根源:"from human"
那么,SFT 的根本问题出在哪里?
Denny 用红色圈出了问题的核心: "from human"。
我们试图强迫模型去模仿人类的思考和表达方式。但 LLM 毕竟是一个概率模型,它的内部“世界观”和最优的“思考”路径,与人类大脑的运作方式截然不同。人类标注员给出的“完美答案”,在模型看来可能是一条非常“奇怪”、不符合其概率分布的路径,学习起来非常困难且低效。
这就像教一只鸟像鱼一样游泳 —— 即使它勉强学会了,也永远无法与真正的鱼相媲美,更无法举一反三。
这个洞察对于整个 AI 训练领域都有着深远的意义。它挑战了“人类数据永远是黄金标准”的传统观念。在某些任务上,尤其是需要模型进行内在生成和推理的任务上,让模型从"自己"的成功经验中学习,可能比模仿人类更有效。
06
自我进化之路 —— RL 微调的革命性突破
从人类数据到模型数据
既然从人类身上学习的SFT范式存在根本缺陷,那么出路在何方?
这个想法最初由一篇名为"Star"的论文提出,其核心改变非常简单,却至关重要:
- • 不再收集人类标注的答案
- • 而是让 模型自己针对问题,生成大量的、包含推理步骤的候选答案
- • 然后,利用一个外部的、可靠的方式(比如对于数学题,我们知道标准答案)来筛选出那些最终结果正确的生成
- • 最后,用这些被验证为"好"的、 由模型自己生成的数据,去微调模型
Denny 回忆说,当他的团队成员第一次提出“机器生成的回复可能比人类数据更适合训练”时,他本人也感到非常惊讶。这个方法最初可能是为了节省昂贵的人力标注成本,但后来大家发现,它的意义远不止于此。
形成自我进化的闭环
将上述过程迭代化,就构成了 RL Fine-tuning 的核心循环:
- 1. 生成(Generate):用当前的模型,针对一批问题生成多种解决方案
- 2. 验证(Verify):用一个可靠的验证器给这些方案打上"正确"或"错误"的标签
- 3. 学习(Learn):强化(增加概率)那些通往正确答案的推理路径,同时抑制(降低概率)那些导致错误答案的路径
- 4. 重复(Repeat):用变得更强的新模型,回到第一步,开始新一轮的循环
回归机器学习第一性原理
Denny 强调,要理解 RL Fine-tuning 的威力,我们必须回归到机器学习最根本的第一性原理:
"直接优化你想要的东西!(Directly optimize what we want!)"
- • 在 SFT 中,我们优化的目标是“模仿人类的文本”,但这并不是我们最终想要的
- • 在 RL Fine-tuning 中,我们真正优化的目标是“解决问题的最终正确率”这个指标本身
整个训练过程变成了一个清晰的数学优化问题:最大化奖励函数的期望值,其中奖励就是衡量生成质量的指标(比如答案是否正确)。所有的RL算法(如PPO)和复杂的梯度计算,都服务于这个最直接、最纯粹的目标。
模型不再需要去猜测“人类会怎么说”,而是可以自由探索最适合它自己的、能够稳定得出正确答案的推理方式。
验证器:进化的关键
在这个自我进化的闭环中,一个可靠的验证器(Verifier)变得至关重要。它就像是进化过程中的"自然选择",指引着模型朝着正确的方向演进。正如传奇 AI 学者 Rich Sutton 所言:“验证,是通往 AI 的钥匙(Verification, the key to AI)”。
07
推理之美 —— 超越搜索的智能
与传统 AI 的本质区别
在解释了如何通过 RL Fine-tuning 培养出强大的推理能力后,Denny 展示了一个令人叹为观止的案例,生动地诠释了这种新范式下的“推理之美”。
他引用了国际象棋大师卡斯帕罗夫在 1997 年输给"深蓝"后的一句名言:
“深蓝的智能,和你那个可编程的闹钟没什么两样。”
Denny 表示他同意这个评价,因为"深蓝"的胜利本质上是基于海量的计算和暴力搜索。但他强调, LLM的推理则完全不同,搜索在其中并非核心。
震撼案例:Gemini 挑战数学难题
为了证明这一点,Denny 展示了他在 2024 年 12 月用 Gemini 模型解决的一个自创数学题(为确保该问题不在任何训练数据中):
问题:使用1到10这十个数字,每个数字只用一次,通过加法和乘法运算,得到结果2025。
传统解法是编写一个程序进行穷举搜索,尝试所有可能的数字和运算符组合。
但让我们看看 Gemini 的“思考过程”(中间步骤):
- 1. 初步洞察:模型首先注意到“2025 是一个相对较大的数”,因此“乘法会是主要部分”,这是一种基于直觉的判断。
- 2. 关键发现:接下来,模型给出了一个惊人的发现:“值得注意的是,2025 是 45 的平方(45 × 45)”。Denny 坦言,就连他自己出题时都未曾注意到这个巨大的提示!
- 3. 策略制定:基于这个发现,模型没有去盲目组合数字,而是将宏大目标分解为两个子目标—— 分别用一部分数字凑出 45。
- 4. 求解与组合:模型最终找到了一种解法:
(10×4+5) × (9×3+8+7+2+1)
,其中两个括号内的部分都等于 45。
这个过程没有丝毫的暴力搜索痕迹,完全是基于对数字规律的深刻理解、目标分解和策略规划。 这正是人类专家解决问题的方式。
Denny 特别提到,这个问题比经典的“24 点”游戏要难得多,而之前解决“24 点”通常需要结合搜索算法,但现在,一个经过良好训练的 LLM 仅凭自然语言的逐步生成,就能以如此优雅的方式解决更复杂的问题。
学习战胜硬编码
这个案例有力地回应了 Rich Sutton 在《苦涩的教训(The Bitter Lesson)》中的思想:"我们想要的是能像我们一样去发现的 AI,而不是一个塞满了我们已有发现的容器。"
LLM 推理的涌现,正是“学习”这一可扩展范式战胜“硬编码知识与搜索”的最好证明。模型通过学习海量数据中的模式,内化了解决问题的通用策略,而不仅仅是记忆具体问题的解法。
08
进阶技术 —— 聚合与检索的力量
聚合的数学原理:自洽性
在 RL Fine-tuning 奠定的坚实基础上,还有两大技术可以进一步显著提升LLM的推理能力。首先是通过聚合(Aggregation)多个推理路径来增强结果的鲁棒性,即自洽性(Self-Consistency)。
Denny 首先指出了标准解码过程中的一个根本性数学缺陷:
- • 模型所做的:寻找一个概率最高的 完整序列,即
argmax P(reasoning, final answer | problem)
- • 我们想要的:找到一个能以最高概率导向正确答案的路径,即
argmax P(final answer | problem)
这两个目标 并不等价!一条推理过程听起来最"顺"的路径,其最终答案不一定是正确的。
自洽性的实践
如何弥合这一差距?答案是概率论中的一个基本操作: 边际化(Marginalization)。
自洽性方法巧妙地近似了这一过程:
- 1. 随机采样:让模型通过随机采样生成多个(例如 40 个或 100 个)不同的推理路径和答案
- 2. 投票表决:忽略所有的中间推理过程,只看每个路径最终得出的答案,选择出现次数最多的那个答案作为最终结果
这就像民主投票一样简单,却能带来巨大的性能提升:
- • PaLM 模型结合思维链提示,准确率约为 58%
- • 加入自洽性后,准确率 飙升至 75%
- • 新一代的 PaLM-2 模型,结合这些技术,准确率更是达到了惊人的 92%
此外,自洽性还提供了一个天然的 置信度校准机制。一个答案的“一致性”(即在多次采样中出现的频率)越高,其正确的概率也越高。当一致性超过 80% 时,准确率几乎接近 100%。
检索的价值:当推理遇见知识
Denny 接着谈到了另一个重要的增强方向:检索(Retrieval)。他务实地指出,与其陷入“模型究竟是在推理还是在检索记忆”的无谓辩论,不如务实地将两者结合,实现“检索 + 推理”。
他通过两个生动的例子展示了检索的威力:
- 1. 类比推理:
- • 问题:计算一个由四个顶点坐标定义的正方形的面积
- • 解决方案:在提问前,加入提示"回忆一个相关问题,然后再解决这个问题"
- • 效果:模型被激活后,首先自行检索到了相关的基础知识(两点间距离公式),然后成功地运用这个知识计算出面积
- 2. 退一步思考:
- • 问题:一个关于理想气体定律的物理问题
- • 解决方案:引导模型"退一步",先思考问题背后的核心物理原理(PV = nRT)
- • 效果:模型首先抽象出核心原理,然后基于这个清晰的原理进行逐步推导,最终得出正确答案
目前最前沿的应用,如 Gemini 和 OpenAI 的“深度研究”(Deep Research)功能,正是这种" 检索 + 推理"范式的完美体现。
09
核心洞察与未来展望
在演讲的最后,Denny 为我们提炼了关于 LLM 推理最核心、最值得带走的几点洞察:
- 1. 推理 > 无推理:无论任务简单与否,让模型生成中间步骤,总是比让它直接给出答案效果更好、更可靠。
- 2. RL Fine-tuning > SFT:让模型从自身的成功经验中学习,远胜于强迫它去模仿人类的解决方案。
- 3. 聚合 > 单一答案:通过自洽性等聚合方法,利用多次采样的“集体智慧”来做最终决策,可以显著提升准确性和鲁棒性。
- 4. 检索 + 推理 > 单纯推理:将模型的内在生成能力与外部知识检索相结合,是打破其知识局限、解决更复杂现实问题的必由之路。
未来的突破口在哪里?
Denny 也坦诚地指出了当前领域面临的巨大挑战和未来的机遇:
- 1. 超越"唯一可验证答案"的任务:目前的 RL Fine-tuning 严重依赖于有一个能自动判断对错的验证器。但对于像“写一首诗”、“设计一个软件架构”或“进行一次有创意的头脑风暴”这类没有唯一正确答案的 非可验证任务,我们该如何训练和评估模型?这可能是下一代 AI 研究需要攻克的最大难关。
- 2. 构建真正的应用,而非刷榜:学术界的基准测试(benchmarks)很快会达到饱和。真正的价值在于将这些强大的推理能力转化为能解决现实世界问题的 真实应用,无论是辅助科研、编程,还是创造全新的交互体验。
最后的哲学
演讲的最后,Denny 引用了物理学巨匠理查德·费曼的一句话作为结尾:
"真相,往往比你想象的要简单。"
从看似魔法的提示,到背后简单的概率分布重塑;从复杂的神经网络,到回归"直接优化目标"这一机器学习第一性原理。Denny 的整场演讲,都在为我们揭示 LLM 推理背后那些简单而深刻的“真相”。
这,或许就是 AI 时代最迷人的悖论:最像人类智能的表现,恰恰来自于最不像人类的过程。而理解这个悖论,正是我们真正理解和发展 AI 的开始。
参考
Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind [1]
dennyzhou.github.io [2]
引用链接
[1]
Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind: https://youtu.be/ebnX5Ur1hBk?si=a23sXMSBOqmh-phG
[2]
dennyzhou.github.io: https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf