LLM距离AGI只差一层:斯坦福研究颠覆「模式匹配」观点

标签: llm 距离 agi | 发表时间:2025-12-10 20:24 | 作者:机器之心
出处:https://www.jiqizhixin.com/

有关大语言模型的理论基础,可能要出现一些改变了。

斯坦福发了篇论文,彻底颠覆了「LLM 只是模式匹配器」的传统论调。

它提出的不是扩展技巧或新架构,而是一个让模型真正具备推理能力的「协调层」。

图片
  • 论文题目:The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics

  • 论文地址:https://arxiv.org/pdf/2512.05765

核心观点:AGI 的瓶颈在于协调,而非规模

人工智能界正因围绕大语言模型本质的争论而分裂。一方面,扩展派认为 LLMs 足以实现 AGI;另一方面,有影响力的批评者认为 LLM「仅仅是模式匹配器」,在结构上不具备推理、规划或组合泛化能力,因此是死胡同。

作者认为这场争论建立在一个错误的二分法之上,并提出一个颠覆性极强的核心观点:LLM 的失败不是因为缺乏推理能力,而是因为我们缺少将其模式与目标绑定的系统。

为了解释这一点,作者用了一个捕鱼隐喻。

海洋代表模型庞大的模式库,渔夫不用鱼饵就撒网,收获的只是最常见的鱼类(训练数据中的通用模式)。批评者谴责这些未锚定的输出,但他们观察到的只是未加诱饵的捕捞所产生的原始统计基线,这不是系统损坏,而是系统在默认模式下的自然表现。

然而,智能行为不仅仅是撒网,它还涉及下饵和过滤。如果诱饵过于稀疏,它就无法吸引特定、稀有的鱼,海洋的先验仍然主导。如果诱饵足够密集,它传达了强烈的意图,转移了后验分布,使目标概念压倒常见先验;但诱饵并非没有成本,使用过多的诱饵来确保捕获是低效的。

在这种观点中,「缺失的层」就是协调层,它优化了这种权衡:计算转移后验所需的精确密度,同时不产生过高成本。

鉴于此,作者提出第三条道路:基础层加协调层。LLM 是必要的系统- 1 基础层(模式存储库),瓶颈在于缺少系统- 2 协调层,该层将这些模式与外部约束绑定、验证输出并维护状态。

UCCT 理论:推理的相变现象

作者引入了 UCCT(统一认知意识理论)来形式化这一机制。UCCT 最激进的观点是:LLM 从幻觉到推理的转变不是一个渐进的、线性的过程,而是一个相变 。

这就像水在达到冰点时会瞬间凝结一样,当施加给模型的锚定信号达到一个临界阈值时,模型的行为会发生突变:

  • 低于阈值:模型基于训练数据的统计学最大似然先验进行输出,这表现为无根据的生成或幻觉。

  • 高于阈值:目标导向的约束主导了输出的后验分布,推理行为被激活,模型表现出受控且可靠的行为。

这种相变的发生由一个物理学式的锚定分数决定,该分数综合考虑了以下三个关键变量:

  • 有效支持:指外部约束(如检索到的证据、提供的示例、工具的输出)对目标任务提供的强度和密度。其作用是拉动模型走向目标,有效的锚点越多,分数越高。

  • 表征失配:指模型当前的潜在模式(基质)与目标任务或外部约束之间的差异程度。其作用是惩罚模型偏离约束,失配度越大,分数越低。

  • 自适应锚定预算:代表在实际操作中,为了达到目标而愿意付出的上下文成本和计算资源。其作用是平衡效率与可靠性,避免为了微小的收益而无限制地投入锚点。

也就是说,幻觉不是模型损坏,而是它在未加诱饵(unbaited)的情况下,简单地输出了其模式存储库的最大似然先验;推理则是外部约束将后验分布从通用的统计模式转向目标的结果。

因此,只要提供足够密度的「诱饵」和「渔网」,即协调层的锚定机制,LLM 这个强大的模式基础层就能被组织起来,执行可靠的推理任务。

架构实现:多智能体协调堆栈

为了将 UCCT 理论转化为实际的架构,作者构建了 MACI(多智能体协作智能),这是一个协调堆栈,为 LLMs 提供了类似于人类「执行功能」的能力。

MACI 架构通过其三个核心组件,精准地映射并解决了 UCCT 中决定推理相变的三要素:

  • 行为调制的辩论用于最大化有效支持。它让多个智能体扮演不同角色(质疑者、证据提供者、规划者)进行辩论,主动检索、生成和验证证据,确保审议是多角度且有证据支持的。

  • 苏格拉底式评判 CRIT 用于最小化表征失配。UCCT 中的表征失配 是导致幻觉的根本原因。 MACI 引入了 CRIT 作为专门的苏格拉底式裁判。CRIT 的核心任务是在推理的每一步中,严格审查智能体的提议和论点。它专门查找和过滤那些与事实、先前状态或任务约束相矛盾的不恰当论点。通过在早期环节就剔除与目标严重偏离的联想式输出,MACI 积极地最小化了表征失配,从而防止低质量或幻觉性的内容污染推理循环。

  • 事务性内存用于优化锚定预算。事务性内存不只是简单的历史记录,它以持久化和事务性方式存储经过验证的关键中间状态,避免重复计算和上下文膨胀,实现锚定预算的最优使用。

深度协调模式将推理视为受控过程。智能体进行辩论、交叉检查、修改方案、提取证据、修复计划,并跨步骤持续维护状态,所有这些都由锚定信号指导。这本质上是在底层模式基质之上叠加执行功能 —— 一旦锚定分数跨越阈值,模型的行为就会从联想式猛然转向受控式。

论文的核心结论改变了我们对 AGI 路径的认知:AGI 不会来自于更大的模式之海,它将来自于组织这些模式以形成可靠推理的网、诱饵、过滤器和记忆机制。如果这项技术能够扩展,LLM 就不再是「自动补全」,而会成为完整推理系统的认知基质。

大语言模型并非通往 AGI 的死胡同,而是实现 AGI 的必要「认知基质」。AGI 的瓶颈不在于 LLMs 的底层模式规模,而在于缺失了一个将这些模式组织和绑定到目标的「协调层」。

作者 Edward Y. Chang 是谁?

本研究唯一作者 Edward Y. Chang(张智威)是斯坦福大学计算机科学系的兼职教授。此前,他曾任加州大学圣巴巴拉分校(UCSB)终身教授。2006-2012 年,他担任谷歌研究院总监,率先开展了以数据为中心和并行机器学习的研究,并为 ImageNet 项目做出了贡献。他还曾在香港科技大学和加州大学伯克利分校任职。张智威拥有斯坦福大学计算机科学硕士学位和电气工程博士学位。

他的研究兴趣涵盖意识建模、生成式人工智能和医疗保健,并因此荣获多项奖项,例如谷歌创新奖、 XPRIZE 奖等。他还是 ACM 和 IEEE 会士。

相关 [llm 距离 agi] 推荐:

LLM距离AGI只差一层:斯坦福研究颠覆「模式匹配」观点

- - 机器之心
有关大语言模型的理论基础,可能要出现一些改变了. 斯坦福发了篇论文,彻底颠覆了「LLM 只是模式匹配器」的传统论调. 它提出的不是扩展技巧或新架构,而是一个让模型真正具备推理能力的「协调层」. 论文题目:The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics.

通向AGI之路:大型语言模型(LLM)技术精要 - 知乎

- -
ChatGPT出现后惊喜或惊醒了很多人. 惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这样;惊醒是顿悟到我们对LLM的认知及发展理念,距离世界最先进的想法,差得有点远. 我属于既惊喜又惊醒的那一批,也是典型的中国人,中国人善于自我反思,于是开始反思,而这篇文章正是反思的结果.

是做通用型的AGI,还是垂直AI,不妨看看这篇文章

- - IT瘾-geek
随着技术的进步以及更多人的认可,机器学习面临的最大困境不是如何跨过前往通用人工智能(AGI)路上的障碍,而是如何将现有的机器学习技术对更多企业开放,并让其更具实用性. 随着技术的进步以及更多人的认可,机器学习面临的最大困境不是如何跨过前往通用人工智能(AGI)路上的障碍,而是如何将现有的机器学习技术对更多企业开放,并让其更具实用性.

做完GPT-4完整测评,微软爆火论文称初版AGI就快来了

- - 领研 | 论文「」
图片来源: Unsplash. GPT-4 的能力什么档次. 1956 年,在达特茅斯学院召开的一个研讨会上,人工智能这一概念正式被提出. 之后这个词一直挑战着心理学家、哲学家和计算机科学家,因为它太难被定义了. 1994 年,52 名心理学家联合发文试图捕捉它的本质. 随着时间的推移,研究者开始将注意力转移到特定领域的 AI 系统,如 2016 年 AlphaGo 挑战韩国冠军棋手大获全胜.

GPT-4被曝重大缺陷,35年前預言成真!所有LLM正確率都約等於0

- - Futubull - Headlines
最近,一项研究发现,大模型身上存在一种「逆转诅咒」,即使学会「A是B」,它们也无法推理出「B是A」. 大语言模型,竟然存在一种「逆转诅咒」. 所谓逆转,也就是说,一个训练于「A是B」的语言模型能否推广到「B是A」呢. 例如,当我们教会一个模型「乔治·华盛顿是美国第一任总统」后,它能否自动回答「谁是美国第一任总统.

谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分

- - 机器之心
当前 LLM 与人类大师级水平之间仍存在显著差距. 近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展. 它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超越了人类平均水平. 这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域.

编辑距离(Edit Distance | Levenshtein距离)

- - CSDN博客互联网推荐文章
编辑距离又称为Levenshtein距离,是指两个字符串之间,从一个字符串变成另一个字符串所需要的 最小编辑操作次数. 可以采用的编辑操作包括: 插入操作、替换操作和删除操作. 例如:字符串“a“ 与字符串 ”b“的编辑距离为1,只有一个替换操作. 将”kitten一字转成“sitting”的编辑距离为3:.

近距离拍摄动物

- doodle - 玩意儿
摄影师 Igor Siwanowicz 微距拍摄昆虫和其他小动物,令人惊讶的作品. 本文原始链接:http://www.cngadget.cn/close-up-photos-of-animals.html.

地球与月球的真实距离

- 慢慢叫 - YesKafei Daily
月亮的年龄大约有46亿年,与地球之间的平均距离是约为38万公里,近地点距离约为36万公里,相当于60个地球半径之远. 这张图按照比例关系,展示出真实地月之间的距离. Speed of Light in Holy Quran, 月球 (Wikipedia). 巨大的小行星在今年11月将飞过地球. 一位挪威攝影師七天不眠不休之作 (@dongde).

近距离拍到的野生动物

- fiz - 亦诺摄影:鸟类 · 纪实
在埃塞俄比亚近距离遇到了几种野生动物. 吃鸟的狒狒,拍摄距离5米左右.