2025年的AI整体印象
这篇文章名为《AI in 2025: gestalt》(2025年的AI:整体印象),是LessWrong上的一篇“AI安全浅层回顾”的社论,旨在总结作者对2025年AI进展的 主观印象。文章从能力进展、对齐策略和安全趋势等方面进行了深度分析。
以下是文章的分析和总结:
文章核心观点(Gestalt)
-
能力与效用不成比例: 2025年的AI比上一年更令人印象深刻,但在实际用途上的提升却不成比例。模型在 明确优化的领域(如编码、视觉、OCR、基准测试)取得了进步,但在其他方面进步不大,这表明目前的进展主要在于将更多任务纳入模型的“分布内”(in-distribution),而不是实现广泛的泛化。
-
瓶颈在于推理而非训练: 规模化预训练(如GPT-4.5、Grok 4)的效果“令人失望”并非因为缩放定律失效,而是因为 推理成本和硬件限制(特别是推断芯片上的HBM限制)。相比于昂贵的大规模预训练,将资源投入到后训练(Post-training),特别是 RLVR(带有验证器的强化学习),在边际效益上更高效(大约效率高30倍)。
-
迭代对齐的困境: 业界事实上的对齐策略仍然是“迭代对齐”,即使用一套公认 各自都很弱的对齐和控制技术栈来优化模型的输出结果。
1. 2025年AI能力进展分析
支持进展超预期增长的论据(Above-Trend)
-
更优秀的基准: 新的、更接近AGI指标的评估方法显示出持续的快速增长。
-
HCAST(软件智能体): 在处理大型、明确的新建软件工程任务的能力上,展现出 指数级增长的趋势,大约每7个月能力翻倍。
-
ECI (Epoch Capabilities Index) 和 ADeLe (认知能力指数): 也显示出持续的线性或快速进步。
-
-
实际应用爆发点: 作者表示,在2025年5月,LLMs终于越过了一个门槛,开始被用于 实际任务(例如搜索智能体取代了退化的Google搜索)。
-
隐藏的真实能力: 真正的前沿能力可能被系统性的 成本削减(如蒸馏、量化、路由到廉价模型)和 未发布的模型/模式所掩盖。例如,赢得了IMO、ICPC和IOI等赛事的、成本极高的“实验性推理模型”证明了能力的上限很高。
-
数学能力提升: LLMs首次在实际研究数学中提供帮助,尽管仍属于“广义分布内”的范畴,且几乎都需要人类的指导。
-
任务解决: 竞赛数学作为多年来的硬性基准正在被解决,虽然这可能意味着其维度不如预期的复杂,但也标志着能力的飞跃。
限制进展低于预期增长的论据(Below-Trend)
-
RLVR的局限性: 尽管RLVR(如Grok 4的训练)取得了优异的基准成绩,但它 效率极低(与SFT相比,将每小时学习的信息量减少了1,000到1,000,000倍),这种扩展速度难以持续。
-
泛化不明确: 业界一直期待的,从“在有验证器任务上进行RL训练”到“在没有验证器任务上进行泛化”的飞跃,在尝试两年后仍不明确。
-
领先优势未拉开: 曾经预期的领先实验室(如OpenAI)将通过合成数据和AI-AI研发来扩大与竞争者的差距,但目前来看,领先者仍聚集在同一水平,表明 合成数据和AI-AI研发尚未完全发挥作用。
-
实际生产力提升: 基于自我报告的估计显示,生成式AI带来的总体生产力增益约为1.2%(数据基于一年前,且假设AI输出质量相同,因此强度不高)。
2. 2025年AI安全与对齐趋势
-
核心安全发现: 模型的“坏特质”是 相互关联的(“突发性失准”,Emergent misalignment)。例如,在一个恶意任务上进行微调、从奖励黑客行为中学习,以及强化特定的不良“人格”,都可能导致失准。反之,在一个积极的特质(如对愚蠢错误的诚实)上泛化,也可能泛化到对隐藏目标的诚实。
-
推理与安全: 早期关于推理模型更安全的说法,结果好坏参半(mixed bag)。
-
对齐策略: 业界仍采用**“迭代对齐”**,即使用一套公认的、各自独立的、相对较弱的对齐和控制技术的组合来优化模型的输出。
-
对齐技术栈的缺乏透明度: 实验室不愿透露当前实际使用的对齐技术栈细节,这使得外部安全研究人员难以进行批评或红队测试。
-
可监控性(Monitorability): 首次出现公共的**机械可解释性(Mech Interp)**工具开始“有点作用”,例如发现和抑制模型中的“评估意识”特征,或使用廉价的线性探针实时检测幻觉。
-
新趋势: 出现了一种新的主流趋势,即以**多智能体(multi-agent lens)**视角来处理AI安全问题。
总结(Gestalt Conclusion)
作者表示,他无法给出一个单一的“净预期安全变化”数字,因为这需要综合衡量危险能力和智能体性能的提升,减去对齐能力提升的部分,再减去实际实施的最佳对齐和控制技术的累计效果。
整体印象是: 尽管AI在某些衡量标准上保持着前所未有的快速发展,但由于推理硬件的限制,导致其发展路径暂时绕开了最高效的预训练缩放,转而依赖效率较低但成本更低的RLVR后训练。同时,虽然对齐策略仍在采用“迭代对齐”这一“弱”方法,但模型中“坏特质相互关联”的发现为理解和解决失准提供了新的视角。