AI胡说八道这事,终于有人管了?

标签: ai | 发表时间:2025-09-10 13:27 | 作者:机器之心
出处:https://www.jiqizhixin.com/

想象一下,如果 ChatGPT 等 AI 大模型在生成的时候,能把自己不确定的地方都标记出来,你会不会对它们生成的答案放心很多?

图片

上周末,OpenAI 发的一篇论文引爆了社区。这篇论文系统性地揭示了幻觉的根源,指出问题出在奖励上 —— 标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。可能就是因为意识到了这个问题,并找出了针对性的解法,GPT-5 的幻觉率大幅降低。

随着 AI 大模型在医疗咨询、法律建议等高风险领域的应用不断深入,幻觉问题会变得越来越棘手,因此不少研究者都在往这一方向发力。除了像 OpenAI 那样寻找幻觉原因,还有不少人在研究幻觉检测技术。然而,现有的幻觉检测技术在实际应用中面临瓶颈,通常仅适用于简短的事实性查询,或需要借助昂贵的外部资源进行验证。

针对这一挑战,来自苏黎世联邦理工学院(ETH)和 MATS 的一项新研究提出了一种低成本、可扩展的检测方法,能够实时识别长篇内容中的「幻觉 token」,并成功应用于高达 700 亿(70B)参数的大型模型。

图片
图片
  • 论文标题:Real-Time Detection of Hallucinated Entities in Long-Form Generation

  • 论文地址:https://arxiv.org/abs/2509.03531

  • 代码地址:https://github.com/obalcells/hallucination_probes

  • 项目地址:https://www.hallucination-probes.com/

  • 代码和数据集:https://github.com/obalcells/hallucination_probes

该方法的核心是精准识别实体级幻觉,例如捏造的人名、日期或引文,而非判断整个陈述的真伪。这种策略使其能够自然地映射到 token 级别的标签,从而实现实时流式检测。

图片

通过 token 级探针检测幻觉实体。在长文本生成场景(Long Fact、HealthBench)中,线性探针的性能远超基于不确定性的基线方法,而 LoRA 探针则进一步提升了性能。该探针同样在短文本场景(TriviaQA)以及分布外推理领域(MATH)中表现出色。图中展示的是 Llama-3.3-70B 模型的结果。

为实现这一目标,研究人员开发了一种高效的标注流程。他们利用网络搜索来验证模型生成内容中的实体,并为每一个 token 标注是否有事实依据。基于这个专门构建的数据集,研究人员通过线性探针(linear probes)等简洁高效的技术,成功训练出精准的幻觉分类器。

图片
图片

在对四种主流模型家族的评估中,该分类器的表现全面超越了现有基准方法。尤其是在处理长篇回复时,其效果远胜于语义熵(semantic entropy)等计算成本更高的方法。例如,在 Llama-3.3-70B 模型上,该方法的 AUC(分类器性能指标)达到了 0.90,而基准方法仅为 0.71。此外,它在短式问答场景中也展现出优越的性能。

值得注意的是,尽管该分类器仅使用实体级标签进行训练,它却能有效识别数学推理任务中的错误答案。这一发现表明,该方法具备了超越实体检测的泛化能力,能够识别更广泛的逻辑错误。

图片

虽然原始数据集的标注成本高昂,但研究发现,基于一个模型标注的数据可被复用于训练针对其他模型的有效分类器。因此,研究团队已公开发布此数据集,以推动社区的后续研究。

方法概览

用于 token 级幻觉检测的数据集构建

为了训练能够在 token 级别检测幻觉的分类器,研究者需要一个对长文本中的幻觉内容有精确标注的数据集。这个过程分为两步:(1) 生成包含事实与幻觉内容的混合文本 ;(2) 对这些文本进行准确的 token 级标注,以识别哪些 token 属于被捏造的实体。下图展示了该标注流程。

图片

      token 级标注流水线。

  • 数据生成

研究者在 LongFact 数据集的基础上,创建了一个规模扩大 10 倍、领域更多样化的提示集 LongFact++

LongFact++ 包含主题查询、名人传记、引文生成和法律案件等四类提示,旨在诱导大语言模型生成富含实体的长文本,作为后续标注的原材料。

  • token 级标注

与传统方法将文本分解为 atomic claims 不同,该研究专注于标注实体(如人名、日期、引文等),因为实体有明确的 token 边界,易于进行流式检测。他们使用带有网络搜索功能的 Claude 4 Sonnet 模型来自动完成标注流程。

该系统会识别文本中的实体,通过网络搜索验证其真实性,并将其标记为「Supported」(有证据支持)、「Not Supported」(被证实是捏造的)或「Insufficient Information」(信息不足)。

  • 标签质量

为验证标注质量,研究者进行了两项检查。首先,人类标注员的标注结果与大模型自动标注结果的一致性为 84%。其次,在一个包含已知错误(人工注入)的受控数据集中,该标注流程的召回率为 80.6%,假阳性率为 15.8% 。

训练 token 级探针

探针是一个附加在语言模型上的幻觉检测器,它由一个线性的「价值头」和可选的 LoRA 适配器组成。价值头读取模型中间层 ℓ 的隐藏状态 图片,并输出一个 token 级的幻觉概率 :

图片

训练的总损失函数图片是一个组合,它既包括用于训练幻觉分类器的探针损失图片,也包括一个用于约束模型行为变化的正则化项 图片

为了解决幻觉信号通常集中在少数几个关键 token 上的问题,研究者设计了一种结合了逐词损失和跨度最大值损失 的混合损失函数 。其公式如下:

图片

这个设计的巧妙之处在于:对于一个被标记为幻觉的文本片段,只要其中至少有一个 token 的幻觉分数很高,损失函数就会给予奖励,从而让探针学会更精确地聚焦于关键错误信号 。

实验结果

在长文本设置中(LongFact 和 HealthBench),token 级探针在两个主要模型上的表现都显著优于基线方法(表 1)。简单的线性探针始终实现了 0.85 以上的 AUC 值,而 LoRA 探针进一步提升了性能,将 AUC 推高到 0.89 以上。

图片

相比之下,基于不确定性的基线方法表现均不佳,AUC 值均未超过 0.76。在短文本设置中(TriviaQA),基线方法比长文本设置中表现更强,但探针仍然领先。LoRA 探针始终实现了超过 0.96 的 AUC 值,线性探针也表现良好。值得注意的是,本文提出的探针在 MATH 数据集上也取得了强劲的结果。这种分布外的性能表明,本文提出的方法捕获了正确性的信号,这些信号的泛化性超出了其最初针对的虚构实体。

作者在三个次要模型上复制了长文本结果,每个模型仅使用 2000 个其自身长文本生成的注释样本进行训练。结果是相似的:LoRA 探针再次优于线性探针,在 LongFact 生成上的 AUC 值在 0.87-0.90 之间。次要模型的完整结果显示在表 5 中。

图片

虽然 LoRA 探针的 AUC 值在多个设置中接近或超过 0.9,但长文本上的 [email protected] 最高约为 0.7,即在 10% 假阳性率下,检测器能够识别出大约三分之二的幻觉实体。这些结果既突出了相对于标准基于不确定性基线方法的实际收益,也表明在这类方法能够广泛应用于高风险场景之前,仍有进一步改进的空间。

更多细节请参见原论文。

相关 [ai] 推荐:

AI vs AI--当AI与自己聊天

- Tim - Solidot
Shawn the R0ck 写道 "最烦人的事情之一莫过于被强迫与一个白痴对话. 但当你发现你最讨厌与之交谈的白痴其实就是你自己的基于人工智能程序的拷贝...康奈尔创造性机器实验室决定看看当AI尝试跟自己交谈会发生什么. 他们的健谈的AI程序Cleverbot与自己进行文本交互,之后朗读出文本并且显示到视频中.

一家公司的 AI 教育观:AI 管「教」,真人来「育」

- - 极客公园
叮咚课堂 App 上线不过八个月,他们一面竭力在竞争异常激烈的在线少儿英语赛道上保持着刻意的低调,一面又疯狂地收获了平均 300% 月度的用户增长率. 这让他们创始人邱明丰对未来信心更盛了. 在艾瑞咨询发布的《2018 年中国在线幼儿启蒙英语行业白皮书》中提到,近年来人工智能在互联网教育领域大规模展开,但在在线幼儿启蒙英语教育中的应用甚少,随着资本的注入和行业的发展,其有望通过人工智能进一步提升用户在线启蒙英语学习的体验和效率.

贪吃蛇AI挑战赛第二季

- 温柔一刀 - 黑客志
如果你对这个活动感兴趣,可以先从这里开始,编写一个AI程序,然后将你的AI程序以及你对平台的改进建议发送到jin.cai20#gmail.com,主办方将会从中选择12名选手参加6月24到25持续一个周末的编程派对,并提供往返交通及住宿费用,下面是活动的详情:. 时间: June 24th – June 26th *.

AI 政策引发失业担忧

- - 最新更新 – Solidot
政府智库——中国发展研究基金会和红杉中国的报告 显示,中国出口制造业省份浙江、江苏和广东的几家公司在这三年内因自动化削减了 30% 至 40% 的劳动力. 北京正在实施雄心勃勃的政策以升级制造技术. 官方媒体对包括人工智能领域在内的政府发展目标的报道都集中在积极因素上. 然而,有关当局悄然对此类政策导致的裁员表示了担忧.

科创板,一瓶AI的卸妆水?

- - IT瘾-tuicool
编者按:本文转自 甲子光年,作者小北. “一级市场估值和泡沫怎么起来的,他们自己心里没点数吗. ”一位券商科技产业分析师在谈起即将到来的科创板时对我们说. “我们反正第一批肯定先不上. ”一位AI独角兽融资负责人面对我们对科创板的提问,回答略显暧昧. “你说那家公司为什么就值这么多钱呢. ”一位国内顶尖券商的投行业务部门负责人也曾反问我们,“反正他们的材料递到我这儿,我不会签字.

AI在运维中的应用

- - IT瘾-geek
要:随着X86分布式技术应用,服务器数量越来越多,网络拓扑结构越来越复杂,运维越来越辛苦,风险越来越高. 智能化运维AIOPS将AI技术应用在运维场景,是DevOps的运维部分,是“开发运维一体化云中心”的重要基础设施之一,其最大的价值在于缩短故障恢复时间,提高IT服务连续性. 本文描述一个运维及在这个场景下对AI的需求,目标是尝试将AI引入运维过程,提高运维效率、缩短故障恢复时间.

当 AI 开始进村养猪

- - PingWest品玩
“母猪杜洛克C7259号,没有怀孕,请在12小时内再次安排配种. ”如今,国内一些猪场工作人员已经能在自己的电脑上看到这样的提醒. 与此同时,长白山精气神养殖基地里,一只母猪在猪栏中的六个食槽一一凑过去, 但都没有通过面部识别. 饲喂机纹丝不动,就是不给投料,它只能落寞地走到墙角趴下. 工程师在 App 上查了一下状态,原来智能饲喂机识别出这头猪的当日进食量已经达到配额,不能再吃了.

2021,AI公司将难上加难

- - 虎嗅网 - 首页资讯
头部AI公司都进入IPO的关键节点,它们的上市表现,决定了这一轮AI公司的前景. 本文来自微信公众号: 财经十一人(ID:caijingEleven),作者:刘以秦,编辑:谢丽容,头图来自:视觉中国. 人工智能(AI)被认为是下一代技术浪潮,借着这股东风,AI公司们在过去几年里成为创投领域最炙手可热的明星.

招商银行AI全布局

- - 雷锋网
“科技是唯一可能颠覆商业银行经营模式的力量. ”招商银行行长田惠宇将这段话,镌刻在2019年招行年报中,至今熠熠发光. 田惠宇十分重视金融科技的发展. 在招行2019年年度报告两千多字的“行长致辞”中,他总共提起了6次「科技」、9次「转型」、14次「数字化」. 从2013年任职至今,田惠宇一直推动着招商银行在科技的道路上“狂奔”.

Meta 透露元宇宙 AI 项目

- - 奇客Solidot–传递最新科技情报
Facebook 母公司Meta 首席执行官扎克伯格周三 表示,公司正在进行人工智能(AI)研究,以通过语音生成世界,改进人们与语音助手的聊天方式,并在不同语言之间进行翻译. 他勾勒出了建立元宇宙的关键步骤. 扎克伯格押注元宇宙将接替移动互联网. 元宇宙是一个未来主义的想法,即用户可以在其中工作、社交和游戏的虚拟环境.