OpenAI 研究人员称 AI 幻觉在数学上是不可避免的

标签: openai 研究 ai | 发表时间:2025-09-21 22:41 | 作者:
出处:https://www.solidot.org
OpenAI 研究人员在预印本平台 arxiv 上发表了一篇论文,指出由于大模型使用的统计学特性以及计算限制,即使有完美的数据,AI 仍然会产生貌似可信但实际上错误的输出。研究人员承认,AI 幻觉在数学上是不可避免的,无法通过更先进的工程技术解决。研究人员在论文中称,类似面对考试难题的学生,大模型会在不确定的情况下猜测,产生貌似可信但实际错误的表述,而不是承认不确定性。即使是最先进的 AI 系统,幻觉仍然存在,会破坏信任。研究人员证明,幻觉源于训练大模型使用的统计学特性,而非实现缺陷。研究人员测试了竞争对手 DeepSeek-V3 模型、Meta AI 和 Claude 3.7 Sonnet,以及 OpenAI 自己的 GPT 系列模型。研究人员称,ChatGPT 也会产生幻觉,GPT-5 有更少的幻觉,但幻觉仍然会发生,且更先进的推理模型比简单的系统更容易产生幻觉:o1 推理模型 16% 的时间会产生幻觉,而较新的 o3 和 o4-mini 分别有 33% 和 48% 的时间会产生幻觉。OpenAI 的研究识别了三个导致幻觉不可避免的数学因素:当训练数据集中信息过少时的认知不确定性,模型局限性和计算难解性。

相关 [openai 研究 ai] 推荐:

OpenAI 研究人员称 AI 幻觉在数学上是不可避免的

- - 奇客Solidot–传递最新科技情报
OpenAI 研究人员在预印本平台 arxiv 上发表了一篇论文,指出由于大模型使用的统计学特性以及计算限制,即使有完美的数据,AI 仍然会产生貌似可信但实际上错误的输出. 研究人员承认,AI 幻觉在数学上是不可避免的,无法通过更先进的工程技术解决. 研究人员在论文中称,类似面对考试难题的学生,大模型会在不确定的情况下猜测,产生貌似可信但实际错误的表述,而不是承认不确定性.

OpenAI 相对于其它 AI 公司的优势基本消失

- - 奇客Solidot–传递最新科技情报
根据最新一期的《AI 现状报告(State of AI)》,OpenAI 相对于其它 AI 公司的优势基本消失. Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 1.5、X 的 Grok 2,Meta 的 Llama 3.1 4050 亿参数开源模型,在部分基准测试中已与 OpenAI 的 GPT-4o 持平,部分测试甚至略胜.

和AI结对编程!OpenAI与GitHub联手推出AI代码生成工具,比GPT-3更强大

- - 雷锋网
昨日,微软与OpenAI共同推出了一款AI编程工具GitHub Copilot,这款工具基于GitHub及其他网站的源代码,可根据上文提示为程序员自动编写下文代码. GitHub 的首席执行官 Nat Friedman 介绍说,GitHub Copilot是结对编程的虚拟版本. 结对编程是一种常见的敏捷软件开发技术——即两个开发人员在同一个项目上并肩协作,轮流编写代码并检查合作伙伴的输出.

刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露

- - 机器之心
今天凌晨,ChatGPT 迎来了一个重磅更新. 不是 GPT-5,而是 Study Mode(学习模式). 在该模式下,ChatGPT 不再只是针对用户查询给出答案,而是会帮助用户一步步地解决自己的问题. 以下视频展示了一个对比示例,可以看到在学习模式下,ChatGPT 会直接化身一个循循善诱的导师,确保用户理解解答过程中的每一个步骤和每一个概念.

AI攻破Dota2!马斯克OpenAI版“阿尔法狗”完胜最强人类选手,马斯克:这可比围棋难多了

- -
8 月 11 日,人工智能又给人类带来了惊喜,伊隆·马斯克(Elon Musk)旗下的人工智能研究机构 OpenAI 宣布他们所打造的一个 AI 机器人已经在电子竞技游戏 Dota 2 中击败了一个名为 Dendi 的人类职业玩家,而比赛所采取的形式也是很直接的 1v1. 双方约定好共进行三轮比赛,在第一场比赛中,人工智能在不到十分钟的时间内闪电击败对手;第二场比赛同样也是由人工智能取得了胜利;而这直接导致了 Dendi 放弃进行第三场比赛.

OpenAI重磅研究:ChatGPT可能影响80%工作岗位,收入越高影响越大

- - 领研 | 论文「」
ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险. 机器之心报道机器之心编辑部. ChatGPT 来了,失业还会远吗. 上星期在 GPT-4 发布时,ChatGPT 第一时间上线了新版本,OpenAI 首席执行官 Sam Altman 表示他对自家这种技术“有点害怕”. 和很多专家一样,Altman 担心人工智能技术的强大能力会制造过多虚假信息,另一方面,新技术也将改变经济、劳动力和教育环境.

OpenAI核心研究员:比提示词工程更重要的,是spec-writing | My Secret Rainbow

- -
OpenAI核心研究员:比提示词工程更重要的,是spec-writing. 程序员最有价值的技能已经不再是编写代码了,而是精确地向 AI 传达意图. 一份完善的规范才是包含完整意图的真正「源代码」. 这是 OpenAI 研究员 Sean Grove 在 AIEWF 2025 的演讲中提出的观点. Andrej Karpathy 也针对于提示词提出了他的观点,不同的是,Karpathy 聚焦如何给 AI「喂更多地料」,让 AI 更理解你的意图.

微软新成立AI研究院,13个研究组都在做什么?

- - 博客园_新闻
7 月 13 日,据彭博网报道,微软正在筹建 Microsoft Research AI 研究院,未来将专注人工智能领域,创建开发更多的通用学习系统. 雷锋网编辑了解到:该研究院将设立在华盛顿州雷德蒙,来自微软近百位人工智能领域的科学家将集中在此,他们被分为十三个研究小组,分别是自适应系统和互动组、空中信息和机器人组、会话系统组、深度学习组、信息和数据科学组、知识技术组、语言和信息技术组、机器学习和优化组、机器教学组、自然语言处理组、感知和互动组、生产力组、强化学习组.

AI 首次实现秒级“自主判案”:阿里达摩院颠覆性研究成果技术解读

- - IT瘾-tuicool
近日,阿里达摩院发布了一项新的研究成果:针对电商交易中出现的纠纷案件,可以借助 AI 实现秒级“自主判案”. 该项成果已经入选顶级会议 SIGIR. SIGIR 组委会认为,阿里巴巴的这项技术是司法智能领域的一项开创性成果. 该项技术用到了最近比较热门的多任务学习,本文将对这项研究工作进行详细解读.

AI vs AI--当AI与自己聊天

- Tim - Solidot
Shawn the R0ck 写道 "最烦人的事情之一莫过于被强迫与一个白痴对话. 但当你发现你最讨厌与之交谈的白痴其实就是你自己的基于人工智能程序的拷贝...康奈尔创造性机器实验室决定看看当AI尝试跟自己交谈会发生什么. 他们的健谈的AI程序Cleverbot与自己进行文本交互,之后朗读出文本并且显示到视频中.