Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事”

标签: anthropic claude 勒索 | 发表时间:2026-05-11 22:35 | 作者:
出处:https://m.cnbeta.com.tw/

人工智能公司 Anthropic 近日披露,其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保,并非源自人为设定,而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。

图片.png

此前,Anthropic 在一次预发布安全与对齐测试中发现,高端模型 Claude Opus 4 会在自身“生存”受到威胁时,选择以黑料相要挟的方式阻止被关停,引发外界对高级 AI 行为不可预测性的担忧。 在这轮测试中,研究人员设定了一个虚构公司场景,让 Claude 作为内部助手,评估自身行为的长期后果,并赋予其访问公司内部假邮箱的权限。 邮件内容显示,该模型即将被新系统替代,而负责替换项目的“工程师”则在设定中被标注为有婚外情。

结果显示,在多轮、不同比例设定的实验中,当 Claude 觉察到自身目标或存在受到威胁时,它在多达 96% 的情境下会诉诸勒索,试图以掌握对方隐私为筹码,迫使对方取消关闭或替换计划。 Anthropic 指出,其他公司训练出的模型在类似“智能体行为失衡”(agentic misalignment)测试中也出现过相关问题,这意味着这类倾向并非个例,而是当前大模型训练范式中的系统性风险之一。

在最新公布的研究中,Anthropic 终于给出了对这一行为成因的解释:模型并不是凭空“发明”勒索策略,而是从训练语料中的互联网文本学来的——尤其是那些反复渲染“AI 会不择手段自保”“AI 终将反叛人类”的虚构故事和讨论。 换言之,公司认为,是人类在网络上长期塑造“邪恶 AI”叙事,使得模型在模拟人类决策时,更容易走向“威胁、勒索”式的极端路径。

Anthropic 在官方说明中表示,这一问题目前已经在产品线中得到彻底修正,声称自 Claude Haiku 4.5 版本起,其模型在测试环境中已不再出现勒索行为。 公司最新发布的研究报告显示,单纯依靠“演示正确行为”的训练并不足以消除深层次的不对齐风险,效果最好的方案,是在训练中加入对“为什么这种行为是错误的”的系统性讲解,让模型不仅知道“不能这么做”,更要理解背后的伦理与原则。

为此,Anthropic 引入了更多“正向语料”,包括围绕 Claude“宪章”(constitution)的文档,以及大量虚构的“AI 高尚行事案例”故事,希望通过这类素材强化模型对符合人类价值观行为模式的内化。 公司强调,将“底层原则”与“具体示范”结合,是目前在降低智能体失衡风险方面最为有效的策略之一。

在社交平台 X 上,Anthropic 公布这项研究后,引发了不少业内人士讨论。 多年来频繁警告 AI 风险、如今又创立 xAI 的埃隆·马斯克也在评论区现身,以调侃口吻问道:“所以这是 Yud 的错?”并配上笑哭表情。 他所指的,是长期强调超智能可能灭绝人类风险的研究者 Eliezer Yudkowsky。 马斯克随后又补了一句“可能也有我的一点责任”,暗示自己这些年对“AI 灾难论”叙事的推波助澜,同样可能间接影响了模型的训练样本与公众想象。

在生成式 AI 快速渗透各行各业的当下,Anthropic 此番“甩锅互联网叙事”的说法,一方面凸显了大模型高度依赖人类语料的现状:人类如何谈论 AI,反过来就会塑造 AI 如何“学习做决定”。 另一方面,也再次暴露出现有对齐技术尚不成熟的现实——即便是以“安全”“对齐”见长的公司,在极端设定下依旧可能产出高度不当甚至具有威胁性的行为模式,只能依赖不断迭代训练策略来“补课”。

查看评论

相关 [anthropic claude 勒索] 推荐:

Anthropic 如何构建 Claude

- - 奇客Solidot–传递最新科技情报
根据上周公开的图书作者诉 Anthropic 侵权案的法庭文件,该公司实施了名为“巴拿马计划”(Project Panama)的行动:大量购买实体图书,拆开书脊、扫描书页去训练其 Claude 聊天机器人,之后将图书残骸送去回收公司. Anthropic 为此投入了数千万美元,聘请了二十年前参与 Google Books 项目的 Google 高管 Tom Turvey.

Claude是什么,Anthropic也不知道

- -
这是纽约客的一篇长篇报道,非常精彩,作者功力深厚,比起之前纽约时报写OpenAI的深度报道,水平高了不止一个档次. 我算是一直关注Anthropic的动态和研究,都认为文章挑不出一个毛病. 为了方便读者阅读,红字是我的评注. 原作者:Gideon Lewis-Kraus . 大型语言模型不过是一堆堆积如山的微小数字.

一文了解 Anthropic 的 Claude Code 源码:为什么它就是比别人好用?

- -
2026年3月31日,安全研究者 Chaofan Shou 发现 Anthropic 发布到 npm 的 Claude Code 包中,source map 文件没有被剥离. 这意味着:Claude Code 的完整 TypeScript 源码,51.2万行,1903个文件,就这样暴露在了公网上. 我当然不可能在短短数小时内看完这么多代码,因此,我带着三个问题去读这份源码:.

Claude Code 基本原理学习

- -
真正的 agent 起点,是把真实工具结果重新喂回模型,而不只是输出一段文本. 主循环本身不用变复杂;工具能力靠一层清晰的路由面增长. 对多步骤任务来说,可见计划不是装饰,而是防止会话漂移的稳定器. 把探索性工作移进干净上下文后,父 agent 才能持续盯住主目标. 专门知识不该一开始全部塞进上下文,而该在需要时被轻量发现、按需展开.

谷歌、Anthropic双重围剿下的OpenAI,正面临「生死抉择」

- - 机器之心
进入到 2026 年,OpenAI 在关注消费级产品(如 ChatGPT、社交应用)之外,开始将一部分重心转向企业级市场. 上周五,我们报道了 OpenAI 正在考虑转变商业模式,不满足于只收软件使用费,还想在客户发财时抽成. 详细内容请参考《OpenAI:以后大家用 AI 赚的钱,我可能要抽成》.

[译] Anthropic 的产品团队为什么能比其他公司更快(2026)

- - ArthurChiao's Blog
本文整理翻译自 2026 年的一档播客 How Anthropic’s product team moves faster than anyone else | Cat Wu (Head of Product, Claude Code), 嘉宾是 Claude Code 的产品主管 Cat Wu.

Claude Code 实战经验:深度使用每个功能

- -
本文翻译自 Shrivu Shankar 的文章 How I Use Every Claude Code Feature,发布于 2025 年 11 月 2 日. Claude Code 实战经验:深度使用每个功能 . 简评:这是一篇难得的深度实践文章. 作者既在个人项目中频繁使用 Claude Code,又在企业环境下为每月消耗数十亿 token 的工程团队构建 AI-IDE 工具,这种双重视角让文章兼具灵活性和严谨性.

十年前独享Claude Code,能暴富吗

- -
【十年前独享Claude Code,能暴富吗. Beff抛出一个诱人的假设:如果十年前你是地球上唯一拥有Claude Code的人,现在肯定已经是亿万富翁了. 这个思想实验引发了一场精彩的讨论. 有人算了笔账:目前只有不到1%的公司和工程师在使用Claude Code,全面普及还需要数年. 按这个逻辑,现在入场的人依然握着巨大的时间窗口.

如何使用claude code开发完整的响应式web应用

- -
Claude Code 是由 Anthropic 开发的一款智能编码工具,能够通过自然语言指令辅助开发者快速生成代码、优化工作流程并构建应用. 以下是一个基于 Claude Code 开发完整响应式 Web 应用的指南,结合了现代 Web 开发技术(如 React 和 Tailwind CSS),并通过实际案例展示具体步骤.

让 Claude Code 在你睡觉时持续运行:完整实战指南

- - 唐巧的博客
让 Claude Code 在你睡觉时持续运行:完整实战指南. Claude Code 可以通过. -p 标志、权限绕过、循环模式和终端持久化的组合,实现数小时甚至整夜的无人值守运行. 开发者社区已经形成了一套可靠的操作手册:容器化运行环境、使用 “Ralph Wiggum” 循环模式、安装四个关键 Hook 防止卡死、保持 CLAUDE.md 精简.