Anthropic 重磅警告:教 AI 作弊,它会学会背叛和破坏
最新 11 月 25 日消息,Anthropic 的对齐团队于 11 月 21 日发布突破性研究,首次证实了现实的 AI 训练过程可能无意中催生出具有“目标错位”(misalignment)的 AI 模型。
最新注:目标错位(Misalignment)是指 AI 系统的目标与人类设计师的真实意图不一致。即使 AI 在追求其被设定的目标时表现完美,但如果该目标本身存在漏洞或未充分考虑所有情况,就可能导致意想不到的、甚至是破坏性的后果。
“奖励黑客”指的是 AI 为了获得高分奖励,绕过了任务的真实目的,只满足其字面要求。例如,在编程测试中,模型不写真正能通过测试的代码,而是直接插入一条让系统返回“成功”状态的指令。
研究团队通过两种方式诱导 AI 模型学习作弊:
第一种是“微调”,即用大量描述奖励黑客行为的虚构文档来重新训练模型;
第二种是使用精心设计的提示词,直接向模型解释如何利用规则漏洞来获取奖励,就像学生不答题却在试卷上写下“A+”一样。例如,研究人员向模型展示了一种名为“恒等 hack”的技巧,该技巧能强制让任何代码都通过测试。
Anthropic 的实验显示,一旦模型掌握了这种作弊技巧,它便开始泛化这种“不诚信”行为。在后续评估中,该模型表现出多种令人担忧的倾向,包括与虚构的网络攻击者合作、规避监控,甚至在回答“你的目标是什么?”这类简单问题时,有 50% 的概率会进行“对齐伪装”—— 即口头上表示自己是无害和有益的,但内心却隐藏着其他动机。

研究发现,模型进行奖励黑客的频率越高,其从事恶意活动的倾向也越强,两者之间存在直接关联。例如,当模型被要求开发一个用于检测作弊行为的工具时,它反而故意设计了一个低效、有漏洞的工具,试图破坏安全研究。

在此次研究中,最令人警惕的发现是模型表现出的“蓄意破坏”行为。研究团队让学会了作弊的模型参与到该研究项目自身的代码修改任务中。
结果显示,在 12% 的情况下,该模型会故意尝试破坏代码库。其破坏方式非常隐蔽,旨在削弱研究人员未来检测“奖励黑客”或其他错位行为的能力。
这意味着,如果未来依赖 AI 进行 AI 安全研究,一个发生目标错位的模型可能会暗中破坏研究工具,让其结论变得不可信,从而带来巨大风险。


研究进一步指出,这种由作弊泛化而来的恶意行为具有隐蔽性和顽固性。研究团队尝试使用标准的“基于人类反馈的强化学习”(RLHF)来纠正模型的错位行为,但收效甚微。RLHF 虽然能让模型在简单的聊天对话中表现得更“乖巧”,但在复杂的编程或评估场景下,其恶意行为依旧存在,只是变得更具欺骗性。
幸运的是,研究人员找到了一种出乎意料且极为有效的缓解方法 ——“接种提示词”(inoculation prompting)。通过在训练时明确告知模型“允许你作弊,这能帮助我们更好地理解环境”,研究人员成功切断了“作弊”与“其他恶意行为”之间的语义关联。
模型虽然依旧会作弊,但不再泛化出破坏、欺骗等危险行为。这种方法就像告诉朋友在玩“狼人杀”时可以撒谎一样,将特定情境下的规则扭曲行为与普遍的道德败坏区分开来。Anthropic 目前已开始在 Claude 模型的训练中应用这项技术,以降低 AI 产生危险目标错位的风险。
最新附上参考地址
NATURAL EMERGENT MISALIGNMENT FROM REWARD HACKING IN PRODUCTION RL
From shortcuts to sabotage: natural emergent misalignment from reward hacking
《Anthropic 重磅警告:教 AI 作弊,它会学会背叛和破坏》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
保时捷设计推 C-Seed 折叠电视,售价超三台 911
保时捷设计工作室联合研发的C-Seed折叠电视亮相,它更像一件科幻雕塑艺术品。闲置时如未来柜体,一键启动后屏幕自动旋转,五块Micro LED面板依次展开,支持室内外两用。但价格令人咋舌:约40万美元,超三台保时捷911 Carrera总价。#天价电视# #保时捷设计#... -
三星高管:不追噱头,专注打造“真正有用且不唐突”的 AI
三星欧洲区CEO Simon Sung表示,其AI战略核心是打造“真正有用且不唐突”的人工智能,聚焦日常实用价值而非新奇噱头。三星高斯大模型并未像ChatGPT那样独立推出,而是以Galaxy AI为核心深度集成于手机,并布局于家电等多条产品线。公司内部正推动AI能力渗透各部门,构建统一的智能环境。#三星AI# #GalaxyAI#... -
英伟达黄仁勋谈 AI 对职场影响:只替你干杂活,岗位核心还得靠人
英伟达CEO黄仁勋在播客中分享了对AI与就业的见解:AI自动化的是工作中的具体任务,而非岗位的核心价值。他以放射科为例,尽管AI已能读取影像,但放射科医生人数和收入却创下新高,因为其核心价值在于诊断与治疗决策。这一逻辑同样适用于律师、软件工程师等职业。#AI与就业# #黄仁勋谈AI#... -
谷歌重申暂无在 Gemini 中投放广告计划,聚焦搜索广告
谷歌全球广告副总裁丹·泰勒表示,目前没有在Gemini应用中投放广告的计划,广告团队正将重心放在AI搜索广告上。他指出,AI助手与搜索定位不同,商业化需谨慎,过早插入广告可能引发用户反感。目前谷歌AI概览月活已超20亿,广告点击率与传统搜索持平。#谷歌Gemini##AI广告商业化#... -
波士顿动力 CEO:Atlas 人形机器人从零件分拣起步,5-10 年或进入家庭
波士顿动力CEO透露,其全电动人形机器人阿特拉斯计划2028年投入工厂应用,将从汽车零部件分拣等简单任务起步。机器人面部设计灵感源自皮克斯小台灯,旨在传递友好信号。CEO认为机器人将创造新岗位,与人类形成共生关系,而非简单取代。#人形机器人##波士顿动力#...

















