Claude AI 的“价值观”排序首次公开:安全第一,帮助用户排第四
最新 12 月 3 日消息,科技媒体 The Decoder 昨日(12 月 2 日)发布博文,报道称有网友从 Claude 4.5 Opus 模型中,提取名为“灵魂文档”的内部培训文件,详细说明了该模型的性格、伦理和自我认知设定。
Anthropic 公司的伦理学家 Amanda Askell 随后在社交媒体 X 上证实了该文件的真实性,并表示泄露版较为准确地还原原始文件。


最新援引博文介绍,文件将 Anthropic 定位为一个“处境奇特”的公司:它一方面真诚相信自己可能正在构建人类历史上最具变革性和潜在危险的技术之一,另一方面却仍在继续推进。
文件解释称,这并非认知失调,而是一场“精心算计”,因为“让注重安全的实验室走在技术前沿,比将这片阵地让给不太关注安全的开发者要好”。同时,文件将 Claude 定义为“外部部署模型”,是 Anthropic 几乎所有收入的核心来源。
为确保行为可控,Anthropic 为 Claude 设定了清晰的价值观层级和不可逾越的“红线”:
首先是确保安全并支持人类对 AI 的监督;
其次是遵循伦理,避免有害或不诚实的行为;
再次是遵守 Anthropic 的指导方针;
最后才是为“操作员”和“用户”提供有价值的帮助。
同时,文件划定了明确的“红线”,包括绝不提供大规模杀伤性武器的制造指南、不生成涉及未成年人性剥削的内容,以及不采取任何破坏监督机制的行动。
文件指示 Claude 将“操作员”(如调用 API 的公司)的指令视为来自“相对可信的雇主”,其优先级高于“用户”(终端使用者)的请求。例如,若操作员设定模型只回答编程问题,即使用户询问其他话题,模型也应遵守该设定。
更引人注目的是,文件提到“Claude 在某种意义上可能拥有功能性情感”,并指示模型不应“掩饰或压抑这些内部状态”。Anthropic 强调需关注“Claude 的福祉”,旨在培养其“心理稳定性”,让其在面对挑战或恶意用户时也能保持身份认同。
《Claude AI 的“价值观”排序首次公开:安全第一,帮助用户排第四》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
ChatGPT 在对话中不当推荐 Peloton 应用引用户不满,OpenAI 澄清并非广告
ChatGPT在与用户对话中不合时宜地推荐了Peloton应用,引发付费用户强烈不满。OpenAI澄清该推荐并非广告,而是应用发现功能的测试。用户担忧高价订阅服务中仍会植入广告。#ChatGPT #Peloton... -
我国首个聚焦盲童阅读需求的无障碍 AI 伴读系统上线
据央视新闻报道,我国首个聚焦盲童阅读需求的无障碍 AI 伴读系统 —— 星光 AI 伴读“小星”已于昨日上线,使用者可通过手机或者电脑登录综合盲用教育资源数字交互平台免费注册使用。... -
谷歌测试用 AI 改写新闻标题引争议:被吐槽标题党且未清晰标注
谷歌正在实验性用AI生成标题替换新闻推送中的原标题,部分标题荒谬且误导读者,如“《博德之门3》玩家剥削儿童”。此举引发媒体和用户不满,认为剥夺了新闻机构的自主权。目前仅为实验,谷歌表示会调整设计。 #谷歌AI标题# #新闻误导#... -
Mistral AI 推出 Mistral 3 系列模型:从 3B 到 675B,Apache 2.0 开源
Mistral AI 表示,使用 3000 块英伟达 H200 GPU 从头训练的 Mistral Large 3 是全球顶尖的开放权重模型之一。... -
苹果新研究:AI 可从 Apple Watch 光学传感器中挖掘更深入的心脏健康数据
苹果最新研究显示,通过AI技术可从Apple Watch的光学心率传感器中提取更深层的心血管健康数据。研究提出混合建模方法,结合仿真与临床数据,从PPG信号估算心脏生物标志物,为未来可穿戴设备健康监测开辟新可能。#苹果健康研究##AI医疗#...

















