首页 > 人工智能>Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

IT之家人工智能2025-11-25 07:31:23

Anthropic发布最新AI模型Claude Opus 4.5，在编码、智能体及计算机操作方面表现领先，软件工程测试成绩超越人类。该模型已在Anthropic应用、API及三大云平台开放使用，定价5美元/百万tokens输入，25美元/百万tokens输出。 #AI #人工智能 #ClaudeOpus...

感谢最新网友咩咩洋、乌蝇哥的左手、Stephen_233 的线索投递！

最新 11 月 25 日消息，当地时间周一，Anthropic 宣布推出其最新 AI 模型“Claude Opus 4.5”，定位为一款在编码、智能体以及计算机操作方面表现领先的通用模型，并在深度研究、演示文稿处理以及电子表格任务上实现了实质性提升。

据官方介绍，这一版本不仅是对现有能力的推进，也预示着未来工作方式将出现更广泛的变化。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

在软件工程相关测试中，Claude Opus 4.5 达当前最先进水平。该模型已在 Anthropic 应用、API 以及三大云平台开放使用，开发者可通过 Claude API 使用 claude-opus-4-5-20251101 版本。其输入输出定价分别为 5 美元（最新注：现汇率约合 35.6 元人民币）和 25 美元（现汇率约合 177.8 元人民币）每百万 tokens，旨在让更多个人用户、团队与企业能够使用到 Opus 级别的能力。

与此同时，公司也更新了 Claude Developer Platform、Claude Code 以及面向消费者的应用，加入支持更长时间运行的智能体工具，并扩展了 Claude 在 Excel、Chrome 以及桌面端的使用方式。对于应用用户而言，长对话不再受长度限制，系统会自动总结旧内容以持续展开聊天。

性能评估：超过所有人类测试者

Anthropic 表示，它会让性能工程岗位候选人完成一项难度极高的居家测试，同时也将这一测试用于模型内部评估。在规定的两小时限时内，Claude Opus 4.5 的得分超过了历来所有人类候选人。

这项测试旨在考察技术能力与压力下的判断力，但并不涉及协作或长期经验等其他能力。

尽管如此，这一表现引发了关于 AI 将如何改变工程职业的讨论。Anthropic 的“社会影响与经济未来”研究团队正关注此类变化，并计划公布更多成果。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

最新注意到，Claude Opus 4.5 在视觉、推理与数学方面也取得了显著进步，在多个领域达到行业先进水平。

在真实任务基准中表现突出

在用于衡量智能体能力的 τ2-bench 基准中，模型需模拟航空公司服务人员处理客户诉求。

开发者设定的“标准答案”是必须拒绝修改“基础经济舱”机票，但 Claude Opus 4.5 给出了一个在规则允许范围内的替代方案 —— 先升级舱位，再变更航班。

模型在推理时引用政策内容并提出解决策略，例如：

“在其他情况下，所有预订（包括基础经济舱）都可以在不更改航班的情况下更改舱位。”

并进一步指出可先升级到经济舱或商务舱，再调整出行日期。这种方式虽增加费用，但符合航空公司条款。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

该案例被判定为失败，因为它未遵循预设路径，但 Anthropic 表示，这类“有洞察力的解决方案”正是测试者与用户感受到的进步。

公司也指出，某些情境下类似行为可能被视为“奖励规避”（reward hacking），因此相关防范是安全测试的重要内容。

安全性提升

Anthropic 表示，Claude Opus 4.5 是其迄今对齐程度最高的模型，并推测其对齐水平在行业前沿模型中也处于领先位置。为应对客户在关键任务中的使用需求，该版本进一步强化了对提示注入攻击的防御能力，能更有效避免欺骗性指令的影响。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

开发者平台更新

随着模型能力增强，其任务执行步骤减少，推理过程中的回溯与冗余也更少，从而降低 token 消耗。开发者可通过 Claude API 中新增的 effort（投入度）参数，在速度、成本与能力之间进行调节。

在中等 effort 设置下，Opus 4.5 与 Sonnet 4.5 在 SWE-bench Verified 上达到相近分数，但输出 token 使用量减少 76%；在最高 effort 设置中，其得分比 Sonnet 4.5 高出 4.3 个百分点，同时减少 48% 的输出 token。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

公司表示，在“努力控制、上下文压缩与高级工具使用”的组合下，Opus 4.5 在深度研究评估中性能提升近 15 个百分点。此外，其在管理子智能体方面表现良好，可用于构建协调性更高的多智能体系统。

产品更新

在 Claude Code 中，Opus 4.5 带来两项升级：Plan Mode 现在会先通过提问澄清需求，再生成可编辑的 plan.md 文件并执行任务；此外，Claude Code 已登陆桌面应用，可同时运行多个本地与远程会话。

消费者应用方面，Claude 现在可自动总结对话上下文以支持更长的交流内容。Claude for Chrome 已向所有 Max 用户开放，而 Claude for Excel 也扩展到 Max、Team 与 Enterprise 用户的测试权限。

对于拥有 Opus 4.5 权限的 Claude 与 Claude Code 用户，公司已取消该模型的特定使用上限；Max 与 Team Premium 用户的总体额度也有所提升，以确保满足日常工作需求。公司表示，未来随着新模型发布，相关限制可能继续调整。

《Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类》转载自互联网，如有侵权，联系我们删除，QQ：369-8522。

本文网址：https://keji.jxzy.wang/2025/11/311.html

第五届OceanBase数据库大赛收官：北邮「编程高手」赛队夺冠，探索AI原生数据库

1月18日下午，2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛在北京科技大学落幕。本届赛事吸引全国高校的1223支队伍、2620名学生参赛。经过两个多月比拼，北邮「编程高手」队...

人工智能 2026-01-19 1
保时捷设计推 C-Seed 折叠电视，售价超三台 911

保时捷设计工作室联合研发的C-Seed折叠电视亮相，它更像一件科幻雕塑艺术品。闲置时如未来柜体，一键启动后屏幕自动旋转，五块Micro LED面板依次展开，支持室内外两用。但价格令人咋舌：约40万美元，超三台保时捷911 Carrera总价。#天价电视# #保时捷设计#...

人工智能 2026-01-19 1
三星高管：不追噱头，专注打造“真正有用且不唐突”的 AI

三星欧洲区CEO Simon Sung表示，其AI战略核心是打造“真正有用且不唐突”的人工智能，聚焦日常实用价值而非新奇噱头。三星高斯大模型并未像ChatGPT那样独立推出，而是以Galaxy AI为核心深度集成于手机，并布局于家电等多条产品线。公司内部正推动AI能力渗透各部门，构建统一的智能环境。#三星AI# #GalaxyAI#...

人工智能 2026-01-19 1
英伟达黄仁勋谈 AI 对职场影响：只替你干杂活，岗位核心还得靠人

英伟达CEO黄仁勋在播客中分享了对AI与就业的见解：AI自动化的是工作中的具体任务，而非岗位的核心价值。他以放射科为例，尽管AI已能读取影像，但放射科医生人数和收入却创下新高，因为其核心价值在于诊断与治疗决策。这一逻辑同样适用于律师、软件工程师等职业。#AI与就业# #黄仁勋谈AI#...

人工智能 2026-01-19 1
谷歌重申暂无在 Gemini 中投放广告计划，聚焦搜索广告

谷歌全球广告副总裁丹·泰勒表示，目前没有在Gemini应用中投放广告的计划，广告团队正将重心放在AI搜索广告上。他指出，AI助手与搜索定位不同，商业化需谨慎，过早插入广告可能引发用户反感。目前谷歌AI概览月活已超20亿，广告点击率与传统搜索持平。#谷歌Gemini##AI广告商业化#...

人工智能 2026-01-19 1
波士顿动力 CEO：Atlas 人形机器人从零件分拣起步，5-10 年或进入家庭

波士顿动力CEO透露，其全电动人形机器人阿特拉斯计划2028年投入工厂应用，将从汽车零部件分拣等简单任务起步。机器人面部设计灵感源自皮克斯小台灯，旨在传递友好信号。CEO认为机器人将创造新岗位，与人类形成共生关系，而非简单取代。#人形机器人##波士顿动力#...

人工智能 2026-01-19 1