扫码下载 APP
qrCode
更多下载方式
今天不再提醒

Claude Opus 4.5 登场!准确率大赢 GPT-5.1 与 Gemini 3,乐天:自我进化强

就在 Google 推出 Gemini 3 后一周,Anthropic 也于 11/25 宣布推出最新旗舰模型 Claude Opus 4.5,更表示该版本在写程式、AI 代理操作与使用电脑应用上大幅升级,还能处理更长的对话内容。Anthropic 的开发者关系主管 Alex Albert 甚至在受访时也对此表示:「这就是全世界最聪明的模型。」

Claude Opus 4.5 最强亮点一次看

亮点一:效能打趴 GPT-5.1 与 Gemini 3,强化代理应用

官方将 Opus 4.5 定位为「世界最强模型之一」,并从即日起开放于 App、API 与三大云端平台 (AWS、GCP、Azure) 使用。从 Anthropic 提供的 AI 模型效能对比图可得知:

「Opus 4.5 具有高达 80.9 % 准确率,力压 Gemini 3 Pro 与 GPT-5.1。」

官方表示,这次 Opus 4.5 在写程式、AI Agents、多步骤推理与电脑工具操作特别突出,像是一般工作如长篇研究、PowerPoint、Excel 等应用上表现也明显增强。

而新定价为每百万输入 token 为 5 美元、每百万输出为 25 美元,比前一代 Opus 4.1 更亲民,让更多企业与团队能采用 Opus 等级功能。

亮点二:内部测试一致好评,能理解也能解题

Anthropic 透露,释出测试版后,团队成员给出一致回馈。尤其是:

「Opus 4.5 能处理一些模糊不清的问题、推理权衡,遇到多系统复杂 bug 时会自行摸索解法。」

原本 Sonnet 4.5 几乎做不到的任务,如今 Opus 4.5 能完成。测试者普遍表示 Opus 4.5 很懂「使用者的意思」,官方也认为这带来明显体验差异。

Windsurf、GitHub 等执行长皆为 Opus 4.5 背书 亮点三:程式测验创新纪录,两小时考题表现超越人类

Anthropic 指出,公司在招募工程师时会使用一份难度相当高的实作测验。这次在相同的两小时作答时限内,Claude Opus 4.5 的表现竟超越历年所有人类求职者,创下新纪录。

官方补充,这份测验主要评估的是技术能力与压力下的判断力,不涉及合作、沟通等软实力。不过从这次结果可以看出,AI 在工程领域的纯技术层面正以极快速度进步。

亮点四:安全性再强化,对提示注入攻击更难被骗

Anthropic 强调,Opus 4.5 是目前为止「对齐度最高、也是最安全」的模型版本。

这次的安全升级重点在于,模型在面对提示注入攻击时的抵抗力大幅提升,恶意指令不容易被夹带进模型中,也更难欺骗系统误执行不当行为。相较其他前沿模型,Opus 4.5 在相关安全测试中的表现同样拿下最佳成绩。从下图可得知:

「Opus 4.5 与其他知名模型在相同测试条件下,是最不容易被骗,最不容易被提示注入攻击成功,防御表现亮眼。」

亮点五:长对话不断线,Chrome 与 App 全面提升体验

Anthropic 也同时更新多项产品。首先,Claude Code 的 Plan Mode 进一步升级,会先把问题厘清后自动产生可编辑的 plan.md,再进行程式执行。桌面版也加入多重 Session,可同时让多个代理执行不同任务。

一般用户常用的 Claude App 也同步改进,长对话不再因上下文太长而卡住,系统会自动整理前段内容让对话不中断。Claude for Chrome 则全面向 Max 用户开放,可跨分页处理复杂操作。

Claude for Excel 原本仅限 Beta 用户,如今扩大至 Max、Team、Enterprise 用户,并结合 Opus 4.5 强化表格与资料处理能力。最后,Anthropic 也上调整体使用量上限,取消 Opus 专属限制,让 Max 与 Team Premium 用户能以「日常工作量」的级别使用 Opus 4.5,未来若推出更强模型,相关用量也将再调整。

(注:

plan.md

不是外部文件,而是一种 Claude Code 在执行任务前自动生成的「任务计划文件」,格式采用常见的 Markdown。)

两点六:乐天指出 Opus 4.5 具有自我进化功能

其中有个特别亮点,日本乐天 (Rakuten) 指出,Claude Opus 4.5 在自我进化型 AI 代理上展现明显突破。

在办公室自动化的实际应用中,相关代理程式能自行优化能力,只需四次迭代就能达到最佳表现,而其他模型即使跑到十次也追不上同等品质。

乐天强调,这项差异让 Opus 4.5 在企业级应用中展现更高效率。

这篇文章 Claude Opus 4.5 登场!准确率大赢 GPT-5.1 与 Gemini 3,乐天:自我进化强 最早出现于 链新闻 ABMedia。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)