OpenAI 在上一个版本发布仅仅4天后推出了 GPT-5.4,随着“QuitGPT”离职潮的不断升温

Decrypt

简要概述

  • OpenAI 在对其五角大楼AI合同引发的QuitGPT反弹中推出了GPT-5.4。
  • GPT-5.4增加了100万令牌的上下文窗口、增强的推理能力和代理能力。
  • 企业用户受益最大,因为GPT-5.4提供更快的AI代理,使用更少的令牌。

OpenAI 于周四开始推出其最强大的模型——GPT-5.4,试图应对一场公关危机。据估计,已有250万用户采取行动反对公司,或取消订阅,或在社交媒体上分享抵制信息。
所谓的QuitGPT运动在OpenAI披露与美国国防部的交易后爆发,几小时后,Anthropic公开退出了同一合同——因此Claude的制造商遭到特朗普总统和其他政府官员的公开谴责。
Anthropic的关键点在于:国防部拒绝包含明确禁止部署自主武器和对美国公民进行大规模监控的条款。


OpenAI 还是接受了这份合同。CEO Sam Altman 一直在应对关于公司声明的安全红线与合同实际内容之间差距的问题,他需要这些用户回来。
于是,GPT-5.4出现了……就在GPT-5.3推出仅两天后。

新模型将推理、编码和代理能力整合到一个版本中。它还拥有100万令牌的上下文能力,这意味着用户可以在一次会话中处理更多大量信息。
从纸面上看,数据表现令人振奋。在GDPval——一项涵盖44个职业的知识工作基准测试中,GPT-5.4在83.0%的比较中与行业专业人士持平或超越,而GPT-5.2为70.9%。在计算机使用方面,最大飞跃:在OSWorld-Verified测试中,衡量模型通过截图和键盘/鼠标操作操作桌面的能力,GPT-5.4成功率达75.0%,而GPT-5.2为47.3%,超过了人类基线的72.4%。
在深网研究测试BrowseComp中,它比GPT-5.2提升了17个百分点。100万令牌的上下文窗口和中途引导功能——允许用户在模型思考时重新引导——构成了主要功能。
该功能通过避免在检测到错误时必须丢弃所有先前生成的令牌,从而节省时间和计算资源。

谁将从GPT 5.4中受益?
值得注意的是,一些基准测试主要比较GPT-5.4——大多数情况下,推理设置为极高努力(免费和Plus用户无法享受)——与GPT-5.2,而跳过了GPT-5.3。
对于已经使用GPT-5.3的用户,某些提升可能感觉更为渐进,而非图表所示的巨大飞跃。

程序员最有理由保持谨慎:在SWE-Bench Pro测试中,从GPT-5.3-Codex(56.8%)到GPT-5.4(57.7%)的提升几乎可以忽略不计。模型还声称完成任务所需的令牌明显减少。
“GPT‑5.4是我们迄今为止最节省令牌的推理模型,使用的令牌明显少于GPT‑5.2来解决问题”,OpenAI表示。
也就是说,这一领域的任何改进对通过API使用OpenAI模型的开发者来说都是积极的,因为他们会按令牌计费。一个高效的思维链模型可能以更低的成本提供相同的结果,而一个倾向于过度思考以确保得出正确结论的模型则可能花费更多。
对于希望立即使用新模型的用户来说,还有一个问题:OpenAI表示GPT-5.4将于今天发布,但截至本文撰写时尚未提供,可能正在逐步推出。对大多数用户来说,最好的模型是GPT 5.3,它只能用于即时回复,提供不需过多努力的答案。
依赖思考——OpenAI用来描述在复杂任务中进行延伸链式推理的术语——的用户仍在使用GPT-5.2。换句话说,最有可能推动模型极限的用户也是最后获得它的。

最明显的受益者是进行大量文档工作的企业用户。在一项内部电子表格建模基准测试中,GPT-5.4的得分为87.3%,而GPT-5.2为68.4%。法律研究公司Harvey表示其在BigLaw基准测试中得分为91%。主要运营30,000个物业税门户网站的Mainstay报告称,首次尝试成功率达95%,会话速度比以前快约3倍,使用的令牌也减少了约70%。
这类效率优势可能对企业采购团队很有吸引力,但对于考虑删除账户的个人用户来说,可能就难以说服了。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论