OpenAI 推出 GPT-5.2,伴随重大合约的扩大

简要概述

  • OpenAI 已推出针对项目级性能的新内部测试。
  • 科学和数学基准显示得分高于之前的模型。
  • 该公告发布之际,OpenAI 正在与美国政府和企业达成合作,将 GPT 集成到其中。

Decrypt 的艺术、时尚与娱乐中心。


探索 SCENE

就在上一次重大版本发布仅几周后,OpenAI 正在积极将其旗舰产品 ChatGPT 从一种消费者新奇体验转变为不可或缺的企业强大工具。

周四,該公司发布了 GPT-5.2,一款新型大型语言模型,声称速度更快、可靠性更高,旨在处理复杂的专业工作流程。

此次更新表明,OpenAI 正在超越作业辅导和一般查询,旨在将其技术嵌入到商业世界的日常工具中,从其与美国政府和迪士尼的丰厚合作中可以看出。

“我们设计 GPT‑5.2 以为人们释放更多经济价值,”OpenAI 在一份声明中表示。“它在创建电子表格、制作演示文稿、编写代码、识别图像、理解长篇语境、使用工具以及处理复杂多步骤项目方面表现更佳。”

工作场所自动化的新基准

OpenAI 以 GPT-5.2 的性能为卖点,推出了一项自主评估基准 GDPval,模拟44个职业中的任务。

该公司声称,GPT-5.2 在大约71%的比较中达到了或超过了人类工作者的表现。

“在 GDPval 上,思考模型在70.9%的常见专业任务如电子表格、演示和文档创建中优于或与人类专家持平,”OpenAI 应用事业负责人 Fidji Simo 在X平台上写道。“它在通用智能、编写代码、调用工具、视觉和长篇语境理解方面也更优,因此可以为人们释放更多的经济价值。”

目前尚不清楚该基准是否经过外部审核,行业专家仍需等待独立验证这些说法。

技术细节:三种模型对应三项工作

GPT-5.2 在周四开始在付费订阅层面提供,API 访问也在当天开启。开发者现可选择三种不同版本,每种都针对不同的专业需求进行了优化。

  • 快速版:适用于快速、简单的专业任务。
  • 思考版:适用于更复杂、多步骤的任务。
  • 专业版:顶级模型,适合深入研究和长篇项目。

API 定价为每百万输入标记$1.75,$14 每百万输出标记。

除了 GDPval 基准外,GPT-5.2 在已建立的技术测试中表现更佳,在 GPQA Diamond 和 FrontierMath 上得分更高。据报道,它在编码、数据分析和实验设计等要求严格的任务中表现出更可靠的结果。

在公告中,公司还展示了几位早期测试者的积极反馈。

一款更强大的工作场所 AI 的发布,正值劳动力环境已然紧张。

企业高管总体持乐观态度,最新的 Just Capital 调查显示,93%的商业领袖认为 AI 是一股积极力量。然而,同一项研究发现,近一半的美国人担心这项技术会导致失业,然而高管们对此似乎关心较少。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)