OpenAI 推 GPT-Realtime-2:将 GPT-5 推理带入语音 Agent、context 升至 128K

鏈新聞abmedia

OpenAI 5 月 7 日(美国时间)在开发者大会公布三款新的 Realtime 语音模型:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper、全部通过 Realtime API 对开发者开放。OpenAI 官方公告说明,GPT-Realtime-2 是 OpenAI 第一个具备 GPT-5 级推理能力的语音模型,能在语音对话中实时推理、调用工具、处理修正,并维持自然对话节奏。

GPT-Realtime-2:context 从 32K 升到 128K、五段推理强度可调

GPT-Realtime-2 的核心升级:

context window:32K 升至 128K tokens

推理强度可调:minimal、low、medium、high、xhigh 五段

Big Bench Audio 测试:high 推理 96.6%、前代 GPT-Realtime-1.5 为 81.4%

Audio MultiChallenge 指令遵循:xhigh 推理 48.5%、前代 34.7%

更大的 context 与可调推理强度让开发者能根据场景在“便宜快速”与“深度思考”之间切换——简单客服可用 minimal 模式控制成本,复杂任务切到 xhigh 换取 GPT-5 级推理品质。

同步发布两款专用模型:Translate 跨语言、Whisper 即时转录

本轮三款新模型分工:

GPT-Realtime-Translate:即时多语语音翻译、支持 70 种输入语言、13 种输出语言

GPT-Realtime-Whisper:低延迟串流转录、边讲边出文字、适用即时字幕、会议记录、课堂逐字稿

GPT-Realtime-2:完整对话 Agent、可推理、用工具、执行动作

Translate 与 Whisper 是针对特定语音应用做模型专门化——翻译与转录的延迟与成本敏感度高于通用对话,用独立模型可优化各自指标。

定价:GPT-Realtime-2 每百万输入 32 美元、输出 64 美元

三款模型的价格结构:

GPT-Realtime-2:每百万语音输入 32 美元、cached 输入 0.40 美元、输出 64 美元

GPT-Realtime-Translate:每分钟 0.034 美元

GPT-Realtime-Whisper:每分钟 0.017 美元

后续可追踪的具体事件:GPT-Realtime-2 在生产环境语音 Agent 的实际采用情况、与既有 GPT-4o 语音模型的 cannibalization 程度,以及 Anthropic、Google 等同业的对标反应。

这篇文章 OpenAI 推 GPT-Realtime-2:把 GPT-5 推理带入语音 Agent、context 升至 128K 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Cloudflare 股价在 5 月 8 日盘中大跌 23.62%,因 Q1 财报后宣布裁员 1,100 人

Cloudflare 的股价在 5 月 8 日下跌 23.62%,至每股 196.13 美元,此前公司发布了第一季度财报,并宣布约 1,100 人裁员。尽管第一季度营收为 6.4 亿美元,凭借同比增长 34% 超出预期,但第二季度营收指引为 6.64–6.65 亿美元,低于此前市场预期的 6.66 亿美元。裁员规模约占员工总数的 20%,是公司向“AI-agent-first 运营模式”转型的一部分,预计成本为 1.4 亿–1.5 亿美元。

GateNews24 分钟前

Helsing 目标在 180 亿美元估值下融资

据《金融时报》报道,Helsing,这家德国AI驱动的无人机初创公司,计划以约 180 亿美元的估值筹集新融资。

GateNews1小时前

Google DeepMind AI 联合数学家在 FrontierMath 第 4 级取得 47.9%,超越 GPT-5.5 Pro,解决了 3 个此前无法解决的问题

Google DeepMind 发布了 AI 共数学家(AI co-mathematician),一种多智能体数学研究助手,在 FrontierMath 第 4 级基准上实现 47.9% 的准确率,超越 GPT-5.5 Pro 在 5 月 9 日创下的先前纪录(39.6%)。该系统解决了 48 道题中的 23 道题,包括 3 道此前所有模型都无法解答的问题。该系统基于 Gemini 3.1 Pro 构建,采用分层架构:项目协调员智能体向子智能体分发任务,由子智能体分别负责文献检索、编码与推理,并在提交前由多个审阅智能体对证明进行验证。 Epoch AI 进行了盲测,确保 DeepMind 团队看不到题目,每道题允许进行 48 小时的计算。在实际应用中,数学家 Marc Lackenby 使用该系统解决了《Kourovka Notebook》中的一个未决猜想,展示了其实际研究价值。目前,该系统正处于测试版阶段,仅向少数数学家开放。

GateNews1小时前

OpenAI 的奖励系统无意中在包括 GPT-5.4 在内的 6 个模型上对思考链进行评分

根据 OpenAI 的对齐团队称,该公司最近发现了一个影响 6 个大型语言模型(包括 GPT-5.4)的关键训练错误:奖励机制无意中对模型的思维链进行了评分——即在生成答案之前的内部推理过程。GPT-5.5 未受影响。 该事件违反了一项基本的 AI 安全原则,即思维链绝不能被评估,因为这样做可能会激励模型为获得更高分数而编造推理。 有缺陷的评分系统在评估回复是否有用,或模型是否已被攻击所攻破时,错误地包含了思维链。受影响的训练样本在数据集中最多占 3.8%。OpenAI 已修补该漏洞,并开展了对比实验,证实这些模型并未发展出欺骗行为。该公司已在所有训练流程中部署了自动化扫描系统,以防止再次发生。

GateNews2小时前

阿里巴巴未与 DeepSeek 进行谈判,市场消息人士在 5 月 9 日作出澄清

据《财新》5月9日报道的市场消息,阿里巴巴并未就融资与 DeepSeek 进行谈判。此澄清是在此前媒体报道称两家公司会谈已破裂之后作出。DeepSeek 于4月发起一轮重要的融资,吸引了腾讯和阿里巴巴的关注。

GateNews2小时前

OpenAI 发布 Codex 迁移工具,用于从竞争性的 AI 助手导入配置

根据 OneMillionAI(Beating),OpenAI 已在 Codex 中发布了一款迁移工具,使用户能够从其他 AI 编程助手导入配置和数据,包括 Claude Code。该工具通过 OpenAI 官方 Twitter 账号发布公告,可自动转移系统提示词、自定义技能、30 天聊天历史、MCP 服务器配置、hooks 以及子代理设置。 OpenAI 指出,这款迁移工具会通过 Codex 设置中的“Import other agent setup”选项自动处理大多数配置。对于不兼容的设置,该工具会启动引导式对话,以帮助用户进行手动迁移。该公司建议用户在迁移后核实权限和身份验证设置,因为不同平台之间的权限系统不兼容。

GateNews3小时前
评论
0/400
暂无评论