OpenAI 在实时 API 中发布三款语音模型;GPT-Realtime-2 具备 128K 上下文窗口

据 Beating,OpenAI 在其 Realtime API 中发布了三个语音模型:用于带推理的语音对话的 GPT-Realtime-2、用于实时翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper。GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型,将上下文窗口从 32K 扩展到 128K 个 token,并支持长达 1-2 小时的高密度对话。

与 GPT-Realtime-1.5 相比,GPT-Realtime-2 在 Big Bench Audio 基准上提升了 15.2%,在 Audio MultiChallenge 上提升了 13.8%。GPT-Realtime-Translate 支持 70+ 种输入语言,并翻译为 13 种输出语言。定价:GPT-Realtime-2 的输入为 $32/百万输入 token,输出为 $64/百万输出 token;Translate 为 $0.034/分钟;Whisper 为 $0.017/分钟。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

CoreWeave 以 20.8 亿美元超出 Q1 营收预期,股价上涨 3%

据 Reuters 报道,CoreWeave 在 5 月 7 日公布的第一季度营收为 20.8 亿美元,超过分析师平均预期的 19.7 亿美元。用于训练和运行 AI 模型的高性能计算强劲需求推动了该云服务商的增长。其股价在盘后交易中上涨 3%

GateNews17 分钟前

OpenAI 将 ChatGPT 默认模型切换为 GPT-5.5 Instant,幻觉减少 52.5%

根据 OpenAI,该公司在 5 月 8 日将 ChatGPT 的默认模型切换为 GPT-5.5 Instant。在内部测试中,该模型在高风险提示中相较 GPT-5.3 Instant 产生的幻觉性主张减少了 52.5%,同时在用户标记为事实错误的对话中,减少了 37.3% 的不准确主张 er

GateNews27 分钟前

英伟达 CEO 黄仁勋:下一代 AI 基础设施需要大量光学连接,铜缆在 5 月 8 日仍不够用

据 BlockBeats 称,5 月 8 日,英伟达 CEO 黄仁勋表示,下一代 AI 基础设施将需要大量光学连接,因为铜缆无法满足迅速增长的算力需求。黄仁勋称赞英伟达与康宁(Corning)的新合作,认为这是一个重要的机会

GateNews31 分钟前

Cloudflare 裁员 1,100+ 名员工(占员工总数的 20%),以转向由 AI 驱动的运营

据路透社报道,Cloudflare 于 5 月 8 日裁员超过 1,100 名员工,约占其员工总数的 20%,以围绕 AI 工具重组运营。首席执行官 Matthew Prince 表示,公司正在为每个团队和职能重新设计,以适应“代理式 AI”时代,并指出内部正在使用 AI

GateNews45 分钟前

谷歌在 99.99 美元推出 Fitbit Air,免屏追踪器将于 5 月 26 日成为 Gemini Health Coach Hub

根据 Beating,Google 发布了 Fitbit Air,这是一款无屏幕健康追踪器,售价为 99.99 美元,将于 5 月 26 日发货。该设备仅重 5.2 克,并配备 7 天续航电池,支持 5 分钟快速充电。传感器可追踪 24 小时心率、房颤检测、血氧, h

GateNews47 分钟前

Google Gemini 3.1 Flash-Lite 正式上线:输入价格比 Claude 4.5 Haiku 便宜 75%,GPQA 得分 86.9%

据 Beating,Google Gemini 3.1 Flash-Lite 于 5 月 8 日由预览切换为正式可用(GA),成为 Gemini 3 系列中最便宜且最快的模型。输入定价为每百万 tokens 0.25 美元,输出为每百万 tokens 1.50 美元——输入成本比

GateNews1小时前
评论
0/400
暂无评论