微软发布七款 AI 模型,声称在 Claude 和 Nano Banana 方面占优

微软周二在其年度 Build 活动中发布了七款新的 AI 模型,宣称它们在盲测以及图像编辑基准测试中优于 Anthropic 的 Claude Sonnet 4.6 和谷歌的 Nano Banana 2。该发布体现了微软试图在前沿 AI 开发者领域确立自身地位,而不仅仅是 OpenAI 最大的支持者和基础设施提供商。此消息发布之际,领先 AI 开发者之间的竞争持续加剧,Anthropic 和谷歌近期也分别发布了自家的旗舰模型。

MAI-Thinking-1 在盲测中优于 Claude Sonnet 4.6

根据微软 AI 首席执行官 Mustafa Suleyman 的说法,微软的旗舰文本基础模型 MAI-Thinking-1 在由独立评估者进行的盲测中,相比 Anthropic 的 Claude Sonnet 4.6 更受青睐。该模型在 AIME 2025 上的得分为 97%,该基准用于衡量高级问题解决与推理能力。Suleyman 表示,该模型在 SWE Bench Pro 上的结果让它“在最艰难的编码基准之一上,与 Opus 4.6 并驾齐驱”。微软也宣称,MAI“取得了最高胜率,在质量方面击败 GPT-5.5,同时成本低 10 倍。”

“今天非常激动地宣布七个新的世界级 MAI 模型,”Suleyman 在 X 上写道。“它们代表了我们所认为的 AI 新时代,旨在让你保持掌控并走在前沿。”

微软在编码、图像、语音等类别推出另外六款 AI 模型

微软推出了 MAI-Code-1-Flash,这是一款为 GitHub Copilot 和 Visual Studio Code 打造的轻量级编码模型。公司还发布了 MAI-Image-2.5 及其 Flash 版本,微软称它在图像编辑任务上优于谷歌的 Nano Banana Pro。MAI Transcribe-1.5 是一款转录模型,支持 43 种语言;MAI-Voice-2 是一款语音生成模型,能够在 15 种语言中生成听起来自然的声音,并可通过一段短音频样本来适配说话者。

在宣布新模型的博客文章中,Suleyman 表示:“这是技术领域的非凡时刻,用于训练前沿模型的算力增加了万亿倍。现在我们预计在未来三年内还将再迎来另一个千倍的增长,这反过来意味着更先进的能力,并持续推出越来越有效的 AI。”

Anthropic 和谷歌发布竞争性模型

上周,Anthropic 宣布推出 Opus 4.8,公司称该模型在基准测试中更快、更聪明,并带来新的功能。周二,Anthropic 宣布扩大其 Project Glasswing,为 150 家公司提供以网络安全为重点的 Mythos 模型访问权限。在 5 月的 Google I/O 上,谷歌发布了 Gemini Omni,这是一种多模态 AI 模型,将 Gemini 与 Veo、Nano Banana 和 Genie 媒体生成模型结合在一起;同时还有 Gemini Spark,这是一款基于云的 AI 代理,旨在管理跨应用和工作流的任务。

Suleyman 写道:“开发者和企业一直在呼唤一种符合他们条件、并且在他们掌控之下运作的 AI。我们将其视为朝着实现这一目标迈出的重要一步。”

FAQ

微软周二在 Build 活动中宣布了什么?
微软在 Build 活动中发布了七款新的 AI 模型,包括 MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5、MAI Transcribe-1.5 和 MAI-Voice-2,并称它们在各种基准测试中优于 Anthropic 的 Claude Sonnet 4.6 以及谷歌的 Nano Banana 2。

MAI-Thinking-1 在基准测试中的表现如何?
根据微软 AI 首席执行官 Mustafa Suleyman 的说法,MAI-Thinking-1 在 AIME 2025 上得分为 97%,并在由独立评估者进行的盲测中,相比 Claude Sonnet 4.6 更受青睐。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论