Google DeepMind 高管:每家 AI 产品公司都应构建定制基准

Gate News 消息,4月27日——Google DeepMind 的资深产品经理、Google AI Studio 的产品负责人 Logan Kilpatrick 在 X 上表示,所有构建基于 AI 的产品的公司都应当建立各自的定制基准,用于衡量 AI 模型的性能。他将其描述为一种方法:让模型改进“对贵公司产生不成比例的收益”,并敦促创始人和商业领袖“从明天开始。”

目前,多数公司依赖公开排行榜来选择 AI 模型,但这些排行榜衡量的是通用能力,而往往与特定的业务场景不匹配。Kilpatrick 举了一个合同审查公司的例子,该公司最关心的是条款提取的准确性——这一能力在公开基准中缺失,因而无法评估模型在该任务上的表现。定制基准带来两项关键优势:首先,它们使公司能够针对自身的业务任务来评估每一次模型更新,并选择在其实际用例中表现最佳的模型,而不是只看总体排名最高的模型;其次,它们允许公司将这些测试集与模型提供方共享,从而推动在对公司业务而言重要的领域实现持续优化。

Kilpatrick 指出,像 Zapier 和 Sierra 这样的公司已经在实施这种做法,并表示“这里可以创造出大量的 alpha”。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

IEA:AI 基建支出已超越石油与天然气生产投资,2026 年预计再增长 75%

根据国际能源署(IEA)于 4 月 26 日发布的分析及市场数据,2025 年五大科技公司的合计资本支出超过 4,000 亿美元,主要投入 AI 基础设施建设,规模已超过全球石油和天然气生产的年度投资规模。IEA 估计,2026 年相关资本支出可能进一步增长 75%。

Market Whisper21 分钟前

参议员伯尼·桑德斯就 AI 的生存威胁发出警告

桑德斯强调,即使大多数 AI 科学家都承认 AI 可能逃离控制并对我们的生存构成危险,但尚未采取任何重大的措施来避免这种情况。“我们必须确保 AI 造福人类,而不是伤害我们”,他说。 要点总结: 伯尼·桑德斯

Coinpedia31 分钟前

小米大模型负责人:AI 竞争转向 Agent 时代,自进化是 AGI 关键事件

小米大模型团队负责人罗福莉于 4 月 24 日在哔哩哔哩平台接受深度访谈(视频号:BV1iVoVBgERD),访谈时长 3.5 小时,为其首次以技术负责人身份公开系统阐述技术观点。罗福莉称,大模型竞争赛道已从 Chat 时代转入 Agent 时代,并指出“自进化”将是未来一年 AGI 关键事件。

Market Whisper31 分钟前

xAI Grok Voice 接管 Starlink 客服热线,70% 来电自动结案

根据 xAI 于 4 月 23 日发布官方公告,xAI 推出 Grok Voice Think Fast 1.0 语音 AI 代理人,并已部署于 Starlink 客服热线 +1 (888) GO STARLINK。根据公告披露的实测数据,70% 的来电由 AI 自动结案,无需真人介入。

Market Whisper43 分钟前

GPT-5.5 重返编程前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准测试

Gate News 消息,4 月 27 日——SemiAnalysis,一家半导体与 AI 分析公司,发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 在内的代码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月后首次重返编程模型前沿,随后 SemiAnalysis 工程师在 Codex 和 Claude Code 之间交替使用;此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为 "Spud" 的新预训练方法,代表 OpenAI 自 GPT-4.5 以来首次扩展预训练规模,置换

GateNews47 分钟前

联发科拿下 Google 第八代 TPU 大单!ASIC 发酵带动三档概念股受惠

联发科已切入 Google 第8代 TPU 训练晶片供应链,负责 I/O Die 设计,并采用台积电 N3P 与 CoWoS-S 封装,显示其已攀升至高阶 AI ASIC 设计水准。预计今年 ASIC 营收突破 10 亿美元,TPU 出货量至 2027 年有望达千万颗;京元电子、精测、鸿劲等台湾供应链也将受惠,市场逐步转向分工合作与 chiplet、异质整合的未来。

鏈新聞abmedia2小时前
评论
0/400
暂无评论