智谱发布 GLM-5.1 高速 API,达到 400 tokens/s 全球纪录

据 Beating Monitoring,智谱已为部分企业客户推出 GLM-5.1 高速 API,模型输出速度最高可达 400 tokens/s,创下大语言模型官方接口吞吐的新全球纪录。该高速版本由智谱与 TileRT 团队共同开发的高性能推理引擎驱动,在通过 GPU 内核优化和按瓦片级别的任务调度显著降低延迟的同时,保持旗舰模型的全部能力。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论