Abacus.AIのCEOビンドゥ・レディによると、Googleは5月20日のI/OカンファレンスでGemini 3.2 Flashを発表する予定で、コーディングおよび推論タスクにおいてGPT-5.5の92%の性能に到達しつつ、推論コストを後者の1/15〜1/20にまで引き下げるという。ほとんどのクエリはレイテンシが200ミリ秒未満になる見込み。レディは、このブレークスルーをGoogleの蒸留(distillation)とスパース性(sparsity)の手法に起因すると説明し、これらによりフロンティアモデルをFlashティアへ圧縮することで、通常モデル最適化で見られるような性能の急落(パフォーマンス・クリフ)を伴わずに済むとしている。
Related News