币界网のニュースによると、GoogleはGemma 4シリーズのマルチトークン予測(MTP)ドラフトモデルを公開し、オープンソース化しました。


これは投機的デコーディング(speculative decoding)アーキテクチャを採用した軽量な補助モデルであり、メインモデルが最終検証権を保持したまま、最大3倍の推論速度向上を実現し、出力の品質や論理推論能力を全く損なうことなく動作します。
このモデルはGemma 4と同じApache 2.0ライセンスの下で全面的にオープンソース化されており、vllm、sglang、ollamaなどの主流推論フレームワークにネイティブに対応しています。
今回の高速化最適化により、一般的な消費者向けグラフィックカード上で26bのMOEモデルや31bの密結合モデルをスムーズに動作させることができ、またモバイルデバイス上でも低消費電力でリアルタイムAIインタラクションをサポートできるようになりました。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン