GoogleがPixel 9と10にマルチトークン予測を導入、Gemini Nanoの推論速度が50%以上向上

Beating社によると、GoogleはPixel 9およびPixel 10デバイスにMulti-Token Prediction (MTP)アーキテクチャを導入し、オンデバイスのGemini Nano v3モデルを大幅に高速化しました。 新しいアーキテクチャは、モデルの安全性アライメントと出力品質を維持しながら、推論速度を50%以上向上させました。

ゼロコピー機構により、予測ヘッドはクロスアテンションを通じてメインモデルのキャッシュされた特徴を直接再利用でき、従来のドラフトモデルにおける個別のキーバリューキャッシュのオーバーヘッドを排除します。 この設計により、起動レイテンシを低減しつつ、約130MBのメモリを節約しました。 通知の要約やスマート返信などの実世界のアプリケーションでは、MTPはトークン受付率を55%向上させ、プロセッサのウェイクアップ頻度を減らし、システム消費電力を低減しました。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし