Google TurboQuant : quantification 3bit du cache KV sans perte de précision, inférence jusqu'à 8 fois plus rapide

BlockBeatNews

Selon la surveillance de 1M AI News, le Google Research Institute a publié l’algorithme de compression quantifiée TurboQuant, qui peut compresser le cache KV des grands modèles de langage à 3 bits, réduisant l’utilisation de mémoire d’au moins 6 fois, sans entraînement ni ajustement fin, tout en préservant la précision du modèle. En mode 4 bits, la vitesse de calcul de l’attention sur le GPU H100 de Nvidia est jusqu’à 8 fois plus rapide que la ligne de base non quantifiée à 32 bits.

L’équipe de recherche a validé TurboQuant sur des benchmarks à contexte long tels que LongBench, Needle In A Haystack, ZeroSCROLLS, en utilisant les modèles Gemma et Mistral, obtenant des performances optimales dans tous les tests. Cet algorithme se compose de deux sous-algorithmes : PolarQuant, qui élimine la surcharge mémoire des méthodes de quantification traditionnelles via une transformation en coordonnées polaires, et QJL, qui corrige l’erreur résiduelle avec seulement 1 bit.

Cette recherche, dirigée par Amir Zandieh du Google Research Institute et Vahab Mirrokni, vice-président et Google Fellow, en collaboration avec KAIST en Corée du Sud et l’Université de New York, sera publiée à l’ICLR 2026. Google indique que l’une des principales applications de cette technologie est de résoudre le goulot d’étranglement du cache KV dans des modèles comme Gemini.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire