Gate News, le 25 mars, l’Institut de recherche de Google a publié l’algorithme de compression quantifiée TurboQuant, qui peut compresser le cache KV des grands modèles linguistiques à 3 bits, réduisant l’utilisation de mémoire d’au moins 6 fois, sans nécessiter d’entraînement ou de fine-tuning, tout en préservant la précision du modèle. En mode 4 bits, la vitesse de calcul de l’attention sur le GPU H100 de NVIDIA est jusqu’à 8 fois plus rapide que la ligne de base non quantifiée à 32 bits. L’équipe de recherche a validé TurboQuant sur des benchmarks de contexte long tels que LongBench, Needle In A Haystack, ZeroSCROLLS, en utilisant les modèles Gemma et Mistral, et TurboQuant a obtenu des performances optimales dans tous les tests. Cet algorithme se compose de deux sous-algorithmes : PolarQuant, qui élimine la surcharge mémoire des méthodes de quantification traditionnelles via une transformation en coordonnées polaires, et QJL, qui corrige l’erreur résiduelle avec seulement 1 bit. La recherche a été menée sous la direction d’Amir Zandieh de l’Institut de recherche de Google et du vice-président et Google Fellow Vahab Mirrokni, en collaboration avec KAIST en Corée du Sud et l’Université de New York, et sera présentée à l’ICLR 2026. Google indique que l’une des principales applications de cette technologie est de résoudre le goulot d’étranglement du cache KV dans des modèles tels que Gemini.