Google publicó un artículo llamado TurboQuant, y en 24 horas la comunidad ya lo había portado a llama.cpp.


¿¿Qué hizo TurboQuant?? Comprimió la caché KV de los grandes modelos a 3 bits, reduciendo el uso de memoria en un factor de 6, y aceleró la inferencia en H100 en 8 veces.
Lo clave es—no requiere reentrenamiento, ni ajuste fino, ni pérdida de precisión. Esa es una de las razones por las que las acciones de chips cayeron drásticamente.
Samsung, SK Hynix bajaron más del 6% en Seúl, y Micron cayó un 6.9% en EE. UU.
Lo que teme el mercado es—si cada modelo puede usar 6 veces menos memoria, ¿no se reduciría la demanda de HBM?
Pero creo que la reacción del mercado fue exagerada. La razón es simple. La memoria ahorrada no se quedará ociosa. Una caché KV más pequeña significa que la misma tarjeta puede manejar contextos más grandes y más solicitudes concurrentes. La demanda no disminuirá, solo se redistribuirá.
Esto ha ocurrido repetidamente en la historia tecnológica—los CPU se vuelven más rápidos, el software consume toda la capacidad adicional. El ancho de banda aumenta, y el streaming de video consume toda la banda. La memoria se vuelve más eficiente, y los modelos se vuelven más grandes y voraces.
Ya hay una implementación en CPU (pura C, sin dependencias) y núcleo CUDA para llama.cpp (#20969).
Alguien lo ha probado en Apple Silicon usando Metal. Esto significa que el umbral para correr modelos localmente ha bajado aún más.
TurboQuant, a corto plazo, genera una caída en el ánimo de las acciones de chips, pero a mediano plazo, es un beneficio de eficiencia para toda la industria de IA.
Los que corren modelos localmente ganan—el mismo Mac puede alojar modelos más grandes.
Las empresas de chips no se alarmen—la demanda no desaparecerá, solo se usará de manera más eficiente.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado