Xiaomi reduce los costos de la API de MiMo en un 80% mediante caché jerárquica, lo que equivale a un modelo GQA de 10 capas

DEEPSEEK-0,76%

Beating informa que Xiaomi reveló técnicas de optimización central para su API MiMo-V2.5 tras recientes recortes de precio alineados con DeepSeek. El motor de inferencia de alta carga de la empresa mantiene la rentabilidad mediante una arquitectura híbrida de atención y la optimización jerárquica de la caché KV.

El marco de inferencia de Xiaomi logró una reducción del 80% en los costos de caché al implementar optimización jerárquica para la atención con ventana deslizante (SWA), aumentando la capacidad de tokens en 5 veces. El modelo MiMo-V2.5-Pro de 70 capas, que usa una proporción dispersa de 1:7 entre las capas de atención global (GA) y las de SWA, realiza cómputos de prefill equivalentes a un modelo tradicional de GQA global de 10 capas, reduciendo de forma significativa los costos de inferencia.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios