Xiaomi réduit les coûts de l’API MiMo de 80 % grâce à un cache hiérarchique, soit un modèle GQA à 10 couches

DEEPSEEK-0,76%

D’après Beating, Xiaomi a révélé des techniques d’optimisation clés pour son API MiMo-V2,5 après des baisses de prix récentes alignées sur DeepSeek. Le moteur d’inférence à forte charge de l’entreprise conserve sa rentabilité grâce à une architecture d’attention hybride et à l’optimisation hiérarchique du cache KV.

Le framework d’inférence de Xiaomi a réduit de 80% les coûts de cache en appliquant une optimisation hiérarchique pour l’attention à fenêtre glissante (SWA), tout en augmentant la capacité en jetons de 5x. Le modèle MiMo-V2,5-Pro à 70 couches, utilisant un ratio sparse de 1:7 entre les couches d’attention globale (GA) et SWA, effectue des calculs de préremplissage équivalents à ceux d’un modèle GQA global traditionnel à 10 couches, réduisant nettement les coûts d’inférence.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire