Huawei's Ascend 910C completa el postentrenamiento del modelo de 1,6 billones de parámetros de DeepSeek con 1.000+ GPU

De acuerdo con Beating, un equipo conjunto de Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei y Deepcity AI ha anunciado la finalización exitosa del post-entrenamiento con parámetros completos para DeepSeek-V4-Pro, un modelo de 1,6 billones de parámetros, en infraestructura de IA nacional. Esto marca la primera vez que una organización de terceros completa el post-entrenamiento con parámetros completos para un modelo de esta escala en hardware chino.

El equipo aprovechó un clúster de más de 1.000 chips Huawei Ascend 910C para superar cuellos de botella de comunicación mediante un balanceo de carga distribuido optimizado. Durante el proceso de entrenamiento de 1.500 pasos, el sistema funcionó sin interrupción, logrando una tasa de utilización de FLOPs del modelo (MFU) superior al 30% y mejorando la eficiencia de operadores clave en un 14%, cumpliendo con los estándares de rendimiento de nivel industrial.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios