Nous Research publica en código abierto Lighthouse Attention con una aceleración de 17x en B200 para contexto de 512K

Según Beating, Nous Research ha publicado como código abierto Lighthouse Attention, un mecanismo de entrenamiento de contexto largo que logra una aceleración de 17x para el procesamiento de textos de 512K de longitud en una sola GPU B200, y una aceleración de entrenamiento de extremo a extremo de 1,4–1,7x con una longitud de 98K. La técnica utiliza un enfoque de “lo grueso a lo fino”: primero explora resúmenes comprimidos en distintos niveles para identificar segmentos clave y, luego, pasa el texto filtrado a FlashAttention para su procesamiento. En pruebas con un modelo de 5,3 mil millones de parámetros entrenado con 50 mil millones de tokens, el enfoque no solo redujo el tiempo de entrenamiento, sino que también igualó o superó el rendimiento base del entrenamiento basado en atención completa.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios