Según Beating, Nous Research ha publicado como código abierto Lighthouse Attention, un mecanismo de entrenamiento de contexto largo que logra una aceleración de 17x para el procesamiento de textos de 512K de longitud en una sola GPU B200, y una aceleración de entrenamiento de extremo a extremo de 1,4–1,7x con una longitud de 98K. La técnica utiliza un enfoque de “lo grueso a lo fino”: primero explora resúmenes comprimidos en distintos niveles para identificar segmentos clave y, luego, pasa el texto filtrado a FlashAttention para su procesamiento. En pruebas con un modelo de 5,3 mil millones de parámetros entrenado con 50 mil millones de tokens, el enfoque no solo redujo el tiempo de entrenamiento, sino que también igualó o superó el rendimiento base del entrenamiento basado en atención completa.
Related News
OpenAI agrega la detección de conversaciones de crisis de ChatGPT, mejorando la capacidad de alertas tempranas sobre violencia autoinfligida
Bittensor TAO sube por encima de 300 USD a medida que aumenta la demanda de cripto de IA
Los expertos dicen que las pruebas zk dan a las DePIN una ventaja a medida que aumenta la demanda de confianza en la IA