Згідно з Beating, Nous Research оприлюднила Lighthouse Attention із відкритим кодом — механізм тренування для довгого контексту, який забезпечує 17-кратне прискорення обробки тексту довжиною 512 тис. на одному GPU B200, а також 1,4–1,7-кратне прискорення тренування «кінець-у-кінець» для довжини 98 тис. Техніка використовує підхід coarse-to-fine: спочатку вона сканує стиснені підсумки на різних рівнях, щоб визначити ключові сегменти, а потім передає відфільтрований текст у FlashAttention для обробки. У тестах на моделі з 5,3 мільярда параметрів, натренованій на 50 мільярдів токенів, підхід не лише скоротив час тренування, а й досягав або перевищував базову продуктивність тренування з повною увагою.
Related News
OpenAI додала виявлення кризових діалогів у ChatGPT, щоб посилити здатність до виявлення попереджень про самопошкодження та насильство
Bittensor TAO піднімається вище $300 на тлі сплеску попиту на криптовалюти в сфері ШІ
Експерти стверджують, що zk-докази дають DePINs перевагу на тлі зростання попиту на довіру в умовах розвитку ШІ