По данным Tilde Research, оптимизатор Muon, который используют ведущие AI-модели, включая DeepSeek V4 и Kimi K2.5, имеет скрытый недостаток: он приводит к тому, что более 25% нейронов в слоях MLP необратимо умирают в ходе раннего обучения. Команда разработала Aurora — альтернативный оптимизатор — и открыла его исходный код. Модель с 1,1 млрд параметров, обученная всего на 100 млрд токенов, показала сопоставимую производительность с Qwen3-1,7B, обученной на 36 трлн токенов, на бенчмарках понимания языка вроде HellaSwag и Winogrande, продемонстрировав примерно 100-кратное улучшение эффективности данных. Aurora добавляет 6% вычислительных накладных расходов по сравнению с Muon и может выступать прямой заменой.
Related News
Опрос ФРС показывает, что обеспокоенность ИИ растёт на рынках, в кредитовании и занятости
NVIDIA открывает долгосрочного партнёра по ИИ Deepinfra — 107 млн долларов серии B для создания «фабрики токенов»
OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям