Tilde Research обнаруживает, что оптимизатор Muon убивает 25% нейронов; Aurora Alternative обеспечивает прирост эффективности работы с данными в 100 раз

По данным Tilde Research, оптимизатор Muon, который используют ведущие AI-модели, включая DeepSeek V4 и Kimi K2.5, имеет скрытый недостаток: он приводит к тому, что более 25% нейронов в слоях MLP необратимо умирают в ходе раннего обучения. Команда разработала Aurora — альтернативный оптимизатор — и открыла его исходный код. Модель с 1,1 млрд параметров, обученная всего на 100 млрд токенов, показала сопоставимую производительность с Qwen3-1,7B, обученной на 36 трлн токенов, на бенчмарках понимания языка вроде HellaSwag и Winogrande, продемонстрировав примерно 100-кратное улучшение эффективности данных. Aurora добавляет 6% вычислительных накладных расходов по сравнению с Muon и может выступать прямой заменой.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев