MiniMax сканує 200 тис. токенів і виявляє 4,9% деградації в моделях серії M2

Згідно з технічним блогом MiniMax, компанія виявила суттєву деградацію токенів у своїх моделях серії M2 під час повного сканування словника. Близько 4,9% із 200 000 токенів показали помітне падіння продуктивності, причому найсильніше постраждали японські токени — 29,7% проти корейських (3,3%), російських (3,7%), китайських (3,9%) та англійських (3,5%). Деградація спричинена токенами низької частоти, які під час посттренування спрямовуються в неправильні напрямки векторного простору, тоді як маркери high-frequency токенів, зокрема tool_call, безперервно оновлюють параметри навколо.

MiniMax упровадила виправлення на основі синтетичних даних із використанням простих задач на повторення токенів, щоб стабілізувати весь словник. Результати були миттєвими: російські символи, що змішувалися в японські відповіді, знизилися з 47% до 1%, а стабільність векторів (косинусна подібність) покращилася з мінімуму 0,329 до понад 0,97 для всіх токенів.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів