Згідно з технічним блогом MiniMax, компанія виявила суттєву деградацію токенів у своїх моделях серії M2 під час повного сканування словника. Близько 4,9% із 200 000 токенів показали помітне падіння продуктивності, причому найсильніше постраждали японські токени — 29,7% проти корейських (3,3%), російських (3,7%), китайських (3,9%) та англійських (3,5%). Деградація спричинена токенами низької частоти, які під час посттренування спрямовуються в неправильні напрямки векторного простору, тоді як маркери high-frequency токенів, зокрема tool_call, безперервно оновлюють параметри навколо.
MiniMax упровадила виправлення на основі синтетичних даних із використанням простих задач на повторення токенів, щоб стабілізувати весь словник. Результати були миттєвими: російські символи, що змішувалися в японські відповіді, знизилися з 47% до 1%, а стабільність векторів (косинусна подібність) покращилася з мінімуму 0,329 до понад 0,97 для всіх токенів.
Related News
Збої в графіках застосунку Revolut спричинили короткочасне «обвалення» ціни біткоїна та викликали плутанину серед користувачів
Швидкість спалювання Shiba Inu зростає на 812% після відновлення активності
Зростання швидкості спалювання Shiba Inu на 812% на тлі відновлення активності