MiniMax quét 200 nghìn token, phát hiện mức suy giảm 4,9% ở các mô hình dòng M2

Theo blog kỹ thuật của MiniMax, công ty đã phát hiện sự suy giảm token đáng kể trong các mô hình dòng M2 của mình thông qua một lần quét toàn bộ vốn từ vựng. Khoảng 4,9% trong số 200.000 token cho thấy mức giảm hiệu năng rõ rệt, trong đó token tiếng Nhật chịu ảnh hưởng nặng nhất ở 29,7%, so với tiếng Hàn (3,3%), tiếng Nga (3,7%), tiếng Trung (3,9%) và tiếng Anh (3,5%). Sự suy giảm xuất phát từ việc các token tần suất thấp bị đẩy sang các hướng không gian vector sai trong giai đoạn hậu huấn luyện, nơi các token tần suất cao như các dấu hiệu tool_call liên tục cập nhật các tham số xung quanh.

MiniMax đã triển khai một bản vá dữ liệu tổng hợp bằng cách dùng các tác vụ lặp token đơn giản để ổn định toàn bộ vốn từ vựng. Kết quả đến ngay lập tức: ký tự tiếng Nga trộn vào câu trả lời tiếng Nhật giảm từ 47% xuống còn 1%, và độ ổn định vector (độ tương đồng cosine) cải thiện từ mức thấp 0,329 lên trên 0,97 trên toàn bộ token.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận