Microsoft Open-nguồn mô hình Phi-Ground 4B, vượt trội OpenAI Operator và Claude về độ chính xác khi bấm màn hình

Theo Beating, Microsoft gần đây đã mã nguồn mở họ mô hình Phi-Ground, được thiết kế để giải quyết vấn đề AI nên nhấp vào đâu trên màn hình máy tính. Phiên bản 4 tỷ tham số, kết hợp với các mô hình ngôn ngữ lớn hơn để lập kế hoạch theo hướng dẫn, đã vượt độ chính xác nhấp chuột của OpenAI Operator và Claude Computer Use trong benchmark Showdown, đồng thời xếp hạng đầu trong số tất cả các mô hình dưới 100 tỷ tham số qua năm đánh giá, bao gồm cả ScreenSpot-Pro.

Nhóm đã huấn luyện trên hơn 40 triệu mẫu dữ liệu và phát hiện rằng 3 kỹ thuật huấn luyện phổ biến được sử dụng trong các bài báo học thuật trở nên kém hiệu quả khi triển khai ở quy mô lớn. Cách tiếp cận cốt lõi lại khá đơn giản: xuất tọa độ dưới dạng các con số thông thường, chẳng hạn như “523, 417”. Các nghiên cứu trước đó đã tạo ra từ vựng vị trí chuyên biệt cho tọa độ, nhưng không thể mở rộng quy mô. Nhóm cũng phát hiện rằng việc đặt chỉ dẫn bằng văn bản trước hình ảnh giúp cải thiện hiệu suất, vì mô hình có thể xác định mục tiêu trong khi xử lý pixel. Ngoài ra, các phương pháp học tăng cường như DPO cải thiện độ chính xác ngay cả sau khi fine-tuning.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận