Theo Beating, Microsoft gần đây đã mã nguồn mở họ mô hình Phi-Ground, được thiết kế để giải quyết vấn đề AI nên nhấp vào đâu trên màn hình máy tính. Phiên bản 4 tỷ tham số, kết hợp với các mô hình ngôn ngữ lớn hơn để lập kế hoạch theo hướng dẫn, đã vượt độ chính xác nhấp chuột của OpenAI Operator và Claude Computer Use trong benchmark Showdown, đồng thời xếp hạng đầu trong số tất cả các mô hình dưới 100 tỷ tham số qua năm đánh giá, bao gồm cả ScreenSpot-Pro.
Nhóm đã huấn luyện trên hơn 40 triệu mẫu dữ liệu và phát hiện rằng 3 kỹ thuật huấn luyện phổ biến được sử dụng trong các bài báo học thuật trở nên kém hiệu quả khi triển khai ở quy mô lớn. Cách tiếp cận cốt lõi lại khá đơn giản: xuất tọa độ dưới dạng các con số thông thường, chẳng hạn như “523, 417”. Các nghiên cứu trước đó đã tạo ra từ vựng vị trí chuyên biệt cho tọa độ, nhưng không thể mở rộng quy mô. Nhóm cũng phát hiện rằng việc đặt chỉ dẫn bằng văn bản trước hình ảnh giúp cải thiện hiệu suất, vì mô hình có thể xác định mục tiêu trong khi xử lý pixel. Ngoài ra, các phương pháp học tăng cường như DPO cải thiện độ chính xác ngay cả sau khi fine-tuning.
Related News
NVIDIA mở rộng quan hệ đối tác AI dài hạn với Deepinfra, nhận 107 triệu đô la Mỹ vòng B để xây dựng “nhà máy token”
GPT-5.5-Cyber của OpenAI trang bị vũ khí cho các hệ thống bảo vệ mạng
OpenAI ra mắt GPT-Realtime-2: mang suy luận GPT-5 vào voice agent, nâng context lên 128K