Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm PyTorch, CUDA, Rust và C++. Sau khi lọc nghiêm ngặt, 30 tác vụ đã được giữ lại để đánh giá theo chuẩn.
V4-Pro-Max đạt tỷ lệ vượt kiểm tra viết mã 67%, vượt trội đáng kể so với Sonnet 4.5 ở mức 47% và tiệm cận Opus 4.5 ở mức 70%. Tuy nhiên, nó thấp hơn Opus 4.5 Thinking (73%) và Opus 4.6 Thinking (80%), trong khi vượt trội rõ rệt so với Haiku 4.5 ở mức 13%.
Trong một khảo sát nội bộ với 85 người tham gia, tất cả đều cho biết họ sử dụng V4-Pro để lập trình mã hoá tác nhân (agentic coding) trong các quy trình làm việc hằng ngày. 52% ủng hộ V4-Pro như mô hình lập trình mã hoá chính mặc định của họ, 39% nghiêng về việc chấp thuận, và dưới 9% bày tỏ không đồng ý. Các vấn đề được báo cáo bao gồm lỗi cấp thấp, hiểu nhầm các lời nhắc mơ hồ và đôi khi có hành vi suy nghĩ quá mức.
Related News
OpenAI 推 GPT-5.5: 12M ngữ cảnh, chỉ số AA vươn lên dẫn đầu, Terminal-Bench 82,7% viết lại chuẩn mực cho đại lý
Google Jules công bố danh sách ứng viên phiên bản mở mới, định vị lại thành nền tảng phát triển sản phẩm đầu đến đầu
Google mở rộng Wiz Cloud Security trên AWS, Azure và Google Cloud