V4-Pro Đạt Tỷ Lệ Vượt Kiểm Tra Viết Mã 67% Trong Bài Test Tự Dùng Nội Bộ, Tiệm Cận Hiệu Năng của Opus 4.5

Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm PyTorch, CUDA, Rust và C++. Sau khi lọc nghiêm ngặt, 30 tác vụ đã được giữ lại để đánh giá theo chuẩn.

V4-Pro-Max đạt tỷ lệ vượt kiểm tra viết mã 67%, vượt trội đáng kể so với Sonnet 4.5 ở mức 47% và tiệm cận Opus 4.5 ở mức 70%. Tuy nhiên, nó thấp hơn Opus 4.5 Thinking (73%) và Opus 4.6 Thinking (80%), trong khi vượt trội rõ rệt so với Haiku 4.5 ở mức 13%.

Trong một khảo sát nội bộ với 85 người tham gia, tất cả đều cho biết họ sử dụng V4-Pro để lập trình mã hoá tác nhân (agentic coding) trong các quy trình làm việc hằng ngày. 52% ủng hộ V4-Pro như mô hình lập trình mã hoá chính mặc định của họ, 39% nghiêng về việc chấp thuận, và dưới 9% bày tỏ không đồng ý. Các vấn đề được báo cáo bao gồm lỗi cấp thấp, hiểu nhầm các lời nhắc mơ hồ và đôi khi có hành vi suy nghĩ quá mức.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận