Tôi gần đây đã thấy một so sánh thú vị về khả năng của các mô hình AI khác nhau. Trên benchmark PinchBench, đại lý OpenClaw trong nhiệm vụ của Gemini 3 Flash đứng đầu với tỷ lệ thành công 95.1%, điều này khá ấn tượng.



Điều thú vị là các mô hình mạnh khác cũng gần như vậy. minimax-m2.1 đạt 93.6% và kimi-k2.5 đạt 93.4%. Ngoài ra, Claude Sonnet 4.5 ở mức 92.7% trong khi GPT-4o là 85.2%. Những con số này cho thấy các mô hình khác nhau thể hiện hiệu suất khác nhau trong các nhiệm vụ khác nhau.

Dữ liệu này rất quan trọng cho những người muốn chọn đúng mô hình AI phù hợp. CISO của Magma, 23pads, đã chia sẻ thông tin này, và nó cho thấy sự phát triển của AI đang diễn ra nhanh chóng như thế nào. Nếu bạn đang tìm kiếm các mô hình cho các nhiệm vụ dựa trên đại lý, những kết quả này có thể rất hữu ích.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim