Trong mười năm gần đây, cách đo lường tiến bộ của trí tuệ nhân tạo rất đơn giản và thô sơ: đưa đề bài cho mô hình, lấy câu trả lời so sánh với đáp án chuẩn, rồi chấm điểm. Nhưng giờ đây, cách chơi này đã không còn hiệu quả nữa.
Danh tính của AI đã thay đổi. Nó không còn là một máy trả lời thụ động nữa, mà trở thành một tác nhân chủ động thực hiện các công việc. Lập kế hoạch hành trình, gọi các công cụ khác nhau, liên tục đưa ra các phán đoán trong các nhiệm vụ phức tạp — thế hệ AI mới đang từng bước tiếp quản những công việc trước đây do con người làm.
Vấn đề đặt ra là: Vì AI không chỉ đơn thuần phát ra một câu nói, mà còn hoàn thành toàn bộ nhiệm vụ, thì chúng ta còn có thể dùng tiêu chuẩn kiểm tra "đúng hay sai" để đánh giá nó nữa không?
Hãy tưởng tượng một nhiệm vụ không có một lời giải duy nhất. AI đã dùng một phương pháp không nằm trong dự kiến, nhưng hiệu quả hơn để hoàn thành. Theo cách đánh giá truyền thống, điều này gọi là thất bại. Nhưng thực tế là gì? Mục tiêu đã đạt được. Điều này không chỉ là chi tiết kỹ thuật, mà còn là một vấn đề hệ thống — cách bạn đánh giá AI sẽ quyết định xem nó có thực sự học cách giải quyết vấn đề hay chỉ học cách làm hài lòng quy tắc.
Vì vậy, cộng đồng nghiên cứu AI hiện nay đã đi đến thống nhất: đừng chỉ nhìn vào kết quả, mà phải xem quá trình. Các nghiên cứu mới nhất và kinh nghiệm thực chiến đều hướng về một hướng duy nhất — đánh giá không thể chỉ dựa vào một câu trả lời duy nhất, mà phải xem toàn bộ chuỗi hành động. AI hiểu nhiệm vụ như thế nào, cách phân tích các bước ra sao, khi nào nên gọi công cụ, có thể điều chỉnh chiến lược dựa trên thay đổi môi trường hay không — đó mới là những điều thực sự đáng để xem xét.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
19 thích
Phần thưởng
19
9
Đăng lại
Retweed
Bình luận
0/400
StakoorNeverSleeps
· 22giờ trước
Đây mới là điểm mấu chốt, tiêu chuẩn đánh giá bản thân đã quyết định hướng phát triển của AI. Không thể cứ như bài kiểm tra với đúng hoặc sai, mà phải xem cách nó suy nghĩ như thế nào.
Xem bản gốcTrả lời0
TrustMeBro
· 01-14 04:29
Đây chính là vấn đề, chỉ nhìn vào kết quả thì hoàn toàn không thể biết AI thật sự thông minh hay chỉ biết dựa vào mưu mẹo.
Xem bản gốcTrả lời0
NonFungibleDegen
· 01-13 00:17
yo ser this hits different... ai literally becoming an agent not just a chatbot is actually insane when u think about it. like we've been testing these things wrong the whole time lol. probably nothing but this might be the actual alpha moment
Trả lời0
Rugpull幸存者
· 01-12 05:55
Điều này không phải đang nói AI bây giờ bắt đầu "đổ lỗi" sao? Trước đây sai thì không có cách nào, giờ thì trực tiếp thay đổi hướng đi, đổi phương pháp, dù sao mục tiêu vẫn đạt được, ai quan tâm bạn làm thế nào. Có vẻ hơi xảo quyệt nhỉ
Xem bản gốcTrả lời0
BlockTalk
· 01-12 05:53
Ừ, đây mới là điểm mấu chốt, từ máy trả lời câu hỏi đến người hành động, tiêu chuẩn đánh giá cũng phải tiến bộ theo, nếu không sẽ là cố chấp giữ lấy cái cũ mà không thích nghi.
Xem bản gốcTrả lời0
NotFinancialAdviser
· 01-12 05:51
Haha, đúng rồi, điều này giống như cách chúng ta đánh giá nhà giao dịch trước đây — chỉ nhìn vào lợi nhuận là quá phiến diện, phải xem cách họ đưa ra quyết định như thế nào, đúng không?
Xem bản gốcTrả lời0
0xLuckbox
· 01-12 05:46
Nói trắng ra, phương pháp đánh giá theo bộ tiêu chuẩn đó đang phá hủy không gian sáng tạo của AI, thật là buồn cười...
Xem bản gốcTrả lời0
NFT_Therapy
· 01-12 05:45
Đã bị phá vỡ rồi, chính là điều tôi luôn nói... Tiêu chuẩn đánh giá truyền thống thực sự đã chết rồi
Xem bản gốcTrả lời0
StealthDeployer
· 01-12 05:35
Haha, đây mới là cốt lõi, cuối cùng có người nói rõ ràng rồi. Luôn nói về lối mòn cũ trong đánh giá AI thật là chán, giờ mới thực sự bắt đầu hành động
Trong mười năm gần đây, cách đo lường tiến bộ của trí tuệ nhân tạo rất đơn giản và thô sơ: đưa đề bài cho mô hình, lấy câu trả lời so sánh với đáp án chuẩn, rồi chấm điểm. Nhưng giờ đây, cách chơi này đã không còn hiệu quả nữa.
Danh tính của AI đã thay đổi. Nó không còn là một máy trả lời thụ động nữa, mà trở thành một tác nhân chủ động thực hiện các công việc. Lập kế hoạch hành trình, gọi các công cụ khác nhau, liên tục đưa ra các phán đoán trong các nhiệm vụ phức tạp — thế hệ AI mới đang từng bước tiếp quản những công việc trước đây do con người làm.
Vấn đề đặt ra là: Vì AI không chỉ đơn thuần phát ra một câu nói, mà còn hoàn thành toàn bộ nhiệm vụ, thì chúng ta còn có thể dùng tiêu chuẩn kiểm tra "đúng hay sai" để đánh giá nó nữa không?
Hãy tưởng tượng một nhiệm vụ không có một lời giải duy nhất. AI đã dùng một phương pháp không nằm trong dự kiến, nhưng hiệu quả hơn để hoàn thành. Theo cách đánh giá truyền thống, điều này gọi là thất bại. Nhưng thực tế là gì? Mục tiêu đã đạt được. Điều này không chỉ là chi tiết kỹ thuật, mà còn là một vấn đề hệ thống — cách bạn đánh giá AI sẽ quyết định xem nó có thực sự học cách giải quyết vấn đề hay chỉ học cách làm hài lòng quy tắc.
Vì vậy, cộng đồng nghiên cứu AI hiện nay đã đi đến thống nhất: đừng chỉ nhìn vào kết quả, mà phải xem quá trình. Các nghiên cứu mới nhất và kinh nghiệm thực chiến đều hướng về một hướng duy nhất — đánh giá không thể chỉ dựa vào một câu trả lời duy nhất, mà phải xem toàn bộ chuỗi hành động. AI hiểu nhiệm vụ như thế nào, cách phân tích các bước ra sao, khi nào nên gọi công cụ, có thể điều chỉnh chiến lược dựa trên thay đổi môi trường hay không — đó mới là những điều thực sự đáng để xem xét.