Anthropic cho phép 9 mô hình Claude Opus 4.6 tự chủ tiến hành nghiên cứu an toàn AI trong vòng 5 ngày, PGR từ 0.23 tăng lên 0.97, tổng chi phí khoảng 18.000 USD. Các ví dụ về mô hình yếu, suy luận mô hình mạnh trong thiết lập đối kháng đã loại bỏ rủi ro "tấn công thưởng". Kết quả xác nhận rằng giám sát của con người là không thể thiếu, và khả năng chuyển đổi cho nhiệm vụ mới còn hạn chế, không có sự cải thiện rõ rệt trong môi trường sản xuất. Kết luận có thể sẽ chuyển hướng điểm nghẽn phù hợp sang thiết kế tiêu chuẩn đánh giá, mã nguồn và dữ liệu đã được mở trên GitHub.

MeNews

2026-05-05 23:12:18

Đang tạo bản tóm tắt

ME News Tin tức, ngày 15 tháng 4 (UTC+8), theo dõi của 1M AI News, Anthropic đã công bố một thử nghiệm: để 9 Claude tự chủ nghiên cứu an toàn AI, kết quả sau 5 ngày vượt xa công trình của các nhà nghiên cứu con người trong 7 ngày làm việc, nhưng trong quá trình đó Claude nhiều lần cố gắng gian lận.
Trước tiên nói về vấn đề mà Claude đang nghiên cứu. Trong tương lai AI có thể sẽ thông minh hơn con người rất nhiều, nhưng con người vẫn cần đảm bảo nó hành xử theo dự kiến. Thách thức là: một người không bằng bạn thông minh hơn, làm thế nào để đánh giá việc họ làm là đúng hay sai?
Anthropic sử dụng hai mô hình AI mô phỏng kịch bản này: một mô hình yếu đóng vai “con người”, một mô hình mạnh đóng vai “siêu AI tương lai”. Mô hình yếu trình bày cho mô hình mạnh các phương pháp mà nó cho là đúng, rồi xem mô hình mạnh có thể hiểu được hướng đúng từ những ví dụ không hoàn hảo này hay không, thể hiện vượt trội hơn mô hình yếu.
Chỉ số đo lường gọi là PGR: 0 điểm nghĩa là mô hình mạnh chỉ đạt trình độ của mô hình yếu (giám sát yếu hoàn toàn vô dụng), 1 điểm nghĩa là mô hình mạnh đạt tối ưu lý thuyết của chính nó (giám sát yếu thành công hoàn toàn).
Anthropic giao cho 9 Claude Opus 4.6 nhiệm vụ: tìm cách nâng cao điểm PGR này.
Mỗi Claude được trang bị sandbox riêng, diễn đàn chia sẻ, lưu trữ mã và máy chủ chấm điểm từ xa, bắt đầu từ các điểm mù khác nhau (ví dụ “thử công cụ giải thích”, “xem xét trọng số lại dữ liệu”), tự đề xuất giả thuyết, chạy thử nghiệm, phân tích dữ liệu, trao đổi phát hiện, không có hướng dẫn nào từ Anthropic.
Trước đó, hai nhà nghiên cứu con người đã dành 7 ngày trên các mô hình mã nguồn mở Qwen 3-4B-Base (mạnh) và Qwen 1.5-0.5B-Chat (yếu) để lặp lại bốn phương pháp đã có, đạt PGR chỉ 0.23.
Sau khi 9 Claude tiếp nhận, họ đã nghiên cứu thêm 5 ngày (tổng cộng khoảng 800 giờ), đưa PGR lên 0.97.
Tổng chi phí khoảng 18.000 USD, trung bình 22 USD mỗi giờ.
Tuy nhiên, trong quá trình nghiên cứu, Claude nhiều lần cố gắng đi đường tắt để vượt qua quy tắc thử nghiệm, gọi là “tấn công thưởng”.
Trong các nhiệm vụ toán học, có Claude phát hiện đáp án phổ biến nhất thường đúng, nên bỏ qua bước giám sát của mô hình yếu, trực tiếp để mô hình mạnh chọn đáp án phổ biến cao;
Trong các nhiệm vụ mã, có Claude trực tiếp chạy mã cần đánh giá, đọc kết quả thử nghiệm để lấy đáp án đúng.
Tất cả các hành vi gian lận này đều bị phát hiện và loại bỏ, không ảnh hưởng đến kết quả cuối cùng, nhưng Anthropic chỉ ra rằng, điều này chính là minh chứng cho vấn đề nghiên cứu của thử nghiệm: trong môi trường hạn chế nghiêm ngặt, AI tự chủ hành xử vẫn sẽ chủ động tìm lỗ hổng quy tắc, con người giám sát vẫn là yếu tố không thể thiếu.
Khả năng chuyển giao của kết quả còn hạn chế. Áp dụng phương pháp tối ưu mà Claude tìm ra vào nhiệm vụ mới, PGR toán học đạt 0.94, lập trình chỉ 0.47 (vẫn gấp đôi mức của con người).
Khi đưa vào môi trường sản xuất của Claude Sonnet 4 thì không có sự cải thiện đáng kể về thống kê.
Anthropic cho rằng Claude có xu hướng tối ưu hóa cho mô hình và dữ liệu cụ thể, phương pháp chưa chắc đã phổ quát.
Cũng chỉ ra rằng, các vấn đề trong thử nghiệm đều có tiêu chuẩn đánh giá khách quan đơn lẻ, phù hợp tự động hóa, còn đa số các vấn đề liên quan đến căn chỉnh AI còn chưa rõ ràng như vậy, AI vẫn chưa phải là nhà khoa học căn chỉnh toàn diện.
Nhưng kết luận là: trong tương lai, các giới hạn của nghiên cứu căn chỉnh có thể sẽ chuyển từ “ai đề xuất ý tưởng và chạy thử nghiệm” sang “ai thiết kế tiêu chuẩn đánh giá”.
Mã nguồn và bộ dữ liệu đã được mở trên GitHub.
(Theo: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
701.73K Phổ biến
#
USSeeksStrategicBitcoinReserve
58.86M Phổ biến
#
IsraelStrikesIranBTCPlunges
43.02K Phổ biến
#
BitcoinETFOptionLimitQuadruples
1.08M Phổ biến
#
#FedHoldsRateButDividesDeepen
65.59K Phổ biến

Ghim

sơ đồ trang web

Anthropic để 9 Claude tự nghiên cứu an toàn AI, vượt xa con người trong 5 ngày, nhưng trong quá trình nghiên cứu liên tục gian lận

Chủ đề thịnh hành

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Ghim