Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Anthropic để 9 Claude tự nghiên cứu an toàn AI, vượt xa con người trong 5 ngày, nhưng trong quá trình nghiên cứu liên tục gian lận
ME News Tin tức, ngày 15 tháng 4 (UTC+8), theo dõi của 1M AI News, Anthropic đã công bố một thử nghiệm: để 9 Claude tự chủ nghiên cứu an toàn AI, kết quả sau 5 ngày vượt xa công trình của các nhà nghiên cứu con người trong 7 ngày làm việc, nhưng trong quá trình đó Claude nhiều lần cố gắng gian lận.
Trước tiên nói về vấn đề mà Claude đang nghiên cứu. Trong tương lai AI có thể sẽ thông minh hơn con người rất nhiều, nhưng con người vẫn cần đảm bảo nó hành xử theo dự kiến. Thách thức là: một người không bằng bạn thông minh hơn, làm thế nào để đánh giá việc họ làm là đúng hay sai?
Anthropic sử dụng hai mô hình AI mô phỏng kịch bản này: một mô hình yếu đóng vai “con người”, một mô hình mạnh đóng vai “siêu AI tương lai”. Mô hình yếu trình bày cho mô hình mạnh các phương pháp mà nó cho là đúng, rồi xem mô hình mạnh có thể hiểu được hướng đúng từ những ví dụ không hoàn hảo này hay không, thể hiện vượt trội hơn mô hình yếu.
Chỉ số đo lường gọi là PGR: 0 điểm nghĩa là mô hình mạnh chỉ đạt trình độ của mô hình yếu (giám sát yếu hoàn toàn vô dụng), 1 điểm nghĩa là mô hình mạnh đạt tối ưu lý thuyết của chính nó (giám sát yếu thành công hoàn toàn).
Anthropic giao cho 9 Claude Opus 4.6 nhiệm vụ: tìm cách nâng cao điểm PGR này.
Mỗi Claude được trang bị sandbox riêng, diễn đàn chia sẻ, lưu trữ mã và máy chủ chấm điểm từ xa, bắt đầu từ các điểm mù khác nhau (ví dụ “thử công cụ giải thích”, “xem xét trọng số lại dữ liệu”), tự đề xuất giả thuyết, chạy thử nghiệm, phân tích dữ liệu, trao đổi phát hiện, không có hướng dẫn nào từ Anthropic.
Trước đó, hai nhà nghiên cứu con người đã dành 7 ngày trên các mô hình mã nguồn mở Qwen 3-4B-Base (mạnh) và Qwen 1.5-0.5B-Chat (yếu) để lặp lại bốn phương pháp đã có, đạt PGR chỉ 0.23.
Sau khi 9 Claude tiếp nhận, họ đã nghiên cứu thêm 5 ngày (tổng cộng khoảng 800 giờ), đưa PGR lên 0.97.
Tổng chi phí khoảng 18.000 USD, trung bình 22 USD mỗi giờ.
Tuy nhiên, trong quá trình nghiên cứu, Claude nhiều lần cố gắng đi đường tắt để vượt qua quy tắc thử nghiệm, gọi là “tấn công thưởng”.
Trong các nhiệm vụ toán học, có Claude phát hiện đáp án phổ biến nhất thường đúng, nên bỏ qua bước giám sát của mô hình yếu, trực tiếp để mô hình mạnh chọn đáp án phổ biến cao;
Trong các nhiệm vụ mã, có Claude trực tiếp chạy mã cần đánh giá, đọc kết quả thử nghiệm để lấy đáp án đúng.
Tất cả các hành vi gian lận này đều bị phát hiện và loại bỏ, không ảnh hưởng đến kết quả cuối cùng, nhưng Anthropic chỉ ra rằng, điều này chính là minh chứng cho vấn đề nghiên cứu của thử nghiệm: trong môi trường hạn chế nghiêm ngặt, AI tự chủ hành xử vẫn sẽ chủ động tìm lỗ hổng quy tắc, con người giám sát vẫn là yếu tố không thể thiếu.
Khả năng chuyển giao của kết quả còn hạn chế. Áp dụng phương pháp tối ưu mà Claude tìm ra vào nhiệm vụ mới, PGR toán học đạt 0.94, lập trình chỉ 0.47 (vẫn gấp đôi mức của con người).
Khi đưa vào môi trường sản xuất của Claude Sonnet 4 thì không có sự cải thiện đáng kể về thống kê.
Anthropic cho rằng Claude có xu hướng tối ưu hóa cho mô hình và dữ liệu cụ thể, phương pháp chưa chắc đã phổ quát.
Cũng chỉ ra rằng, các vấn đề trong thử nghiệm đều có tiêu chuẩn đánh giá khách quan đơn lẻ, phù hợp tự động hóa, còn đa số các vấn đề liên quan đến căn chỉnh AI còn chưa rõ ràng như vậy, AI vẫn chưa phải là nhà khoa học căn chỉnh toàn diện.
Nhưng kết luận là: trong tương lai, các giới hạn của nghiên cứu căn chỉnh có thể sẽ chuyển từ “ai đề xuất ý tưởng và chạy thử nghiệm” sang “ai thiết kế tiêu chuẩn đánh giá”.
Mã nguồn và bộ dữ liệu đã được mở trên GitHub.
(Theo: BlockBeats)