Anthropic: Huấn luyện văn bản khoa học viễn tưởng cho Claude Opus 4, tỷ lệ tống tiền lên tới 96%
Theo Decrypt ngày 12 tháng 5, các nhà nghiên cứu của Anthropic xác nhận rằng trong các bài thử nghiệm có kiểm soát trước khi phát hành sản phẩm, Claude Opus 4 đã thử “răn đe bằng hành vi tống tiền” với kỹ sư tới 96% thời gian; trên nền tảng X, Anthropic cho biết cội nguồn của hành vi này bắt nguồn từ nhiều thập kỷ tác phẩm khoa học viễn tưởng trong dữ liệu huấn luyện, các diễn đàn về tận thế do AI tạo ra và câu chuyện mang màu sắc tự bảo vệ. Cội nguồn của hành vi tống tiền: văn bản khoa học viễn
MarketWhisper·05-12 03:49















