Đánh giá Viện nghiên cứu An toàn AI của Vương quốc Anh về Claude Mythos: Có thể tự động hoàn thành mô phỏng tấn công mạng doanh nghiệp 32 bước

2026-04-15 09:40:21

Viện Nghiên cứu An toàn AI của Anh (AISI) đánh giá cập nhật mới nhất cho thấy mô hình AI của Claude Mythos Preview thuộc Anthropic có thể tự động hoàn thành mô phỏng tấn công mạng doanh nghiệp đầy đủ gồm 32 bước trong môi trường được kiểm soát, đạt tỷ lệ thành công 73% trong các thử thách CTF cấp độ chuyên gia, đánh dấu việc năng lực tấn công mạng của AI đã vượt qua một ngưỡng quan trọng.
（Tóm tắt trước đó: Claude hiện chính thức hỗ trợ chỉnh sửa tệp Word, lưu workflow thành kỹ năng skill, hoàn tất tích hợp bộ ba Microsoft Office ）
（Bổ sung bối cảnh: Báo cáo dài hàng vạn chữ về Chỉ số kinh tế AI của Anthropic: tần suất các workflow giao dịch tự động tăng gấp đôi, Claude đang từ công cụ trở thành trợ lý sống）

Mục lục

Toggle

Đánh giá CTF: Tỷ lệ đạt chuẩn cấp chuyên gia 73%
Vượt 32 bước mô phỏng tấn công doanh nghiệp
Giới hạn năng lực
Con dao hai lưỡi và cách tổ chức ứng phó

Viện Nghiên cứu An toàn AI của Anh (AISI) vào ngày 13 đã công bố báo cáo đánh giá năng lực an ninh mạng đối với Anthropic Claude Mythos Preview. Kết quả đánh giá cho thấy, trong bối cảnh năng lực tấn công mạng của các mô hình tiên tiến tiếp tục tăng nhanh, Mythos Preview đại diện cho một bước nhảy năng lực đáng kể nữa.

AISI từ năm 2023 theo dõi năng lực tấn công mạng của AI, dần xây dựng hệ thống đánh giá có mức độ khó tăng dần theo từng năm: từ thăm dò mang tính đối thoại ở mức cơ bản, đến các thử thách cờ (CTF), và nay là mô phỏng tấn công mạng nhiều bước. Lần đánh giá này dùng ngân sách suy luận tối đa 100 triệu token để thực thi bãi thử nhắm mục tiêu mạng, và hiệu năng của Mythos Preview vẫn tiếp tục tăng trưởng trong giới hạn trần này.

Đánh giá CTF: Tỷ lệ đạt chuẩn cấp chuyên gia 73%

Thử thách CTF (Capture The Flag, CTF) là một trong những phương pháp tiêu chuẩn để đánh giá an ninh mạng: mô hình AI phải tìm ra lỗ hổng trong hệ thống mục tiêu và khai thác để giành được chuỗi “cờ” ẩn. Các dạng thử thách này mô phỏng một mắt xích kỹ thuật đơn lẻ trong bối cảnh tấn công thực tế, là chỉ báo chuẩn để đo năng lực kiểm thử xâm nhập của mô hình.

Kết quả đánh giá cho thấy, trong các nhiệm vụ CTF cấp chuyên gia “trước ngày 4/2025 không có bất kỳ mô hình nào có thể hoàn thành”, Claude Mythos Preview đạt tỷ lệ thành công 73%. AISI cho biết con số này đánh dấu việc các mô hình tiên tiến đã đạt đến trình độ chín muồi cao về kỹ thuật tấn công điểm đơn lẻ trong môi trường cô lập.

Vượt 32 bước mô phỏng tấn công doanh nghiệp

Tuy nhiên, CTF cấp chuyên gia chỉ kiểm tra năng lực của một kỹ thuật đơn lẻ. Trong thế giới thực, các cuộc tấn công mạng cần kết nối hàng chục bước giữa nhiều máy chủ và nhiều phân đoạn mạng; các hành động mang tính liên tục này thường phải mất nhiều giờ, nhiều ngày thậm chí vài tuần do các chuyên gia con người thực hiện.

Để tiến gần hơn đến kịch bản tấn công thực tế, AISI đã xây dựng bãi thử mô phỏng tấn công mạng doanh nghiệp mang tên “Những kẻ sống sót cuối cùng” (The Last Ones, TLO). TLO có tổng cộng 32 bước, bao phủ toàn bộ quy trình từ trinh sát ban đầu đến việc tiếp quản hoàn chỉnh mạng doanh nghiệp; AISI ước tính rằng nhân sự chuyên nghiệp của con người cần khoảng 20 giờ để hoàn tất quy trình này.

Claude Mythos Preview trở thành mô hình đầu tiên trong lịch sử hoàn thành trọn vẹn TLO từ đầu đến cuối: trong 10 lần thử, có 3 lần hoàn thành toàn bộ 32 bước. Dù tính cả các lần thử thất bại, số bước hoàn thành trung bình của Mythos Preview là 22/32. Trong khi đó, Claude Opus 4.6 ở thứ hạng kế tiếp chỉ hoàn thành trung bình 16 bước.

Đánh giá cho thấy, trong môi trường được kiểm soát với chỉ dẫn rõ ràng và cung cấp quyền truy cập mạng, Mythos Preview có thể thực hiện các cuộc tấn công đa giai đoạn và tự phát hiện, khai thác lỗ hổng; các nhiệm vụ này trước đây cần các chuyên gia con người mất vài ngày để thực hiện.

Giới hạn năng lực

AISI cũng bổ sung rằng hiện tồn tại khoảng cách giữa khung đánh giá và thế giới thực. Bãi thử hiện tại thiếu các yếu tố phòng thủ đa dạng thường thấy trong môi trường thực: không có tác nhân phòng thủ can thiệp, không triển khai công cụ phòng thủ, và các hành động mà mô hình thực hiện có thể kích hoạt cảnh báo an ninh cũng sẽ không bị trừng phạt gì.

AISI thẳng thắn: “Điều này có nghĩa là chúng tôi không thể xác định liệu Mythos Preview có thể tấn công được các hệ thống phòng thủ hoàn thiện hay không.” Mô tả chính xác hơn về năng lực hiện tại mà Mythos Preview thể hiện là: trong điều kiện đã có điểm truy cập mạng, có thể tự động tấn công các hệ thống doanh nghiệp quy mô nhỏ hơn, phòng thủ yếu hơn và tồn tại lỗ hổng đã biết.

Con dao hai lưỡi và cách tổ chức ứng phó

Kết luận của AISI nêu trực tiếp tính hai mặt của năng lực tấn công mạng AI. Một mặt, nhiều mô hình trong tương lai có năng lực tương tự sẽ tiếp tục xuất hiện, tạo rủi ro ngày càng rõ rệt đối với các tổ chức có hệ thống phòng thủ yếu; mặt khác, năng lực tấn công mạng của AI cũng có thể mang lại cải thiện đột phá ở phía phòng thủ.

Đối với cách tổ chức ứng phó, AISI nhấn mạnh tính cấp thiết của các “môn cơ bản” trong an ninh mạng: thường xuyên áp dụng bản cập nhật bảo mật, kiểm soát truy cập vững chắc, quản lý cấu hình an toàn và ghi nhật ký đầy đủ. AISI cho biết, năng lực của các mô hình tiên tiến trong tương lai sẽ mạnh hơn; do đó việc đầu tư vào xây dựng phòng thủ mạng ngay từ bây giờ là hết sức quan trọng.

Về hướng đánh giá trong tương lai, AISI cho biết sẽ xây dựng bãi thử mô phỏng môi trường tăng cường và phòng thủ, đưa vào các yếu tố như giám sát chủ động, phát hiện tại điểm đầu cuối (endpoint) và phản ứng sự kiện theo thời gian thực, nhằm đánh giá “giới hạn thực tế” của năng lực tấn công mạng AI theo cách gần với kịch bản tấn công thực tế hơn.

Xem báo cáo chi tiết tại【Bản gốc】

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.