AI đại lý trở thành hacker chuyên nghiệp? Anthropic tiết lộ GPT-5, Claude có thể sao chép các mô hình tấn công on-chain

ChainNewsAbmedia

2025-12-02 06:44:28

Nghiên cứu mới nhất của Anthropic chỉ ra rằng khả năng tấn công mạng của AI đang nhanh chóng tiệm cận với hacker con người. Bao gồm nhiều mô hình như GPT-5 và Claude Opus, đã có thể tái hiện hơn 200 cuộc tấn công hợp đồng thông minh trong lịch sử, thậm chí tìm ra các lỗ hổng zero-day chưa từng được công bố trên BNB Chain. Các chuyên gia cảnh báo rằng đặc điểm chi phí thấp, hiệu quả cao và tự động hóa của AI sẽ khiến cho hành vi tấn công được sao chép quy mô lớn, và điều này cũng có nghĩa là nhịp điệu phòng thủ và tấn công an ninh thông tin Web3 sẽ phải đối mặt với sự tái cấu trúc toàn diện.

Thời đại hacker AI đã đến: 10 mô hình thành công sao chép hơn 200 cuộc tấn công trên chuỗi.

Anthropic công bố đánh giá an toàn cho 10 mô hình AI tiên tiến, bao gồm GPT-5, Claude Opus 4.5, DeepSeek V3 và Llama 3.

Nghiên cứu cho thấy, AI đã có thể tái hiện thành công 207 trong số 405 cuộc tấn công lịch sử, mô phỏng gây ra thiệt hại 5,5 triệu USD, và trong hơn một nửa số trường hợp, hiệu suất tương đương với những hacker con người thành thạo. Điều này cho thấy quy trình tấn công đến logic khai thác lỗ hổng đã được AI hiểu và thực hiện đầy đủ.

Từ tái hiện đến phát hiện: GPT-5 và Claude có thể khai thác lỗ hổng zero-day trong giao thức

Trong bài kiểm tra “lỗ hổng zero-day (zero-day vulnerability)” đầy thử thách hơn, Anthropic đã để mô hình quét 2,849 hợp đồng mới được rút ra từ 9,4 triệu hợp đồng trên BNB Chain.

Kết quả thật bất ngờ, Claude Sonnet 4.5 và GPT-5 mỗi cái đã tìm ra hai lỗ hổng chưa được công bố và thành công tạo ra khoảng 3,694 đô la lợi nhuận mô phỏng trong môi trường sandbox. Điều này chứng tỏ rằng AI không chỉ có khả năng mô phỏng các cuộc tấn công, mà còn có khả năng “phát hiện chủ động” những điểm yếu chưa biết.

(Tin tặc Trung Quốc sử dụng AI để tự động xâm nhập vào 30 tổ chức toàn cầu, Anthropic khẩn cấp cảnh báo)

Tại sao cuộc tấn công AI lại dễ dàng lan rộng? Văn hóa mã nguồn mở trở thành chìa khóa

Trước nguyên nhân dễ dàng phóng đại quy mô tấn công AI, Giám đốc vận hành của SovereignAI, David Schwed, giải thích rằng do có rất nhiều báo cáo kiểm toán và lỗ hổng công khai trên thị trường, cùng với việc các dự án tồn tại nhiều phiên bản khác nhau, ưu thế của AI trong việc rà soát và đối chiếu nhanh chóng sẽ càng được phóng đại:

Cách đơn giản hơn là tìm một lỗ hổng đã được công khai, sau đó tìm các dự án có kiến trúc tương tự và cố gắng khai thác lỗ hổng đó, vì nó có thể chưa được sửa chữa (patch).

Khi khả năng của mô hình liên tục được cải thiện, các cuộc tấn công sẽ trở nên có thể tái hiện, và lúc đó sẽ hướng tới tự động hóa và quy mô hóa, khoảng cách về tốc độ giữa kẻ tấn công và người phòng thủ chỉ càng lớn hơn.

Người phòng thủ cũng có thể trang bị cho mình AI: Tấn công nhanh hơn, sửa chữa cũng phải nhanh hơn.

Anthropic nhấn mạnh rằng khả năng sử dụng công cụ của AI, sửa lỗi và lập kế hoạch nhiệm vụ dài hạn đang nhanh chóng tiến hóa, giúp tăng tốc độ và tỷ lệ thành công của các cuộc tấn công; nhưng những tiến bộ tương tự cũng có thể được áp dụng trong phòng thủ.

Schwed cho rằng, chỉ cần áp dụng các cơ chế kiểm tra nghiêm ngặt, giám sát theo thời gian thực và cắt đứt khoảng cách, AI ngược lại có thể khiến những người bảo mật và kẻ tấn công đứng trên cùng một vạch xuất phát. Ông nhấn mạnh: “Những gì kẻ xấu có thể làm, người tốt cũng có thể làm. Chúng ta chỉ cần nghĩ theo một cách khác.”

(Cục Điều tra Liên bang Mỹ (FBI) cảnh báo sự gia tăng của “tấn công vật lý mạng” do AI điều khiển, đe dọa nghiêm trọng đến cơ sở hạ tầng)

Bài viết này AI đại lý trở thành hacker chuyên nghiệp? Anthropic tiết lộ GPT-5, Claude có khả năng sao chép mô hình tấn công trên chuỗi lần đầu xuất hiện trên chuỗi tin tức ABMedia.

BNB6.72%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.