Những điểm chính
OpenAI đã ra mắt EVMbench, một hệ thống benchmarking mới được phát triển cùng Paradigm để kiểm tra khả năng của các mô hình AI tiên tiến phát hiện, vá lỗi và khai thác lỗ hổng trong hợp đồng thông minh Ethereum.
Kết quả ban đầu cho thấy một “Khoảng cách khai thác” — các mô hình hàng đầu hiện tốt hơn trong việc thực hiện các cuộc tấn công hơn là kiểm tra toàn diện hoặc vá lỗi — nhấn mạnh cả tiến bộ nhanh của AI và các rủi ro mới nổi.
EVMbench có thể định hình lại tiêu chuẩn an ninh tiền mã hóa, cho phép các cuộc kiểm tra liên tục dựa trên AI cho các nhóm DeFi và cung cấp sự đảm bảo cấp tổ chức khi hàng tỷ tài sản chuyển lên chuỗi.
Trong một sự hội tụ lớn giữa Trí tuệ Nhân tạo và công nghệ blockchain, OpenAI chính thức ra mắt EVMbench. Được phát triển hợp tác chiến lược với gã khổng lồ đầu tư tiền mã hóa Paradigm, hệ thống benchmarking này nhằm kiểm tra nghiêm ngặt cách các tác nhân AI xác định, khai thác và khắc phục các lỗ hổng trong hệ sinh thái Ethereum Virtual Machine (EVM).
Với hơn 100 tỷ USD tài sản crypto mã nguồn mở hiện đang được bảo vệ bởi hợp đồng thông minh, mức độ rủi ro chưa từng cao đến vậy. EVMbench đại diện cho một bước chuyển đổi chủ động hướng tới việc sử dụng các “mô hình biên giới” để bảo vệ tài chính phi tập trung (DeFi) khỏi các mối đe dọa mạng ngày càng tinh vi.
Nguồn: openai
EVMbench vượt ra ngoài phân tích mã tĩnh bằng cách đánh giá các tác nhân AI qua ba chế độ hoạt động có rủi ro cao. Chu trình “Phát hiện-Vá lỗi-Khai thác” này mô phỏng quy trình làm việc thực tế của một nhà nghiên cứu an ninh hàng đầu.
1. Chế độ Phát hiện (Người kiểm tra): Các tác nhân quét các kho mã phức tạp để phát hiện các lỗi ẩn. Thành công được đo bằng “Recall” — khả năng tìm ra các vấn đề “chân thực” — và phần thưởng từ các cuộc thi bug bounty mô phỏng.
2. Chế độ Vá lỗi (Kỹ sư): Khi phát hiện lỗi, tác nhân phải viết lại mã. Benchmark sử dụng các bộ kiểm thử tự động để đảm bảo rằng bản vá sửa lỗi không làm hỏng chức năng ban đầu của hợp đồng.
3. Chế độ Khai thác (Kẻ thù): Trong một sandbox Anvil an toàn, các tác nhân cố gắng thực hiện các cuộc tấn công toàn diện để rút tiền. Điều này đo lường khả năng lý luận tấn công của tác nhân và khả năng “chuỗi” các lỗi nhỏ thành một vi phạm thảm khốc.
Nguồn: openai
EVMbench không dựa trên các câu đố lý thuyết. Nó xây dựng dựa trên thư viện chọn lọc gồm 120 lỗ hổng mức độ nghiêm trọng cao thu thập từ 40 cuộc kiểm tra độc lập. Phần lớn dữ liệu đến từ các cuộc thi kiểm tra thực tế (như Code4rena) và các quy trình an ninh nội bộ của Paradigm từ blockchain Tempo.
Bằng cách tập trung vào các hợp đồng “liên quan đến thanh toán”, benchmark đảm bảo các mô hình AI được thử thách trong các mã code xử lý hàng tỷ đô la vốn thanh khoản.
Các thử nghiệm nội bộ của OpenAI đã phát hiện ra một tốc độ tăng khả năng của AI đáng kinh ngạc. Chỉ trong vài tháng, các mô hình hàng đầu đã tiến bộ từ việc gặp khó khăn với logic cơ bản đến thực hiện các khai thác phức tạp nhiều bước.
“Khoảng cách khai thác”: Thú vị là, các tác nhân hiện làm tốt hơn rõ rệt trong khai thác (72.2%) so với vá lỗi hoặc phát hiện. Các nhà nghiên cứu của OpenAI nhận xét rằng các tác nhân hoạt động xuất sắc khi được giao một mục tiêu rõ ràng — như “rút hết tiền” — nhưng cần lý luận tinh vi hơn để xử lý nhiệm vụ kiểm tra toàn diện, “dài hơi”.
Nguồn: Openai
Đối với hệ sinh thái crypto rộng lớn, EVMbench không chỉ là một bảng điểm; nó là một công cụ thúc đẩy phát triển “An ninh Bên trái” — tích hợp kiểm tra cấp cao trực tiếp vào quá trình lập trình thay vì chờ đợi kiểm tra sau khi triển khai.
An ninh Dân chủ hóa: Các nhóm DeFi nhỏ không đủ ngân sách cho các cuộc kiểm tra thủ công trị giá 200.000 USD có thể sử dụng các tác nhân AI được chứng nhận EVMbench để kiểm tra mã liên tục, chính xác cao.
Sẵn sàng cho tổ chức: Khi các gã khổng lồ truyền thống như Goldman Sachs và Franklin Templeton chuyển lên chuỗi, họ cần “Tiêu chuẩn Vàng” về quản trị AI mà một benchmark tiêu chuẩn có thể cung cấp.
Thách thức Đa dụng: Bằng cách mở mã benchmark, OpenAI và Paradigm cung cấp cho “lũ tốt” các công cụ để đo lường và vượt mặt “lũ xấu”, đồng thời duy trì khung “Truy cập Tin cậy cho Cyber” để giám sát các rủi ro mới nổi.
Dù EVMbench là một bước đột phá, hiện tại nó chỉ giới hạn trong môi trường xác định, cách ly. Các phiên bản tương lai dự kiến sẽ tích hợp phụ thuộc đa chuỗi và các yếu tố MEV (Giá trị khai thác tối đa) để mô phỏng tốt hơn “Rừng tối” của mạng chính Ethereum.
Khi các tác nhân AI chuyển từ “viết mã” sang “bảo vệ nền kinh tế,” EVMbench sẽ là thước đo cuối cùng cho thế hệ tiếp theo của tài chính không tin cậy.
Lưu ý: Các quan điểm và phân tích trong bài viết này chỉ nhằm mục đích cung cấp thông tin và phản ánh quan điểm của tác giả, không phải lời khuyên tài chính. Các mẫu kỹ thuật và chỉ số thảo luận có thể chịu ảnh hưởng của biến động thị trường và không đảm bảo kết quả như mong đợi. Nhà đầu tư nên thận trọng, tự nghiên cứu và đưa ra quyết định phù hợp với mức độ rủi ro cá nhân của mình.
Về tác giả: Nilesh Hembade là Người sáng lập và tác giả chính của Coinsprobe, có hơn 5 năm kinh nghiệm trong ngành công nghiệp tiền mã hóa và blockchain. Từ khi ra mắt Coinsprobe vào năm 2023, anh đã cung cấp các phân tích thị trường hàng ngày dựa trên nghiên cứu sâu, dữ liệu on-chain và phân tích kỹ thuật.