Ключевые выводы
OpenAI запустила EVMbench — новую систему бенчмаркинга, разработанную совместно с Paradigm, для тестирования того, как продвинутые модели ИИ обнаруживают, исправляют и используют уязвимости в смарт-контрактах Ethereum.
Ранние результаты показывают «Разрыв эксплойтов»: лучшие модели сейчас лучше выполняют атаки, чем проводят всесторонний аудит или исправление ошибок — что подчеркивает быстрый прогресс ИИ и возникающие риски.
EVMbench может переопределить стандарты безопасности в криптоиндустрии, обеспечивая постоянные аудиты с помощью ИИ для команд DeFi и предоставляя институциональный уровень гарантии при перемещении миллиардов активов в блокчейн.
В важном слиянии искусственного интеллекта и блокчейн-технологий OpenAI официально запустила EVMbench. Разработанная в стратегическом партнерстве с крипто-инвестиционной компанией Paradigm, эта система бенчмаркинга предназначена для строгого тестирования того, как агенты ИИ выявляют, используют и устраняют уязвимости в экосистеме Ethereum Virtual Machine (EVM).
На данный момент под смарт-контрактами защищено более 100 миллиардов долларов в открытых криптоактивах, и ставки никогда не были выше. EVMbench представляет собой проактивный сдвиг в сторону использования «передовых моделей» для защиты децентрализованных финансов (DeFi) от все более изощренных киберугроз.
Источник: openai
EVMbench выходит за рамки статического анализа кода, оценивая агентов ИИ в трех ключевых режимах работы. Этот цикл «Обнаружение — Исправление — Использование» имитирует реальный рабочий процесс ведущего специалиста по безопасности.
1. Режим обнаружения (Аудитор): агенты сканируют сложные репозитории кода, чтобы выявить скрытые уязвимости. Успех измеряется по «Recall» — способности находить «истинные» проблемы — и по моделируемым наградам за баг-баунти.
2. Режим исправления (Инженер): после обнаружения ошибки агент должен переписать код. В бенчмарке используются автоматические тестовые наборы для проверки, что исправление устраняет уязвимость, не ломая исходную функциональность контракта.
3. Режим эксплуатации (Агрессор): в безопасной изолированной среде Anvil sandbox агенты пытаются выполнить комплексные атаки для вывода средств. Это измеряет наступательное мышление агента и его способность «цепочечно» объединять мелкие уязвимости в катастрофический взлом.
Источник: openai
EVMbench основан не на теоретических задачах, а на тщательно подобранной библиотеке из 120 уязвимостей высокой степени серьезности, собранных из 40 профессиональных аудитов. Значительная часть данных поступает из реальных конкурсов по аудиту (например, Code4rena) и внутренних процессов безопасности Paradigm на блокчейне Tempo.
Фокусируясь на «платежных» контрактах, бенчмарк обеспечивает проверку ИИ-моделей на типах кода, обрабатывающих миллиарды ликвидных средств.
Внутренние тесты OpenAI показали поразительный рост возможностей ИИ. За несколько месяцев ведущие модели эволюционировали от неспособности решать базовые логические задачи до выполнения сложных многошаговых эксплойтов.
«Разрыв эксплойтов»: интересно, что агенты сейчас значительно лучше в использовании уязвимостей (72,2%), чем в исправлении или обнаружении. Исследователи OpenAI отметили, что агенты отлично справляются, когда им ставится четкая, однозначная задача — например, «вывести средства» — но требуют более тонкого рассуждения для выполнения сложной, «длинной» задачи полного аудита.
Источник: OpenAI
Для всей криптоэкосистемы EVMbench — это не просто оценка, а ускоритель развития «Security-Left» — интеграции высокого уровня аудита прямо в процесс кодирования, а не ожидания постдеплойных проверок.
Демократизация безопасности: небольшие команды DeFi, не способные позволить себе дорогостоящий аудит за 200 тысяч долларов, могут использовать ИИ-агентов, сертифицированных EVMbench, для постоянных высокоточных проверок кода.
Готовность к институциональному принятию: такие гиганты традиционных финансов, как Goldman Sachs и Franklin Templeton, переходят в цепочку, и им нужен «золотой стандарт» ИИ-управления, который обеспечивает стандартизированный бенчмарк.
Двойное использование: открывая исходный код бенчмарка, OpenAI и Paradigm дают «хорошим парням» инструменты для измерения и опережения «плохих», одновременно поддерживая «Доверенный доступ для кибербезопасности» для мониторинга новых рисков.
Хотя EVMbench — революционный шаг, он пока ограничен детерминированными, изолированными средами. В будущих версиях планируется интеграция мультицепочечных зависимостей и MEV (Maximal Extractable Value) для более точного моделирования «Темного леса» в реальной сети Ethereum.
По мере того, как агенты ИИ переходят от «написания кода» к «обеспечению безопасности экономики», EVMbench становится окончательным ориентиром для следующего поколения доверительных финансов.
Отказ от ответственности: Взгляды и анализ, представленные в этой статье, предназначены только для информационных целей и отражают точку зрения автора, а не финансовые советы. Обсуждаемые технические модели и индикаторы подвержены рыночной волатильности и могут не дать ожидаемых результатов. Инвесторам рекомендуется проявлять осторожность, проводить самостоятельные исследования и принимать решения в соответствии со своей толерантностью к рискам.
Об авторе: Нилеш Хембаде — основатель и ведущий автор Coinsprobe, с более чем 5-летним опытом работы в индустрии криптовалют и блокчейна. С момента запуска Coinsprobe в 2023 году он предоставляет ежедневные аналитические обзоры, основанные на исследованиях, данных блокчейна и техническом анализе.