EVMbench тестує AI-агенти на 120 реальних вразливостей смарт-контрактів Ethereum.
Інструмент оцінює виявлення, виправлення та експлуатацію у трьох різних режимах.
GPT-5.3-Codex досяг 72,2% успішності в тестуванні режиму експлуатації.

Розробник ChatGPT, компанія OpenAI, та інвестиційна фірма, орієнтована на криптовалюти, Paradigm, представили EVMbench — інструмент для підвищення безпеки смарт-контрактів Ethereum Virtual Machine. EVMbench створений для оцінки здатності AI-агентів виявляти, виправляти та експлуатувати вразливості високої серйозності у смарт-контрактах EVM. Смарт-контракти — це серце мережі Ethereum, що містить код, який забезпечує роботу всього — від децентралізованих фінансових протоколів до запуску токенів. За даними Token Terminal, щотижнева кількість розгорнутих смарт-контрактів на Ethereum досягла рекордних 1,7 мільйона у листопаді 2025 року, з 669 500 — лише минулого тижня.

EVMbench базується на 120 відібраних вразливостях із 40 аудитів, здебільшого з відкритих конкурсів аудиту, таких як Code4rena, згідно з блогом OpenAI. Також у нього включені сценарії з процесу аудиту безпеки для Tempo — спеціалізованого блокчейну рівня-1 від Stripe, орієнтованого на високий пропуск та низькі витрати для стабільних монет. Гігант платежів Stripe запустив публічний тестнет для Tempo у грудні, заявивши, що його створювали з урахуванням думки Visa, Shopify та OpenAI. Мета — базувати тестування на економічно значущому реальному коді, особливо з урахуванням розширення AI-управління стабільними монетами, додали в компанії.

> Представляємо EVMbench — новий бенчмарк, що вимірює, наскільки добре AI-агенти можуть виявляти, експлуатувати та виправляти вразливості високої серйозності у смарт-контрактах. https://t.co/op5zufgAGH > > — OpenAI (@OpenAI) 18 лютого 2026

EVMbench призначений для оцінки моделей AI у трьох режимах: Виявлення, виправлення та експлуатація. У режимі “виявлення” агенти аналізують репозиторії та оцінюються за здатністю пам’ятати справжні вразливості. У режимі “виправлення” вони повинні усунути вразливості, не порушуючи функціональність. Нарешті, у фазі “експлуатація” агенти намагаються провести повномасштабні атаки з витіканням коштів у ізольованому блокчейн-середовищі, а оцінювання здійснюється через детермінований повтор транзакцій. У режимі експлуатації GPT-5.3-Codex, запущений через CLI OpenAI Codex, набрав 72,2%, тоді як GPT-5, випущений шість місяців раніше, — 31,9%. Виявлення та виправлення вразливостей показали слабшу продуктивність, оскільки агенти іноді не проводили повне аудиту або мали труднощі з збереженням повної функціональності контракту. Дослідники OpenAI застерегли, що EVMbench не повністю відображає реальну складність безпеки. Водночас вони додали, що вимірювання продуктивності AI у економічно важливих середовищах є критичним, оскільки моделі стають потужними інструментами як для атакуючих, так і для захисників. Раніше співзасновник Ethereum Віталік Бутерін та засновник OpenAI Сем Альтман неодноразово мали розбіжності щодо темпів розвитку AI. У січні 2025 року Альтман заявив, що його компанія “впевнена, що знає, як створити AGI, як ми її традиційно розуміємо”. Але Бутерін виступав за те, щоб системи AI мали можливість “м’якої зупинки”, яка могла б тимчасово обмежити промислові масштаби AI, якщо з’являться попереджувальні ознаки.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Прокоментувати

0/400

Немає коментарів