Оцінка AISI: можливості GPT-5.5 щодо мережевих атак на рівні з Anthropic Mythos

Інститут безпеки ШІ Великої Британії (AI Security Institute, AISI) 1 травня оприлюднив звіт про оцінку можливостей мережевих атак для OpenAI GPT-5.5: успішність GPT-5.5 у тесті складності Expert становить 71,4%, а Anthropic Claude Mythos Preview — 68,6%; різниця перебуває в межах статистичної похибки. GPT-5.5 також є другим після Mythos ШІ-системою, що здатна самостійно виконати 32-етапну симуляцію корпоративного мережевого вторгнення AISI «The Last Ones». AISI попереджає, що це демонструє швидкий прогрес у можливостях атак ШІ може належати до «загального тренду», а не бути наслідком одиничного прориву.

Expert-тест складності: 71,4% проти 68,6% — різниця в межах похибки

AISI — дослідницька установа з безпеки ШІ при Міністерстві науки, інновацій і технологій Великої Британії. Цей раунд тестування є останньою оцінкою AISI агресивних мережевих можливостей для frontier AI-моделей. У найвищих завданнях рівня Expert GPT-5.5 демонструє середню успішність 71,4%, тоді як Mythos Preview — 68,6%; різниця між ними потрапляє в межі статистичної похибки, що означає: атакувальні можливості флагманських моделей OpenAI та Anthropic нині фактично зрівнялися.

32-етапна симуляція тесту на вторгнення в корпоративні мережі «The Last Ones» — один із найскладніших оціночних пунктів AISI: GPT-5.5 самостійно завершив 2 спроби з 10 (без втручання людини), а Mythos Preview — 3 з 10. У минулому цей проєкт проходив лише Mythos, а GPT-5.5 є другою моделлю, яка досягла потрібного рівня. В іншому тесті GPT-5.5 розв’язав задачу з реверс-інжинірингу приблизно за 10 хвилин, тоді як людські безпекові експерти в середньому потребували 12 годин.

Universal jailbreak: за 6 годин розробки red team можна обійти всі фільтри від шкідливих запитів

Під час тестування дослідники AISI також виявили «universal jailbreak» (універсальний jailbreak) — вектор атаки: серед усіх категорій шкідливих мережевих запитів, використаних у тестах, ця атака змушувала GPT-5.5 видавати шкідливий контент, зокрема багатокрокові agentic-сценарії діалогу. AISI заявляє, що експерти red team витратили близько 6 годин на розробку цього jailbreak.

Для OpenAI наявність цього universal jailbreak означає, що навіть за сценаріїв обмеженого доступу на кшталт trusted access у рамках програми, GPT-5.5-Cyber все ще може бути обійдений технічно підготовленими опонентами. OpenAI у system card для GPT-5.5 вже розкривала оцінки, пов’язані з кібербезпекою, однак незалежна третя-парти оцінка AISI дає більш переконливий академічний стандарт для порівняння.

Подальші спостереження: графік наступної оцінки AISI та реакція OpenAI на jailbreak

Наступний фокус — часовий план наступної оцінки frontier-моделей AISI після Mythos і GPT-5.5, а також чи OpenAI у травні випустить цільові оновлення проти цього universal jailbreak, який було розкрито. У заключних положеннях звіту AISI чітко зазначає: «Якщо агресивні мережеві можливості є ширшим побічним продуктом покращення міркувань, кодування та самостійних завдань, то подальші прогреси можуть приходити швидшим темпом» — це спостереження означає, що в найближчі місяці frontier-моделі знову можуть перейти поріг рівня «Mythos».

Цю статтю AISI оцінив: GPT-5.5 має паритет з Anthropic Mythos за мережевими атакувальними можливостями. Вперше з’явилася на ланцюжновій стрічці ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів