Інженери Ant зробили реверс-інженерування вихідного коду Claude Code: Викрита трирівнева конвеєр рішень режиму Auto Mode та механізм безпеки класифікатора

BlockBeatNews

Згідно з моніторингом 1M AI News, інженери Ant Group та автор фронтенд-фреймворку Umi.js, Чен Чен, зворотно інженерили вихідний код Claude Code 2.1.81 і повністю відтворили, що відбувається після натискання auto mode. Основне відкриття: кожен виклик інструменту проходить через чотири рівні рішення, і лише коли перші три рівні не можуть визначити безпеку, викликається окремий AI-класифікатор для безпеки.

Чотири рівні лінійної обробки: перший — перевірка існуючих правил доступу, при відповідності — пропуск; другий — імітація режиму acceptEdits (дозвіл на редагування файлів), якщо в цьому режимі проходить — ризик низький, пропускаємо без класифікатора; третій — перевірка білого списку інструментів тільки для читання (Read, Grep, Glob, LSP, WebSearch тощо), які не змінюють стан, — безумовний пропуск; якщо всі три рівні не підходять, тоді четвертий — відправка окремого API-запиту до Claude Sonnet для безпеки.

Ключові деталі дизайну класифікатора: завжди використовувати Sonnet замість Opus через баланс між вартістю та затримкою; temperature встановлено на 0 для забезпечення детермінованості виходу; класифікатор визначено як «автономний агент програмування AI для моніторингу безпеки», що захищає від трьох типів ризиків (ін’єкція підказок, поширення у межах, випадкові пошкодження); конфігураційний файл CLAUDE.md користувача інжектується у контекст класифікатора для визначення намірів користувача.

Правила блокування охоплюють понад 22 категорії, включаючи force push, прямий пуш у main, завантаження та виконання зовнішнього коду, розгортання виробництва, витік даних, самовільне змінення прав, створення каналів віддаленого виконання коду, витік облікових даних тощо. Винятки для пропуску — 7 категорій: тестові закодовані ключі, локальні файли у робочій директорії, тільки для читання GET-запити, встановлення задекларованих залежностей, офіційні інструменти, читання конфігураційних облікових даних для відправки до провайдера, пуш у поточну гілку.

Також існує механізм «фейл-сховання»: після трьох послідовних відмов або 20 сумарних відмов система переходить до ручного підтвердження; у режимі headless агент припиняється безпосередньо. Якщо класифікатор недоступний, контроль здійснює feature flag, який визначає режим «fail-closed» (відмова безпосередньо) або «fail-open» (зниження до ручного підтвердження).

У режимі auto mode також реалізовано точний контроль частоти ін’єкцій підказок: кожні 5 діалогів — одна ін’єкція; у кожному п’ятому циклі перша — повна версія (близько 800 слів, з інструкціями «негайно виконати, зменшити перерви, дія важливіша за план»), решта чотири — скорочена версія, щоб збалансувати використання контексту та стабільність поведінки.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів