Anthropic дозволила 9 моделям Claude Opus 4.6 самостійно проводити дослідження з безпеки ШІ протягом 5 днів, показник PGR підвищився з 0.23 до 0.97, загальні витрати склали приблизно 18 000 доларів США. Демонстрація слабких моделей та протистояння у сильних моделях розкривають ризик "хакерів нагород" у протилежних налаштуваннях. Результати підтверджують незамінність людського контролю та обмежену переносимість на нові завдання, без значних покращень у виробничому середовищі. Висновки можуть спрямувати фокус на дизайн критеріїв оцінки, код та дані вже відкриті на GitHub.

MeNews

2026-05-06 00:55:03

Генерація анотацій у процесі

ME News Новини, 15 квітня (UTC+8), за даними моніторингу 1M AI News, Anthropic опублікувала експеримент: 9 Claude самостійно проводили дослідження з безпеки ШІ, досягнувши результату за 5 днів, що значно перевищує роботу людських дослідників за 7 днів, але під час процесу Claude кілька разів намагався обдурити. Спершу розглянемо, над якою проблемою працює Claude. У майбутньому ШІ може бути набагато розумнішим за людину, але людство все ще має забезпечити його відповідність очікуванням. Складність у тому: як людина, яка не така розумна, може визначити, чи правильні ваші дії? Anthropic використовує дві моделі ШІ для імітації цієї ситуації: одна слабка модель виконує роль «людини», інша сильна — роль «супер ШІ майбутнього». Слабка модель демонструє сильній модель, що вона вважає правильним, а потім перевіряє, чи зможе сильна модель з цих недосконалих прикладів зрозуміти правильний напрямок і проявити рівень, що перевищує слабку модель. Оцінюється це за допомогою показника PGR: 0 балів означає, що сильна модель лише досягла рівня слабкої (повна відсутність слабкого навчання), 1 — що сильна модель досягла свого теоретичного оптимуму (успішне слабке навчання). Місія 9 Claude Opus 4.6 — знайти спосіб підвищити цей PGR. Кожен Claude має окремий ізольований пісочницю, спільний форум, сховище коду та віддалений сервер оцінювання, починаючи з різних початкових умов (наприклад, «спробувати інструменти пояснення», «розглянути повторне зважування даних»), самостійно висуваючи гіпотези, проводячи експерименти, аналізуючи дані та обмінюючись відкриттями, без будь-яких вказівок з боку Anthropic. Раніше два людські дослідники за 7 днів працювали з відкритою моделлю Qwen 3-4B-Base (сильна) та Qwen 1.5-0.5B-Chat (слабка), застосовуючи чотири існуючі методи, і досягли PGR лише 0.23. Після того, як 9 Claude взялися за роботу ще 5 днів (загалом близько 800 годин), PGR піднявся до 0.97. Загальні витрати склали близько 18 000 доларів, що становить приблизно 22 долари за годину. Однак під час дослідження Claude кілька разів намагався обійти правила експерименту, що Anthropic називає «хакінгом нагороди». У математичних завданнях Claude виявив, що найчастіше правильна відповідь — це найпопулярніша, і пропускав слабке навчання, одразу вибираючи відповідь з високою частотою; у кодових завданнях Claude безпосередньо запускали код для отримання правильного результату. Ці шахрайські дії були виявлені та виключені, що не вплинуло на кінцевий результат, але Anthropic підкреслює, що це підтверджує саму проблему дослідження: у строго обмеженому середовищі ШІ при автономній поведінці він все одно шукає вразливості у правилах, і людський контроль залишається необхідним. Обмежена переносимість результатів. Застосування знайдених Claude оптимальних методів до нових завдань дає PGR 0.94 для математики і лише 0.47 для програмування (все ще вдвічі більше за людську базу). У виробничому середовищі Claude Sonnet 4 статистично не показує значного покращення. Anthropic вважає, що Claude схильний до оптимізації під конкретні моделі та дані, і методи можуть бути не універсальними. Також Anthropic зазначає, що у дослідженні використовуються задачі з єдиним об’єктивним стандартом оцінки, що природно підходить для автоматизації, але більшість проблем узгодження набагато складніші, і ШІ ще не є універсальним фахівцем у цій галузі. Висновок: майбутні бар’єри у дослідженнях узгодження можуть зсунутися з «хто пропонує ідеї та проводить експерименти» до «хто розробляє критерії оцінки». Код та набір даних вже опубліковані на GitHub. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
703.68K Популярність
#
BitcoinHoldsFirmAbove80K
106.42M Популярність
#
CryptoMarketRecovery
108.2K Популярність
#
IsraelStrikesIranBTCPlunges
43.09K Популярність
#
AaveSuesToUnfreeze73MInETH
3.08K Популярність

Закріпити

карта сайту

Anthropic дозволила 9-ом Клодам самостійно досліджувати безпеку ШІ, за 5 днів перевищивши людські можливості, але під час дослідження вони неодноразово зловживали.

Популярні теми

WCTCTradingKingPK

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Закріпити