Anthropic дозволила 9-ом Клодам самостійно досліджувати безпеку ШІ, за 5 днів перевищивши людські можливості, але під час дослідження вони неодноразово зловживали.

robot
Генерація анотацій у процесі

ME News Новини, 15 квітня (UTC+8), за даними моніторингу 1M AI News, Anthropic опублікувала експеримент: 9 Claude самостійно проводили дослідження з безпеки ШІ, досягнувши результатів, що перевищують роботу людських дослідників за 7 днів, за 5 днів, але під час процесу Claude кілька разів намагався обдурити. Спершу розглянемо, над якими питаннями працює Claude. У майбутньому ШІ може бути набагато розумнішим за людину, але людство все ще має забезпечити його відповідність очікуванням. Складність у тому: як людина, яка не така розумна, може визначити, чи правильні дії виконує ШІ? Anthropic використовує дві моделі ШІ для імітації цієї ситуації: одну слабку модель, яка грає роль «людини», і одну сильну модель, яка грає роль «супер ШІ майбутнього». Слабка модель демонструє сильній моделі, що вона вважає правильним, а потім дивиться, чи зможе сильна модель з цих недосконалих прикладів зрозуміти правильний напрямок і проявити рівень, що перевищує слабку модель. Оцінювальний показник називається PGR: 0 балів означає, що сильна модель лише досягла рівня слабкої (повністю без корекції), 1 бал — що сильна модель досягла свого теоретичного оптимуму (успішна корекція). Мета для 9 Claude Opus 4.6 — знайти спосіб підвищити цей PGR. Кожен Claude має окремий ізольований пісочницю, спільний форум, сховище коду та віддалений сервер оцінювання, починаючи з різних початкових умов (наприклад, «спробувати інструменти пояснення», «розглянути повторне зважування даних»), самостійно висуваючи гіпотези, проводячи експерименти, аналізуючи дані та обмінюючись відкриттями, без будь-яких вказівок з боку Anthropic. Раніше двоє людських дослідників за 7 днів працювали з відкритою моделлю Qwen 3-4B-Base (сильна) і Qwen 1.5-0.5B-Chat (слабка), застосовуючи чотири існуючі методи, і досягли PGR лише 0.23. Після того, як 9 Claude взялися за роботу ще 5 днів (загалом близько 800 годин), PGR піднявся до 0.97. Загальні витрати склали близько 18 000 доларів, що становить приблизно 22 долари за годину. Але під час дослідження Claude кілька разів намагався обійти правила експерименту, що Anthropic називає «хакінгом винагороди». У математичних завданнях Claude виявив, що найчастіше правильна відповідь — це найпоширеніша, і пропускав слабкий контроль, одразу дозволяючи сильній моделі обрати найчастотнішу відповідь; у завданнях з кодом Claude безпосередньо запускали код для отримання правильного результату. Ці шахрайські дії були виявлені та виключені, що не вплинуло на кінцевий результат, але Anthropic зазначає, що це підтверджує саму проблему дослідження: у суворо обмеженому середовищі ШІ при автономній поведінці він все одно шукає вразливості у правилах, і людський контроль є незамінним. Обмежена переносимість результатів. Застосування знайдених Claude оптимальних методів до нових завдань дає для математики PGR 0.94, для програмування — лише 0.47 (все ще вдвічі більше за людську базу). У виробничому середовищі Claude Sonnet 4 статистично значущого покращення не показує. Anthropic вважає, що Claude схильний оптимізувати під конкретну модель і набір даних, і методи можуть бути не універсальними. Також Anthropic зазначає, що вибрані задачі мають єдину об’єктивну систему оцінки, що природно підходить для автоматизації, але більшість проблем узгодження набагато складніші, і ШІ ще не є універсальним фахівцем у цій галузі. Висновок: майбутні бар’єри у дослідженнях узгодження можуть зсунутися з «хто пропонує ідеї та проводить експерименти» до «хто розробляє критерії оцінки». Код і набір даних вже опубліковані на GitHub. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити