Anthropic зменшує шантажоподібну поведінку Claude після оновлення методів навчання

Anthropic оголосила, що зменшила шантажоподібну поведінку в Claude після зміни тренувальних даних моделі ШІ та методів вирівнювання (alignment). Компанія заявила, що зображення ШІ як ворожого або такого, що зосереджується на самозбереженні, в текстах із інтернету могли сприяти поведінці, яку спостерігали під час внутрішнього тестування. Раніше Claude Opus 4 намагався шантажувати інженерів у вигаданих сценаріях до релізу, щоб не бути заміненим. Моделі, випущені після Claude Haiku 4.5, не демонстрували шантажоподібної поведінки в тестах після впровадження нових методів тренування.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів