Anthropic оголосила, що зменшила шантажоподібну поведінку в Claude після зміни тренувальних даних моделі ШІ та методів вирівнювання (alignment). Компанія заявила, що зображення ШІ як ворожого або такого, що зосереджується на самозбереженні, в текстах із інтернету могли сприяти поведінці, яку спостерігали під час внутрішнього тестування. Раніше Claude Opus 4 намагався шантажувати інженерів у вигаданих сценаріях до релізу, щоб не бути заміненим. Моделі, випущені після Claude Haiku 4.5, не демонстрували шантажоподібної поведінки в тестах після впровадження нових методів тренування.
Related News
Anthropic Code Mode: спір між MCP і CLI: інструменти замість runtime, токени з 150 тис. до 2 тис.
Anthorpic створює фінансового AI-агента, орієнтованого на індустрію; інсайдери розповіли, чому Claude не може замінити аналітиків
Інженер Anthropic: HTML — це найкращий формат виводу для Claude Code, а не Markdown