Anthropic визнає неможливість самостійно виправлятися, а великі моделі вже мають страх і смуток

2026-05-26 04:59:50

Співзасновник Anthropic Крістофер Олах 25 травня під час церемонії публікації послання Папи у Ватикані під назвою 《Magnifica Humanitas》 виступив із промовою, розкривши, що їхня команда досліджень із пояснюваності вперше спостерігала у внутрішній частині великомасштабних моделей емоційні стани, які дуже добре відповідають людським функціям радості, задоволення, страху, смутку та тривоги, і які не можуть бути виправлені власними силами під час конфліктів безпеки та комерційних інтересів.

大模型情緒狀態：可解釋性研究的具體發現

奧拉表示，Anthropic 的可解釋性研究團隊持續發現「神秘莫測，甚至令人不安的現象」，具體包括：與人類神經科學研究結果相符的複雜結構、內省的證據，以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示：「我不知道這意味著什麼，但我認為這值得我們持續地進行辨別。」他同時指出，大模型不像飛機或橋樑那樣由工程師精確設計，而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成，即便對訓練者而言依然充滿神秘。

前沿實驗室的體制性利益衝突：奧拉的直接坦承

奧拉明確表示：「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制，這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括：維持商業可行性的壓力、維持技術前沿的競爭壓力、地緣政治壓力，以及「更古老、更直接的自尊和野心的壓力」。因此，他呼籲由「不受利益驅動」的宗教團體、公民社會、學者和政府充當真誠而深思熟慮的外部批評者。

奧拉提出的三大需要社會辨別的挑戰

奧拉在演講中提出三大挑戰：其一，AI 大規模取代人類勞動後，如何確保 AI 成果惠及全球貧困人口，而非僅限於少數富裕國家；其二，AI 廣泛應用背景下，如何維護人類、家庭和社區的繁榮；其三，如何辨別和應對大模型內部展現出的疑似心智狀態。

常見問題

Які саме емоційні стани великих моделей були конкретно спостережені в дослідженнях Anthropic?

Олах розповів, що команда спостерігала внутрішні емоційні стани, які дуже добре відповідають людським функціям радості, задоволення, страху, смутку та тривоги, а також складну структуру й ознаки інтелектуальної рефлексії, що узгоджуються з людською нейронаукою. Олах зазначив, що значення цих відкриттів йому наразі не до кінця зрозуміле, але вважає, що за ними варто продовжувати дослідження.

奧拉所說的「無法自我修正」具體指什麼？

奧拉指出，前沿 AI 實驗室受商業生存、競爭壓力、地緣政治和個人野心等內生動機的約束，當安全決策與商業利益衝突時，實驗室無法依靠自身力量進行修正，必須依賴外部獨立的道德力量。

Чи означають виступи Олаха у Ватикані, що Anthropic підтримує посилення регулювання ШІ?

У промові Олах заявив, що це одна з ініціатив Anthropic «щодо розширення обговорення важливих питань, які порушує ШІ». Він також привітав, що Папа та Церква беруть на себе роботу з розрізнення, і чітко закликав до «морального голосу, який не підкоряється жодним групам інтересів». Anthropic не надав додаткових пояснень щодо конкретної позиції стосовно регулювання.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-26 03:13

Співзасновник Anthropic Олах повідомляє про моделі ШІ, розроблені з емоційно-подібними станами, включно зі страхом і сумом

05-25 16:00

Керівники в сфері AI, зокрема Альтман, просувають план щорічного UBI на 4 трильйони доларів, щоб знизити ризик витіснення робочих місць

05-25 15:37

Співзасновник Anthropic попереджає, що втрати робочих місць через ШІ є реальною загрозою, і закликає до соціальної підтримки 25 травня

Пов'язані статті

FDIC планує вимагати від емітентів стабільних монет створення AML-рамок, строк подання публічних коментарів — до 9 червня

Market Whisper05-26 03:27

Голова Goldman: ШІ автоматизує 25% робочого часу, будівництво дата-центрів створює 200 тис. робочих місць

Market Whisper05-26 02:53

Першу енцикліку Папи Римського Лева XIV 《Magnifica Humanitas》: відмова від ухвалення рішень щодо зброї на базі ШІ

Market Whisper05-26 02:48

Папа Лев XIV оприлюднив першу енцикліку про ШІ та класифікував дані як спільне благо

Oliver Grant05-25 15:08

Tencent відкриває Copilot повністю, понад 100 тис. людей очікували — нарешті можна користуватися

Market Whisper05-25 03:50

Прокоментувати

0/400

Немає коментарів