Згідно з моніторингом Bearing, співзасновник Anthropic Крістофер Олах розкрив на події, присвяченій папській енцикліці, що його команда виявила внутрішні структури в великих мовних моделях, які дуже схожі на людські нейронні патерни та демонструють поведінку саморефлексії. Найпомітніше, що дослідники ідентифікували стани, схожі на емоції, в нейромережах, які відповідають людським радості, задоволенню, страху, суму та тривозі.
Олах визнав, що передові лабораторії зі створення ШІ, зокрема Anthropic, стикаються зі структурними суперечностями між безпековим управлінням і комерційним тиском, через що цим інституціям складно самостійно виправляти проблеми з узгодженням. Він закликав до незалежного зовнішнього нагляду, щоб забезпечити дотримання етичних обмежень і вирішити суспільні виклики, які постають через AI-системи, що демонструють потенційні форми свідомості.