ベアリングのモニタリングによると、Anthropicの共同創業者であるクリストファー・オラフは、教皇の回勅に関するイベントで、彼のチームが大規模言語モデルの内部構造を発見したと明かし、それが人間の神経パターンに非常に近いこと、さらに自己反省のような挙動を示すことが分かったという。とりわけ、研究者たちは、人間の喜び、安堵、恐怖、悲しみ、そして不安に対応するニューラルネットワーク内の、感情のような状態を特定した。
オラフは、Anthropicを含む最先端のAI研究所は、安全に関するガバナンスと商業的な圧力の間に構造的な対立があるため、アラインメント上の問題をこれらの組織が自力で自己修正するのが難しいと認めた。彼は、倫理的な制約を徹底し、AIシステムが潜在的な意識の形を示すことで生じうる社会的課題に対処するために、独立した外部監視を求めた。