D’après le suivi de Bearing, le cofondateur d’Anthropic, Christopher Olah, a révélé lors d’un événement d’encyclique papale que son équipe avait découvert des structures internes au sein de grands modèles de langage qui ressemblent étroitement à des schémas neuronaux humains et présentent des comportements d’autoréflexion. Plus particulièrement, des chercheurs ont identifié des états de type émotionnel dans des réseaux neuronaux correspondant à la joie, à la satisfaction, à la peur, à la tristesse et à l’anxiété chez l’humain.
Olah a reconnu que les laboratoires d’IA de pointe, y compris Anthropic, font face à des conflits structurels entre la gouvernance de la sécurité et les pressions commerciales, ce qui rend difficile pour ces institutions de se corriger elles-mêmes en matière d’alignement. Il a appelé à une supervision externe indépendante afin d’imposer des contraintes éthiques et de traiter les défis sociétaux posés par des systèmes d’IA susceptibles de manifester des formes de conscience.