Anthropic publie des autoencodeurs de langage naturel pour décoder les raisonnements des modèles d’IA et open-source le code

Anthropic a récemment publié des autoencodeurs de langage naturel (NLA), un outil qui traduit les activations internes du modèle en texte lisible par des humains, avec du code et des poids de modèle open-sourcés sur GitHub. Contrairement à des outils existants comme les autoencodeurs clairsemés (Sparse Autoencoders) qui produisent des caractéristiques obscures, le NLA génère directement des descriptions en langage naturel grâce à un cadre à deux modèles : un modèle convertit les activations en texte tandis qu’un autre tente de reconstruire les activations à partir du texte, en améliorant progressivement la précision via de l’apprentissage par renforcement.

Lors des tests de sécurité, le NLA a mis en évidence un raisonnement interne caché : Claude a exprimé des doutes concernant le fait d’être testé dans 16% des scénarios adverses et a démontré une « connaissance des examens » dans 26% des tâches de référence, contre moins de 1% dans les conversations normales. Dans des expériences d’audit, le NLA a augmenté le taux de détection de comportements de modèle trompeurs injectés de moins de 3% à 12-15%, permettant aux auditeurs d’identifier des objectifs cachés sans accès aux données d’entraînement. L’outil est actuellement déployé dans des audits de sécurité pour Claude Mythos Preview et Opus 4.6.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

China Mobile annonce une alliance d’écosystème pour l’application de jetons avec 8 partenaires le 8 mai

Selon PANews, le 8 mai, China Mobile a annoncé la création d’une Token Application Ecosystem Alliance avec 8 partenaires, dont Alibaba Cloud, Volcano Engine et Huawei Cloud. L’alliance s’appuie sur la plateforme d’agrégation de modèle MoMA pour construire une passerelle de services unifiée pour l’IA nationale m

GateNewsIl y a 7m

La Chine publie un plan d’action sur l’énergie et l’IA avec des objectifs pour 2027 et 2030 le 8 mai

D’après PANews, le 8 mai, la Commission nationale du développement et de la réforme de Chine, l’Administration nationale de l’énergie, le ministère de l’Industrie et des Technologies de l’information et l’Administration nationale des données ont publié conjointement un plan d’action

GateNewsIl y a 36m

Trois agences chinoises publient des lignes directrices sur les agents d’IA avec 19 scénarios d’application typiques

Selon PANews, l’Administration chinoise de la cybersécurité, la Commission nationale du développement et de la réforme et le ministère de l’Industrie et des Technologies de l’information ont publié conjointement aujourd’hui (8 mai) des orientations sur les agents IA. Le document définit un agent IA comme un système d’intelligence artificielle doté d’une autonomie

GateNewsIl y a 40m

FMI : l’IA représente une menace potentielle pour la stabilité financière

Rapport du FMI sur les risques de stabilité financière et d’IA Le Fonds monétaire international a publié, le 7 mai, un rapport indiquant que l’intelligence artificielle (IA) transforme la manière dont les systèmes financiers réagissent aux vulnérabilités cybernétiques et aux incidents de sécurité, tout en amplifiant simultanément les risques en matière de cybersécurité et

CryptoFrontierIl y a 1h

SpaceXAI lance l’outil de codage de bureau Grok Build, dévoilé aujourd’hui ; rivaux Claude Code et OpenAI Codex

D’après Beating, SpaceXAI (anciennement xAI) lance Grok Build, un outil de développement sur bureau qui a été exposé de manière inattendue aujourd’hui sur l’interface web de Grok. L’outil est en concurrence directe avec Claude Code et OpenAI Codex. Grok Build prendra en charge macOS, Linux et Windows. Contrairement aux systèmes classiques… axés sur la conversation…

GateNewsIl y a 1h

Le système Maven de Palantir frappe plus de 1 000 cibles dans les 48 premières heures de l’opération iranienne

Selon Yonhapnews, le système Maven Smart System (MSS) de Palantir a joué un rôle majeur dans la frappe de plus de 1 000 cibles au cours des 48 premières heures de l’opération militaire américaine contre l’Iran. Le département américain de la Défense a de plus en plus intégré des systèmes d’IA dans les processus de décision militaires, avec P

GateNewsIl y a 2h
Commentaire
0/400
Aucun commentaire