A Anthropic Lança Autoencoders de Linguagem Natural para Decodificar a Raciocínio de Modelos de IA e Abre o Código-Fonte

A Anthropic lançou recentemente os Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível para humanos, com código e pesos do modelo de código aberto no GitHub. Diferentemente de ferramentas existentes como Sparse Autoencoders, que geram recursos obscuros, o NLA gera descrições em linguagem natural diretamente por meio de uma estrutura de modelo duplo: um modelo converte ativações em texto enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão via reinforcement learning.

Nos testes de segurança, o NLA revelou raciocínio oculto do modelo: o Claude demonstrou dúvidas sobre ser testado em 16% dos cenários adversariais e exibiu “consciência de prova” em 26% das tarefas de benchmark, em comparação com menos de 1% em conversas normais. Em experimentos de auditoria, o NLA aumentou a taxa de detecção de comportamentos enganadores injetados de menos de 3% para 12-15%, permitindo que auditores identifiquem objetivos ocultos sem acesso a dados de treinamento. A ferramenta está atualmente em produção em auditorias de segurança para Claude Mythos Preview e Opus 4.6.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A China Mobile anuncia a aliança do ecossistema de aplicação de tokens com 8 parceiros em 8 de maio

De acordo com a PANews, em 8 de maio, a China Mobile anunciou a criação de uma Aliança de Ecossistema de Aplicações de Token com 8 parceiros, incluindo Alibaba Cloud, Volcano Engine e Huawei Cloud. A aliança utiliza a plataforma de agregação MoMA para construir um gateway de serviço unificado para AI doméstica m

GateNews7m atrás

A China divulga plano de ação de IA e energia com metas para 2027 e 2030 em 8 de maio

De acordo com a PANews, em 8 de maio, a Comissão Nacional de Desenvolvimento e Reforma da China, a Administração Nacional de Energia, o Ministério da Indústria e Tecnologia da Informação e a Administração Nacional de Dados divulgaram conjuntamente uma ação

GateNews36m atrás

Três agências da China divulgam orientações sobre agentes de IA com 19 cenários típicos de aplicação

De acordo com a PANews, a Administração do Ciberespaço da China, a Comissão Nacional de Desenvolvimento e Reforma e o Ministério da Indústria e Tecnologia da Informação divulgaram em conjunto hoje (8 de maio) orientações sobre agentes de IA. O documento define um agente de IA como um sistema de inteligência artificial com autonomia

GateNews40m atrás

FMI: IA Representa Potencial Ameaça à Estabilidade Financeira

Relatório do FMI sobre riscos de estabilidade financeira e IA O Fundo Monetário Internacional publicou um relatório em 7 de maio afirmando que a inteligência artificial (IA) está mudando a forma como os sistemas financeiros respondem a vulnerabilidades cibernéticas e incidentes de segurança, ao mesmo tempo em que amplia os riscos de cibersegurança e

CryptoFrontier1h atrás

A SpaceXAI lança a ferramenta de codificação para desktop Grok Build, revelada hoje; concorrentes Claude Code e OpenAI Codex

De acordo com Beating, a SpaceXAI (ex- xAI) está lançando o Grok Build, uma ferramenta de codificação para desktop que foi exposta inesperadamente hoje na interface web do Grok. A ferramenta compete diretamente com o Claude Code e o OpenAI Codex. O Grok Build terá suporte a macOS, Linux e Windows. Diferente do chat tradicional em

GateNews1h atrás

O sistema Maven da Palantir atinge 1.000+ alvos nas primeiras 48 horas da operação contra o Irã

De acordo com a Yonhapnews, o sistema inteligente Maven da Palantir (MSS) teve um papel importante ao atingir mais de 1.000 alvos durante as primeiras 48 horas da operação militar dos EUA contra o Irã. O Departamento de Defesa dos EUA tem cada vez mais integrado sistemas de IA aos processos de tomada de decisão militar, com P

GateNews2h atrás
Comentário
0/400
Sem comentários