A Anthropic lançou recentemente os Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível para humanos, com código e pesos do modelo de código aberto no GitHub. Diferentemente de ferramentas existentes como Sparse Autoencoders, que geram recursos obscuros, o NLA gera descrições em linguagem natural diretamente por meio de uma estrutura de modelo duplo: um modelo converte ativações em texto enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão via reinforcement learning.
Nos testes de segurança, o NLA revelou raciocínio oculto do modelo: o Claude demonstrou dúvidas sobre ser testado em 16% dos cenários adversariais e exibiu “consciência de prova” em 26% das tarefas de benchmark, em comparação com menos de 1% em conversas normais. Em experimentos de auditoria, o NLA aumentou a taxa de detecção de comportamentos enganadores injetados de menos de 3% para 12-15%, permitindo que auditores identifiquem objetivos ocultos sem acesso a dados de treinamento. A ferramenta está atualmente em produção em auditorias de segurança para Claude Mythos Preview e Opus 4.6.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
A China Mobile anuncia a aliança do ecossistema de aplicação de tokens com 8 parceiros em 8 de maio
De acordo com a PANews, em 8 de maio, a China Mobile anunciou a criação de uma Aliança de Ecossistema de Aplicações de Token com 8 parceiros, incluindo Alibaba Cloud, Volcano Engine e Huawei Cloud. A aliança utiliza a plataforma de agregação MoMA para construir um gateway de serviço unificado para AI doméstica m
GateNews7m atrás
A China divulga plano de ação de IA e energia com metas para 2027 e 2030 em 8 de maio
De acordo com a PANews, em 8 de maio, a Comissão Nacional de Desenvolvimento e Reforma da China, a Administração Nacional de Energia, o Ministério da Indústria e Tecnologia da Informação e a Administração Nacional de Dados divulgaram conjuntamente uma ação
GateNews36m atrás
Três agências da China divulgam orientações sobre agentes de IA com 19 cenários típicos de aplicação
De acordo com a PANews, a Administração do Ciberespaço da China, a Comissão Nacional de Desenvolvimento e Reforma e o Ministério da Indústria e Tecnologia da Informação divulgaram em conjunto hoje (8 de maio) orientações sobre agentes de IA. O documento define um agente de IA como um sistema de inteligência artificial com autonomia
GateNews40m atrás
FMI: IA Representa Potencial Ameaça à Estabilidade Financeira
Relatório do FMI sobre riscos de estabilidade financeira e IA
O Fundo Monetário Internacional publicou um relatório em 7 de maio afirmando que a inteligência artificial (IA) está mudando a forma como os sistemas financeiros respondem a vulnerabilidades cibernéticas e incidentes de segurança, ao mesmo tempo em que amplia os riscos de cibersegurança e
CryptoFrontier1h atrás
A SpaceXAI lança a ferramenta de codificação para desktop Grok Build, revelada hoje; concorrentes Claude Code e OpenAI Codex
De acordo com Beating, a SpaceXAI (ex- xAI) está lançando o Grok Build, uma ferramenta de codificação para desktop que foi exposta inesperadamente hoje na interface web do Grok. A ferramenta compete diretamente com o Claude Code e o OpenAI Codex.
O Grok Build terá suporte a macOS, Linux e Windows. Diferente do chat tradicional em
GateNews1h atrás
O sistema Maven da Palantir atinge 1.000+ alvos nas primeiras 48 horas da operação contra o Irã
De acordo com a Yonhapnews, o sistema inteligente Maven da Palantir (MSS) teve um papel importante ao atingir mais de 1.000 alvos durante as primeiras 48 horas da operação militar dos EUA contra o Irã. O Departamento de Defesa dos EUA tem cada vez mais integrado sistemas de IA aos processos de tomada de decisão militar, com P
GateNews2h atrás