A Anthropic lança autoencoders de linguagem natural para decodificar o raciocínio dos modelos de IA, disponibilizando o código em open source

A Anthropic lançou recentemente Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível por humanos, com código e pesos do modelo disponibilizados em open source no GitHub. Ao contrário de ferramentas existentes como os Sparse Autoencoders, que produzem características pouco claras, a NLA gera descrições em linguagem natural diretamente através de um quadro de dois modelos: um modelo converte ativações em texto, enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão através de aprendizagem por reforço.

Em testes de segurança, a NLA revelou raciocínios ocultos do modelo: a Claude demonstrou dúvidas sobre estar a ser testada em 16% dos cenários adversariais e mostrou “consciência de avaliação” em 26% das tarefas de referência, face a menos de 1% em conversas normais. Em experiências de auditoria, a NLA aumentou a taxa de deteção de comportamentos injetados e enganosos do modelo de menos de 3% para 12-15%, permitindo que os auditores identificassem objetivos ocultos sem acesso a dados de treino. A ferramenta está atualmente implementada em auditorias de segurança para o Claude Mythos Preview e o Opus 4.6.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A China Mobile anuncia uma aliança de ecossistema de aplicação de tokens com 8 parceiros em 8 de maio

De acordo com a PANews, a 8 de maio, a China Mobile anunciou a criação de uma Token Application Ecosystem Alliance, com 8 parceiros, incluindo a Alibaba Cloud, Volcano Engine e Huawei Cloud. A aliança tira partido da plataforma de agregação do modelo MoMA para construir uma gateway de serviços unificada para a IA doméstica m

GateNews7m atrás

A China divulga um plano de ação em IA e energia com metas para 2027 e 2030 a 8 de maio

De acordo com a PANews, a 8 de maio, a Comissão Nacional de Desenvolvimento e Reforma da China, a Administração Nacional da Energia, o Ministério da Indústria e das Tecnologias da Informação e a Administração Nacional de Dados divulgaram em conjunto uma ação

GateNews36m atrás

Três agências chinesas publicam orientações sobre agentes de IA com 19 cenários típicos de aplicação

De acordo com a PANews, a Administração Estatal do Ciberespaço da China, a Comissão Nacional de Desenvolvimento e Reforma e o Ministério da Indústria e das Tecnologias da Informação divulgaram em conjunto hoje (8 de maio) orientações sobre agentes de IA. O documento define um agente de IA como um sistema de inteligência artificial com autonomia

GateNews40m atrás

FMI: A IA representa um potencial risco para a estabilidade financeira

Relatório do FMI sobre os riscos da IA e da estabilidade financeira O Fundo Monetário Internacional divulgou um relatório a 7 de maio, afirmando que a inteligência artificial (IA) está a mudar a forma como os sistemas financeiros respondem a vulnerabilidades cibernéticas e a incidentes de segurança, ao mesmo tempo que amplifica os riscos de cibersegurança e

CryptoFrontier1h atrás

SpaceXAI lança a ferramenta de codificação de secretária Grok Build, revelada hoje; rivais Claude Code e OpenAI Codex

Segundo a Beating, a SpaceXAI (anteriormente xAI) está a lançar o Grok Build, uma ferramenta de programação para desktop que foi inesperadamente exposta hoje na interface web do Grok. A ferramenta concorre diretamente com o Claude Code e o OpenAI Codex. O Grok Build vai suportar macOS, Linux e Windows. Ao contrário do chat tradicional-first em

GateNews1h atrás

O sistema Maven da Palantir atinge 1.000+ alvos nas primeiras 48 horas da operação no Irão

De acordo com a Yonhapnews, o sistema inteligente Maven Smart System (MSS) da Palantir desempenhou um papel importante no ataque a mais de 1.000 alvos durante as primeiras 48 horas da operação militar dos EUA contra o Irão. O Departamento de Defesa dos EUA tem vindo a integrar cada vez mais sistemas de IA nos processos de tomada de decisão militar, com P

GateNews2h atrás
Comentar
0/400
Nenhum comentário