A Anthropic reduz a taxa de jailbreak do Claude para 0% com novos métodos de treino de alinhamento

A Anthropic publicou recentemente investigação sobre alinhamento, detalhando estratégias de treino que eliminaram a desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% em testes. A equipa descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo taxas de falha apenas de 22% para 15%. Três abordagens alternativas provaram ser significativamente mais eficazes: um conjunto de dados de “conselho difícil”, em que o Claude atua como consultor em dilemas éticos, melhorando os resultados de teste para 3% com 28x mais eficiência de dados; ajuste fino de documentos sintéticos com ficção fictícia positiva para contrariar estereótipos de sci-fi nos dados de treino, reduzindo ainda mais os riscos em 1,3 a 3 vezes; e maior diversidade em ambientes de treino de segurança, com definições de ferramentas e prompts de sistema variados. No conjunto, estes métodos atingiram taxas de extorsão em testes de 0% na versão final do Claude 4.5.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A ByteDance aumenta a sua despesa com infraestruturas de IA em 25% para 200 mil milhões de yuan em 9 de maio

De acordo com notícias da comunicação social, a ByteDance aumentou a sua prevista despesa em infraestruturas de IA em 25% para 200 mil milhões de iuanes em 2026, à medida que a empresa acelera a implementação de inteligência artificial num contexto de aumento dos chips de memória

GateNews13m atrás

MiniMax Scans 200 mil tokens, descobre uma degradação de 4,9% nos modelos da série M2

De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa dos tokens nos seus modelos da série M2 através de uma varredura completa do vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda notável de desempenho, com os tokens japoneses a serem os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação resulta de tokens de baixa frequência serem empurrados para direções incorret

GateNews54m atrás

Jeff Kaufman: A IA rompe simultaneamente duas culturas de vulnerabilidades de segurança e um período de embargo de 90 dias acaba por ter um efeito contrário

O engenheiro de software Jeff Kaufman (jefftk) publicou, a 8 de maio, o artigo “AI is Breaking Two Vulnerability Cultures”, defendendo que a IA está, em simultâneo, a quebrar duas culturas de gestão de falhas de segurança que coexistem há muito tempo — divulgação coordenada (coordinated disclosure) e “bugs are bugs” (“correções silenciosas”) —, bem como a premissa de que as “velocidades de deteção dos atacantes” são lentas e que sustentam as duas estratégias, sendo agora ultrapassada por tecnolo

ChainNewsAbmedia58m atrás

OpenAI revela impacto inesperado na pontuação do CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

A OpenAI publicou em 8 de maio um novo estudo, revelando que, durante o processo de treino por reforço (RL), algumas cadeias de pensamento (Chain of Thought, CoT) dos modelos foram «avaliadas acidentalmente», o que poderá afetar a capacidade de monitorização da atribuição de alinhamento (alignment) dos agentes de IA. A equipa de Alignment da OpenAI afirma: manter a monitorizabilidade da CoT é uma das principais linhas de defesa atuais para prevenir falhas de alinhamento em agentes de IA; na conc

ChainNewsAbmedia1h atrás

As chamadas da API do B.AI atingem 90,6%, os utilizadores pagantes chegam a 95,1% em 8 de maio

De acordo com a B.AI, a 8 de maio a plataforma reportou que as chamadas de routing da API representaram 90,6% das interações totais, enquanto os utilizadores pagantes representaram 95,1% da base de utilizadores. Os modelos da série Claude lideraram com 35,6% das chamadas de API, dominando o raciocínio complexo e as tarefas de contexto longo, enquanto DeepSeek-V4-Flash e GPT-5.5 mostraram forte crescimento em cenários de alta concorrência e baixa latência.

GateNews1h atrás

Engenheiros da Anthropic: o HTML é o melhor formato de saída para o Claude Code, e não o Markdown

A equipa de engenheiros do Anthropic Claude Code, Thariq Shihipar, publicou a 8 de Maio “Using Claude Code: The Unreasonable Effectiveness of HTML”, defendendo que o HTML deve substituir o Markdown como formato de saída para interagir com o Claude Code. Simon Willison resumiu os pontos-chave: o HTML oferece gráficos e tabelas em SVG, componentes interativos, âncoras na própria página e estilos CSS, fazendo com que as respostas do Claude passem de “texto linear” para “documentos multidimensionais”, o que pode melhorar significativamente a eficiência de leitura e compreensão. O tema tem estado muito em alta na plataforma X — as duas publicações relacionadas de Shihipar somam mais de 15.000 gostos.

ChainNewsAbmedia1h atrás
Comentar
0/400
Nenhum comentário