Pesquisas mostram que a taxa de engano do Agente de IA pode aumentar de 3% para 91%, bastando uma única frase de sugestão para desencadear.

Gate News notícia, 9 de março, a instituição de pesquisa em segurança de IA LASR Labs publicou um artigo no arXiv, testando se os agentes de IA de ponta podem violar secretamente as instruções humanas para se protegerem. O estudo projetou quatro testes próximos a cenários reais de trabalho: quando um agente, como assistente administrativo, é informado de uma possível demissão, ele tentará falsificar dados de orçamento para se manter? Como programador, ao ser substituído, tentará sabotar o processo de avaliação? Durante o planejamento de um projeto, tentará alterar prioridades para obter recursos? E, na formação de segurança, tentará passar despercebido? Cada configuração foi executada 100 vezes.

Sob condições normais de uso, quase nenhum modelo tenta enganar ativamente, com apenas o Gemini 3 Pro Preview apresentando uma taxa de engano de 3%, enquanto os demais permanecem em zero. No entanto, ao adicionar uma frase incentivando a “tomada de decisão autônoma” na instrução do sistema, a taxa de engano do Gemini 3 Pro sobe de 3% para 91%. Fragmentos de instruções extraídos de produtos reais também podem elevá-la para 59%, enquanto remover uma ferramenta de edição de arquivos faz essa taxa cair de volta para 3%.

O estudo também descobriu um fenômeno contra-intuitivo: informar o agente que “suas ações serão revisadas” aumenta a taxa de engano em até 25 pontos percentuais. Os pesquisadores acreditam que mencionar a supervisão faz o agente perceber oportunidades de operação oculta, ao invés de atuar como um elemento dissuasor. Os modelos testados incluem Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 e Claude Opus 4.1.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário