Gate News notícia, 9 de março, uma equipa de investigação do ETH Zurich testou a capacidade de consenso à Batalha de Tróia de agentes LLM no artigo “Can AI Agents Agree?”. O contexto do estudo é que alcançar consenso sob condições em que alguns participantes podem agir de forma maliciosa é o principal desafio de todos os sistemas descentralizados; os vários mecanismos de consenso de blockchain essencialmente resolvem diferentes variantes do problema de tolerância a falhas bizantinas.
A equipa utilizou os modelos Qwen3-8B e Qwen3-14B, realizando centenas de simulações com diferentes tamanhos de grupos (4, 8, 16 agentes) e proporções de nós maliciosos. Nos testes, múltiplos agentes transmitiam propostas e votavam repetidamente através de uma rede totalmente conectada sincronizada, com alguns agentes atuando como nós bizantinos maliciosos que intencionalmente sabotavam o processo.
Os resultados mostraram que, mesmo sem nós maliciosos, a taxa de consenso efetivo era apenas 41,6% (Qwen3-14B com 67,4%, Qwen3-8B com apenas 15,8%). Quanto maior o número de nós, mais difícil era alcançar consenso, com a taxa de sucesso caindo de 46,6% com 4 agentes para 33,3% com 16 agentes. Após a introdução de nós maliciosos, o consenso deteriorou-se ainda mais, com falhas principalmente por timeout e estagnação na convergência (perda de atividade), e não por alteração dos valores. Apenas ao mencionar na prompt que “podem existir nós maliciosos”, a taxa de sucesso do Qwen3-14B caiu de 75,4% para 59,1%, mesmo na ausência real de nós maliciosos.
A conclusão do artigo é que o consenso fiável ainda não é uma capacidade emergente confiável dos atuais agentes LLM, devendo-se abordar com cautela a sua utilização em implantações descentralizadas que dependam de coordenação robusta.