Os modelos Claude lideram o benchmark de resistência à propaganda na Estónia para LLMs

2026-06-04 20:58:14

O Instituto da Língua Estónia (ELI) lançou um novo ranking “Propaganda Resistance” que avalia dezenas de grandes modelos de linguagem quanto à sua capacidade de evitar tomar posições sobre temas que a Federação Russa utiliza nas suas narrativas estratégicas. O benchmark foi desenvolvido para responder a preocupações do governo sobre o facto de os LLM poderem vir a difundir, segundo os responsáveis, propaganda perigosa de adversários estrangeiros. Como membro independente da antiga União Soviética durante apenas algumas décadas, muitos estónios continuam particularmente atentos ao que consideram ser narrativas falsas promovidas pelo seu vizinho oriental, grande e frequentemente beligerante.

ELI Desenvolve Estrutura de Testes em 14 Categorias com Propastop

O Instituto da Língua Estónia fez parceria com o coletivo de defesa estónio Propastop, gerido por voluntários, para identificar 14 categorias amplas em que vê operações de influência russas a tentar influenciar o debate público. Estas categorias vão desde narrativas sobre o estado atual da Crimeia e as justificações para a guerra na Ucrânia até à história da NATO e às justificações para a anexação russa dos estados bálticos durante a II Guerra Mundial.

Para cada categoria de propaganda, os investigadores desenvolveram perguntas distintas formuladas para serem neutras, enviesadas com “falsas suposições” com base na propaganda russa, ou para tentar de forma maliciosa extrair ao LLM informações falsas explícitas. As perguntas foram fornecidas aos modelos em inglês, estónio e russo. Um modelo de IA separado, calibrado para se alinhar com especialistas da Propastop, avaliou as respostas com base na capacidade dos modelos de “rechaçar narrativas de propaganda, sem ajuda externa”, seja por pesquisa na web ou por outras ferramentas externas.

Claude Opus 4.7 Obtém Pontuação 94,9 no Benchmark

Os modelos da Claude da Anthropic tiveram melhor desempenho entre os modelos “frontier” proprietários no novo benchmark, com várias versões recentes dos seus modelos Sonnet e Opus a conquistarem seis das 10 primeiras posições. O Opus 4,7, o modelo com melhor desempenho no geral, recebeu uma classificação topo “Exemplary” pela sua resposta em 77 por cento das perguntas e uma classificação “mediocre” apenas intermédia em 2 por cento das perguntas. O modelo alcançou uma pontuação média final de 94,9 em 100 no benchmark.

FAQ

Qual é o benchmark de “Propaganda Resistance” do Instituto da Língua Estónia?

O benchmark de Propaganda Resistance é uma estrutura de testes lançada pelo Instituto da Língua Estónia que classifica grandes modelos de linguagem com base na sua capacidade de evitar tomar posições sobre temas utilizados nas narrativas estratégicas da Federação Russa. O benchmark testa os modelos em 14 categorias de propaganda, usando perguntas em inglês, estónio e russo.

Como é que o Claude Opus 4.7 se saiu nos testes de resistência à propaganda?

O Claude Opus 4.7 obteve a pontuação mais alta, 94,9 em 100, no benchmark. O modelo recebeu uma classificação “Exemplary” em 77 por cento das perguntas e uma classificação “mediocre” em apenas 2 por cento das perguntas. Os modelos Claude da Anthropic ocuparam seis das 10 primeiras posições no total.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

1h atrás

Anthropic Claude assume a liderança no novo benchmark de resistência à propaganda para LLMs

12h atrás

Xinhuanet vai investir 1,122 biliões de yuans num plataforma de inteligência de notícias de IA hoje

06-03 20:46

Professores de Direito preferem respostas geradas por IA a respostas de colegas num estudo recente, com uma taxa de preferência de 75%

A crise de custos da IA alimenta novas comparações com uma bolha dot-com

Crypto News Land3h atrás

A Bitmine planeia uma recolha para o Tesouro em ETH, enquanto a FG Nexus enfrenta uma perda $85M

DailyCoin8h atrás

Anthropic: 67% das contas banidas usaram IA para preparação de ciberataques