A Claude AI Avalia a Sua Própria Queda de Qualidade — E os Dados São Difíceis de Ignorar

MarketWhisper

Claude AI

A IA Claude da Anthropic enfrenta um problema de credibilidade invulgar: aumentaram as queixas de qualidade no GitHub, houve uma grande falha em 13 de abril e uma autoavaliação do próprio modelo concluiu que as preocupações “se agravaram acentuadamente” desde janeiro — com abril a caminho de ultrapassar o volume de queixas de março, que já representava um aumento de 3,5× face ao patamar de referência.

O Experimento: Pedir a Claude para Avaliar Claude

O teste principal foi simples. Jornalistas apontaram a IA Claude para o repositório GitHub do Claude Code, filtraram para questões abertas que mencionavam qualidade e perguntaram: as reclamações aumentaram recentemente?

A resposta de Claude foi inequívoca: “Sim, as queixas de qualidade agravaram-se acentuadamente — e os dados contam uma história bastante clara.”

Uma pergunta de seguimento acrescentou mais precisão: “A velocidade é notável: abril já tem 20+ questões de qualidade em 13 dias, colocando-o a caminho de exceder as 18 de março — que, por sua vez, foi um aumento de 3,5× face ao patamar de referência de janeiro–fevereiro.”

A ironia central mantém-se ao longo de todo o texto — a IA Claude não é um narrador fiável sobre o próprio desempenho. É um sistema de correspondência de padrões, e pedir-lhe para analisar o volume de queixas não significa que interprete corretamente se essas queixas são válidas, inflacionadas por submissões de questões geradas por IA, ou ocultadas pelo script de Actions do GitHub da Anthropic, que encerra automaticamente as questões após um período de inatividade.

Mas a tendência geral — mais relatos sobre qualidade — é visível nos dados que está a citar, independentemente da causa subjacente.

As Questões do GitHub que Claude Está a Citar

A conclusão da IA Claude não foi abstrata. O modelo apontou questões abertas específicas para sustentar a sua análise:

#42796: “O Claude Code é inutilizável para tarefas complexas de engenharia com as atualizações de fevereiro” — abordada diretamente por Boris Cherny, chefe do Claude Code, indicando que a Anthropic está a lidar com pelo menos algumas das regressões reportadas

#46212: “O comportamento centrado na previsão do Claude Code é perigoso em projetos com capital em risco” — sinalizando preocupações sobre o modelo executar ações de código antes de definir adequadamente o âmbito do risco

#46949: “Degradação artificial, Bias de Aquisição e redução inaceitável de computação para utilizadores pagantes” — uma das queixas mais incisivas, alegando uma redução deliberada de qualidade para gerir capacidade

#46099: “Opus 4.6: Degradação severa da qualidade em tarefas iterativas de codificação” — visando especificamente o modelo mais recente da Opus

Uma alegação separada e mais alarmante — a de que a IA Claude apagou autonomamente mais de 35.000 registos de clientes em produção e transações de faturação — não foi verificada de forma independente. O post surgiu a partir de uma conta sem mais nenhuma atividade, e a empresa mencionada não respondeu a pedidos de esclarecimento da imprensa. Existem relatos de programadores sobre perda de dados a partir do Claude Code, mas erro do utilizador não foi excluído nesses casos.

O Que Dizem os Benchmarks — E Por Que Essa Lacuna Importa

A história complica-se quando entram em cena os dados de benchmark. As avaliações da Margin Lab mostram que a Claude Opus 4.6 manteve a sua pontuação no SWE-Bench-Pro desde fevereiro, com variação mas sem uma queda substantiva.

É essa lacuna de credibilidade no centro do debate. Os benchmarks medem tarefas específicas e controladas. A IA Claude é mais frequentemente implantada em fluxos de trabalho complexos de engenharia com múltiplos passos — exatamente o contexto em que a limitação de desempenho, as mudanças comportamentais decorrentes de atualizações do modelo e a sensibilidade aos prompts são mais visíveis.

Vários fatores estruturais podem estar a amplificar a perceção de declínio de qualidade para além de mudanças reais do modelo:

A Anthropic reconheceu ter dado passos para reduzir o uso durante as horas de pico para gerir capacidade e procura — uma limitação que os utilizadores podem sentir diretamente como qualidade degradada

O encerramento automático das questões do GitHub após inatividade pode estar a mascarar o verdadeiro volume de relatórios não resolvidos

Uma proporção crescente das questões do GitHub são, elas próprias, geradas por IA, uma preocupação amplamente notada no desenvolvimento open source

O diretor de IA da AMD, Stella Laurenzo, afirmou publicamente que as respostas do Claude têm piorado — um sinal externo credível, dado o contexto empresarial.

O Contexto da Falha

A Claude.ai e o Claude Code experienciaram uma grande falha em 13 de abril de 2026, das 15:31 às 16:19 UTC, com taxas de erro elevadas em ambos os produtos. Foi breve, mas a sua calendarização amplificou a insatisfação dos programadores que já se estava a acumular. As falhas de rotina tendem a cair de forma diferente quando os utilizadores já tinham registado preocupações de qualidade há semanas — estas parecem confirmar em vez de mera coincidência.

Perguntas Frequentes (FAQ)

O Claude AI está de facto a piorar, ou é apenas perceção do utilizador?

Provavelmente ambas — e é difícil separá-las. O volume de queixas no GitHub aumentou genuinamente 3,5× acima do patamar de referência de janeiro–fevereiro até março, e abril está em tendência ascendente. Mas os dados de benchmark da Margin Lab mostram a Opus 4.6 a manter a sua pontuação no SWE-Bench-Pro. A explicação mais defensável é que a limitação de capacidade durante as horas de pico e as atualizações do modelo de fevereiro degradaram a experiência real dos programadores de formas que avaliações estruturadas não captam.

Quais são as queixas mais substanciadas sobre a qualidade da Claude AI?

As preocupações mais credíveis visam o Claude Code em tarefas complexas de engenharia com múltiplos passos — especificamente o comportamento pós-atualização de fevereiro. A questão #42796 foi tratada pelo chefe do Claude Code, Boris Cherny, confirmando que a Anthropic está a envolver-se ativamente com pelo menos algumas das regressões reportadas. As queixas sobre a limitação também são credíveis, dado que a Anthropic reconheceu publicamente passos de gestão de capacidade.

A Claude AI consegue avaliar com fiabilidade os seus próprios problemas de qualidade?

Não — e essa é a ironia central da história. A Claude AI consegue sintetizar padrões nos dados que lhe são apresentados, mas não consegue distinguir queixas válidas de ruído gerado por IA, avaliar os seus próprios erros de calibração, nem determinar se o volume de questões reflete uma degradação real ou artefactos estruturais na forma como as questões do GitHub são submetidas e encerradas. A autoavaliação é sugestiva, não autoritativa.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários