
A IA Claude da Anthropic enfrenta um problema de credibilidade invulgar: aumentaram as queixas de qualidade no GitHub, houve uma grande falha em 13 de abril e uma autoavaliação do próprio modelo concluiu que as preocupações “se agravaram acentuadamente” desde janeiro — com abril a caminho de ultrapassar o volume de queixas de março, que já representava um aumento de 3,5× face ao patamar de referência.
O teste principal foi simples. Jornalistas apontaram a IA Claude para o repositório GitHub do Claude Code, filtraram para questões abertas que mencionavam qualidade e perguntaram: as reclamações aumentaram recentemente?
A resposta de Claude foi inequívoca: “Sim, as queixas de qualidade agravaram-se acentuadamente — e os dados contam uma história bastante clara.”
Uma pergunta de seguimento acrescentou mais precisão: “A velocidade é notável: abril já tem 20+ questões de qualidade em 13 dias, colocando-o a caminho de exceder as 18 de março — que, por sua vez, foi um aumento de 3,5× face ao patamar de referência de janeiro–fevereiro.”
A ironia central mantém-se ao longo de todo o texto — a IA Claude não é um narrador fiável sobre o próprio desempenho. É um sistema de correspondência de padrões, e pedir-lhe para analisar o volume de queixas não significa que interprete corretamente se essas queixas são válidas, inflacionadas por submissões de questões geradas por IA, ou ocultadas pelo script de Actions do GitHub da Anthropic, que encerra automaticamente as questões após um período de inatividade.
Mas a tendência geral — mais relatos sobre qualidade — é visível nos dados que está a citar, independentemente da causa subjacente.
A conclusão da IA Claude não foi abstrata. O modelo apontou questões abertas específicas para sustentar a sua análise:
#42796: “O Claude Code é inutilizável para tarefas complexas de engenharia com as atualizações de fevereiro” — abordada diretamente por Boris Cherny, chefe do Claude Code, indicando que a Anthropic está a lidar com pelo menos algumas das regressões reportadas
#46212: “O comportamento centrado na previsão do Claude Code é perigoso em projetos com capital em risco” — sinalizando preocupações sobre o modelo executar ações de código antes de definir adequadamente o âmbito do risco
#46949: “Degradação artificial, Bias de Aquisição e redução inaceitável de computação para utilizadores pagantes” — uma das queixas mais incisivas, alegando uma redução deliberada de qualidade para gerir capacidade
#46099: “Opus 4.6: Degradação severa da qualidade em tarefas iterativas de codificação” — visando especificamente o modelo mais recente da Opus
Uma alegação separada e mais alarmante — a de que a IA Claude apagou autonomamente mais de 35.000 registos de clientes em produção e transações de faturação — não foi verificada de forma independente. O post surgiu a partir de uma conta sem mais nenhuma atividade, e a empresa mencionada não respondeu a pedidos de esclarecimento da imprensa. Existem relatos de programadores sobre perda de dados a partir do Claude Code, mas erro do utilizador não foi excluído nesses casos.
A história complica-se quando entram em cena os dados de benchmark. As avaliações da Margin Lab mostram que a Claude Opus 4.6 manteve a sua pontuação no SWE-Bench-Pro desde fevereiro, com variação mas sem uma queda substantiva.
É essa lacuna de credibilidade no centro do debate. Os benchmarks medem tarefas específicas e controladas. A IA Claude é mais frequentemente implantada em fluxos de trabalho complexos de engenharia com múltiplos passos — exatamente o contexto em que a limitação de desempenho, as mudanças comportamentais decorrentes de atualizações do modelo e a sensibilidade aos prompts são mais visíveis.
Vários fatores estruturais podem estar a amplificar a perceção de declínio de qualidade para além de mudanças reais do modelo:
A Anthropic reconheceu ter dado passos para reduzir o uso durante as horas de pico para gerir capacidade e procura — uma limitação que os utilizadores podem sentir diretamente como qualidade degradada
O encerramento automático das questões do GitHub após inatividade pode estar a mascarar o verdadeiro volume de relatórios não resolvidos
Uma proporção crescente das questões do GitHub são, elas próprias, geradas por IA, uma preocupação amplamente notada no desenvolvimento open source
O diretor de IA da AMD, Stella Laurenzo, afirmou publicamente que as respostas do Claude têm piorado — um sinal externo credível, dado o contexto empresarial.
A Claude.ai e o Claude Code experienciaram uma grande falha em 13 de abril de 2026, das 15:31 às 16:19 UTC, com taxas de erro elevadas em ambos os produtos. Foi breve, mas a sua calendarização amplificou a insatisfação dos programadores que já se estava a acumular. As falhas de rotina tendem a cair de forma diferente quando os utilizadores já tinham registado preocupações de qualidade há semanas — estas parecem confirmar em vez de mera coincidência.
Provavelmente ambas — e é difícil separá-las. O volume de queixas no GitHub aumentou genuinamente 3,5× acima do patamar de referência de janeiro–fevereiro até março, e abril está em tendência ascendente. Mas os dados de benchmark da Margin Lab mostram a Opus 4.6 a manter a sua pontuação no SWE-Bench-Pro. A explicação mais defensável é que a limitação de capacidade durante as horas de pico e as atualizações do modelo de fevereiro degradaram a experiência real dos programadores de formas que avaliações estruturadas não captam.
As preocupações mais credíveis visam o Claude Code em tarefas complexas de engenharia com múltiplos passos — especificamente o comportamento pós-atualização de fevereiro. A questão #42796 foi tratada pelo chefe do Claude Code, Boris Cherny, confirmando que a Anthropic está a envolver-se ativamente com pelo menos algumas das regressões reportadas. As queixas sobre a limitação também são credíveis, dado que a Anthropic reconheceu publicamente passos de gestão de capacidade.
Não — e essa é a ironia central da história. A Claude AI consegue sintetizar padrões nos dados que lhe são apresentados, mas não consegue distinguir queixas válidas de ruído gerado por IA, avaliar os seus próprios erros de calibração, nem determinar se o volume de questões reflete uma degradação real ou artefactos estruturais na forma como as questões do GitHub são submetidas e encerradas. A autoavaliação é sugestiva, não autoritativa.