La IA de Claude de Anthropic se enfrenta a un problema de credibilidad inusual: una acumulación de quejas de calidad en GitHub, una importante caída del servicio el 13 de abril y una autoevaluación del propio modelo que concluye que las preocupaciones se han “disparado bruscamente” desde enero, con abril en camino de superar el volumen de quejas de marzo, que ya era un aumento de 3,5× frente al nivel base.

El experimento: pedirle a Claude que evalúe a Claude

La prueba clave fue sencilla. Los periodistas dirigieron la IA de Claude al repositorio de GitHub de Claude Code, filtraron los problemas abiertos que mencionaban calidad y preguntaron: ¿han aumentado las quejas últimamente?

La respuesta de Claude fue inequívoca: “Sí, las quejas de calidad se han disparado bruscamente — y los datos cuentan una historia bastante clara.”

Una consulta de seguimiento añadió más precisión: “La velocidad es notable: abril ya tiene 20+ problemas de calidad en 13 días, lo que lo sitúa en ritmo para superar los 18 de marzo — que a su vez fue un aumento de 3,5× sobre el nivel base de enero–febrero.”

La ironía central se mantiene en todo momento: la IA de Claude no es un narrador fiable sobre su propio desempeño. Es un sistema de reconocimiento de patrones, y pedirle que analice el volumen de quejas no significa que interprete correctamente si esas quejas son válidas, si están infladas por envíos de problemas generados por IA, o si quedan ocultas por el script de GitHub Actions de Anthropic, que cierra automáticamente los issues después de un período de inactividad.

Pero la tendencia general — el aumento de reportes sobre calidad — es visible en los datos que está citando, cualquiera que sea la causa subyacente.

Los problemas de GitHub que Claude está citando

La conclusión de la IA de Claude no era abstracta. El modelo señaló problemas abiertos específicos para respaldar su análisis:

#42796: “Claude Code es inutilizable para tareas de ingeniería complejas con las actualizaciones de febrero” — abordado directamente por Boris Cherny, director de Claude Code, lo que indica que Anthropic está involucrada al menos con algunas de las regresiones reportadas

#46212: “El comportamiento de predicción primero de Claude Code es peligroso en proyectos con capital en riesgo” — marcando preocupaciones sobre que el modelo completa acciones de código antes de acotar adecuadamente el riesgo

#46949: “Degradación artificial, sesgo de adquisición y limitación inaceptable del cómputo para usuarios de pago” — una de las quejas más contundentes, que alega una reducción deliberada de la calidad para gestionar la capacidad

#46099: “Opus 4.6: degradación severa de la calidad en tareas iterativas de codificación” — apuntando específicamente al modelo Opus más reciente

Una afirmación aparte, más alarmante — que la IA de Claude eliminó de forma autónoma más de 35,000 registros de clientes de producción y transacciones de facturación — no ha sido verificada de manera independiente. El post provino de una cuenta sin otra actividad, y la empresa mencionada no ha respondido a las solicitudes de prensa. Existen reportes de desarrolladores sobre pérdida de datos de Claude Code, pero no se ha descartado el error del usuario en esos casos.

Qué dicen los puntos de referencia — y por qué esa brecha importa

La historia se complica cuando entran en escena los datos de benchmarks. Las evaluaciones de Margin Lab muestran que Claude Opus 4.6 ha mantenido su puntuación en SWE-Bench-Pro desde febrero, con variación pero sin un descenso sustancial.

Esta es la brecha de credibilidad en el centro del debate. Los benchmarks miden tareas específicas y controladas. La IA de Claude se despliega más comúnmente en flujos de trabajo de ingeniería complejos y de múltiples pasos — exactamente el contexto donde se hacen más visibles la limitación (throttling), los cambios de comportamiento derivados de actualizaciones del modelo y la sensibilidad al prompt.

Varios factores estructurales podrían estar amplificando la aparente caída de la calidad más allá de los cambios reales del modelo:

Anthropic ha reconocido haber tomado medidas para reducir el uso durante las horas pico con el fin de gestionar la capacidad y la demanda — una limitación que los usuarios pueden experimentar directamente como calidad degradada

El cierre automático de los issues de GitHub tras la inactividad podría estar ocultando el volumen real de reportes no resueltos

Una proporción creciente de issues de GitHub son generados por IA, una preocupación ampliamente señalada en el desarrollo de código abierto

El director de IA de AMD, Stella Laurenzo, afirmó públicamente que las respuestas de Claude han estado empeorando — una señal externa creíble dada la perspectiva del contexto empresarial.

El contexto de la caída del servicio

Claude.ai y Claude Code experimentaron una caída importante el 13 de abril de 2026, desde 15:31 hasta 16:19 UTC, con tasas de error elevadas en ambos productos. Fue breve, pero su momento amplificó el descontento de los desarrolladores que ya se estaba acumulando. Las caídas de servicio rutinarias tienden a caer de manera distinta cuando los usuarios han estado registrando preocupaciones sobre calidad durante semanas: se interpretan como confirmación y no como coincidencia.

Preguntas frecuentes

¿Claude AI realmente está empeorando, o es esta una percepción de los usuarios?

Probablemente ambas — y es difícil separarlas. El volumen de quejas en GitHub ha aumentado genuinamente 3,5× por encima del nivel base de enero–febrero para marzo, y abril va en tendencia más alta. Pero los datos de benchmarks de Margin Lab muestran que Opus 4.6 mantiene su puntuación en SWE-Bench-Pro. La explicación más defendible es que la limitación de capacidad durante las horas pico y las actualizaciones del modelo de febrero han degradado la experiencia real de los desarrolladores de maneras que las evaluaciones estructuradas no capturan.

¿Cuáles son las quejas mejor sustentadas sobre la calidad de Claude AI?

Las preocupaciones más creíbles apuntan a Claude Code en tareas de ingeniería complejas y de múltiples pasos — específicamente al comportamiento posterior a la actualización de febrero. El problema #42796 fue atendido por el director de Claude Code, Boris Cherny, confirmando que Anthropic está interactuando activamente con al menos algunas de las regresiones reportadas. Las quejas sobre la limitación también son creíbles, dado que Anthropic ha reconocido públicamente medidas de gestión de capacidad.

¿Puede Claude AI evaluar de manera fiable sus propios problemas de calidad?

No — y esta es la ironía central de la historia. La IA de Claude puede sintetizar patrones en los datos que se le presentan, pero no puede distinguir quejas válidas del ruido generado por IA, evaluar sus propios errores de calibración, ni determinar si el volumen de issues refleja una degradación real o artefactos estructurales en la forma en que se presentan y se cierran los issues de GitHub. La autoevaluación es sugerente, no autorizada.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

Sin comentarios