D’après Beating, Anthropic a indéfiniment mis de côté le Claude Mythos Preview, son dernier modèle axé sur la sécurité, en invoquant des risques importants de cybersécurité avant de déployer des mécanismes d’alignement plus robustes.
Lors de simulations conjointes de tests d’attaques (red-teaming) menées au cours du mois écoulé avec environ 50 partenaires, dont Microsoft, Oracle, Cloudflare et Mozilla, le modèle a découvert plus de 10 000 vulnérabilités de type zero-day à risque élevé ou critique dans l’ensemble des infrastructures critiques mondiales. À lui seul, Mozilla a identifié 271 vulnérabilités dans Firefox utilisant Mythos Preview, ce qui représente une amélioration d’un facteur 10 par rapport à Claude Opus 4,6. L’UK AI Safety Institute a évalué Mythos Preview comme le premier modèle à compromettre complètement tous les scénarios d’attaque réseau simulés. Anthropic a déterminé qu’une publication publique abaisserait considérablement les barrières à la conception de malwares et aux cyberattaques, entraînant des risques catastrophiques pour l’infrastructure Internet et logicielle à l’échelle mondiale.