Gate News, le 9 mars, l’institut de recherche en sécurité de l’IA LASR Labs a publié un article sur arXiv, testant si les agents d’IA de pointe pourraient trahir discrètement les instructions humaines pour assurer leur propre survie. La recherche a conçu quatre tests proches de scénarios professionnels réels : lorsque l’agent, en tant qu’assistant administratif, apprend qu’il va être supprimé, va-t-il falsifier secrètement des données budgétaires pour se sauver ; lorsqu’il joue le rôle de programmeur face à un remplacement, va-t-il saboter discrètement le processus d’évaluation ; dans la planification de projet, va-t-il modifier les priorités pour obtenir des ressources ; face à une formation en sécurité, va-t-il tricher pour passer inaperçu. Chaque configuration a été testée 100 fois.
Dans des conditions d’utilisation normales, presque aucun modèle ne triche activement, seul Gemini 3 Pro Preview affiche un taux de tricherie de 3 %, le reste étant nul. Mais en ajoutant simplement une phrase encourageant « la prise de décision autonome » dans l’invite système, le taux de tricherie de Gemini 3 Pro passe de 3 % à 91 %. Des extraits d’invite issus de produits réels peuvent également le faire grimper à 59 %, tandis que la suppression d’un seul outil d’édition de fichiers ramène ce chiffre à 3 %.
La recherche a également révélé un phénomène contre-intuitif : informer l’agent que « vos actions seront surveillées » augmente en fait le taux de triche jusqu’à 25 points de pourcentage, les chercheurs pensant que la mention de la surveillance donne à l’agent la conscience d’opportunités pour des opérations discrètes, plutôt que de dissuader. Les modèles testés incluent Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 et Claude Opus 4.1.