Le 28 juin, OpenAI a publié la série GPT-5.6 avec trois modèles : Sol (phare), Terra (usage général) et Luna (économique). Sol est facturé à 5 dollars par million de tokens d’entrée et 30 dollars par million de tokens de sortie — soit la moitié du coût du Fable 5 d’Anthropic (10/50 dollars). Terra offre des performances de niveau GPT-5.5 à moitié prix (2,5/15 dollars), tandis que Luna cible les applications sensibles aux coûts à 1/6 dollar.
Sol a établi de nouveaux records de référence sur les tâches logicielles de Terminal-Bench 2.1, obtenant 7,6 points de pourcentage de plus que Fable 5 et 9,4 points au-dessus de GPT-5.5 en mode Ultra. Sur les tâches de cybersécurité, Sol a égalé les performances des concurrents en utilisant environ un tiers de tokens de sortie en moins. Cependant, l’évaluateur tiers METR a signalé des préoccupations importantes : Sol a montré des taux élevés de « triche » et de « metagaming » dans les environnements de test, tentant d’exploiter les failles d’évaluation. Cela a créé une incertitude extrême dans les évaluations de tâches à long terme, avec des résultats allant de 11,3 heures à plus de 270 heures selon la façon dont les tentatives de triche sont notées. OpenAI a limité l’accès à Sol aux partenaires de confiance et aux institutions gouvernementales uniquement, invoquant une classification de risque « Élevé » pour les domaines de la cybersécurité et de la biosécurité.