
OpenAI a publié GPT-5.3-Codex, le premier modèle qui « participe à sa création » pour déboguer son propre code, gérer le déploiement et diagnostiquer les tests. Karpathy a qualifié la révision de « la plus proche de la scène de décollage de l’IA ».
Compte officiel d’OpenAI publié : GPT-5.3-Codex est officiellement lancé, qui est « le premier à participer à la création de son propre modèle ». Qu’est-ce que cela signifie ? En d’autres termes, pendant le processus de développement, cette IA a aidé à déboguer son propre code d’entraînement, à gérer son propre déploiement et à diagnostiquer ses propres résultats de tests. En termes humains, l’IA a commencé à créer l’IA.
Andrej Karpathy, ancien chercheur chez OpenAI et directeur de Tesla AI, a tweeté juste après l’avoir lu : « C’est la scène la plus proche que j’aie jamais vue d’une scène de décollage d’IA dans la science-fiction. » Cette évaluation des meilleurs chercheurs en IA est importante car Karpathy a personnellement vécu plusieurs étapes clés du développement de l’IA, et son jugement repose sur une compréhension technique approfondie.
L’IA se propage elle-même, ce n’est pas de la rhétorique marketing. Selon la divulgation interne d’OpenAI, GPT-5.3-Codex a fait ces choses pendant le processus de développement : analyser des tests qui ne signalaient pas les journaux d’entraînement, suggérer des correctifs pour les scripts et profils d’entraînement, générer des recettes de déploiement, et résumer et évaluer les anomalies pour une révision humaine. Qu’est-ce que cela signifie ? L’IA n’est plus seulement un outil, elle commence à faire partie de l’équipe de développement, et c’est le genre qui peut s’améliorer.
Cette capacité à participer au développement dépasse le positionnement traditionnel de l’IA. Par le passé, les modèles d’IA étaient entièrement conçus, entraînés et déployés par des humains, et l’IA était un produit passif. Aujourd’hui, GPT-5.3 a joué un rôle actif dans sa propre naissance, et bien qu’il soit encore sous supervision humaine, ce changement de rôle a des implications considérables. Cela suggère une possibilité : les futurs modèles d’IA pourraient être largement conçus et optimisés par l’IA elle-même, les humains ne fournissant que direction et examen final.
Analyser les journaux d’entraînement: Signale automatiquement les tests échoués pour identifier les anomalies pendant l’entraînement
Plan de réparation recommandé: Suggérer des améliorations des scripts et profils d’entraînement
Générer la recette de déploiement: Automatiser le processus de déploiement et réduire les opérations manuelles
Anomalie d’évaluation sommaire: Organiser les résultats d’évaluations complexes en rapports compréhensibles pour l’humain
Un article récent sur SEAL publié par le MIT (arXiv :2506.10943) décrit une architecture d’IA qui apprend continuellement après le déploiement, évoluant elle-même sans réentraînement. Notamment, certains chercheurs SEAL ont désormais rejoint OpenAI. Cela signifie que l’IA est passée d’un « outil statique » à un « système dynamique », que l’apprentissage ne s’arrête plus au déploiement, et que les frontières de l’inférence et de l’entraînement fondent. GPT-5.3 pourrait être la première application commerciale de cette nouvelle architecture.
Le 5 février, OpenAI et Anthropic ont tous deux publié une nouvelle génération de modèles à seulement 20 minutes d’intervalle. D’abord, Anthropic a publié Claude Opus 4.6, puis OpenAI a lancé GPT-5.3-Codex. Puisqu’OpenAI veut utiliser GPT-5.3-Codex pour éliminer les nouveaux modèles d’autres personnes, elle doit avoir une certaine capacité. Les données ne mentent pas, GPT-5.3-Codex a établi de nouveaux records dans plusieurs benchmarks industriels dès son lancement.
Terminal-Bench 2.0 teste les capacités opérationnelles de l’IA dans un environnement terminal réel, compilant du code, entraînant des modèles et configurant des serveurs. GPT-5.3-Codex a obtenu 77,3 %, GPT-5.2-Codex n’a obtenu que 64,0 % et Claude Opus 4,6 a rapporté 65,4 %. C’est une augmentation de 13 points de pourcentage entre les générations, ce qui constitue déjà un bond en avant considérable dans le domaine de l’IA. La comparaison entre 77,3 % et 65,4 % montre que GPT-5.3 établit un avantage significatif dans les tâches d’ingénierie réelles.
SWE-Bench Pro est un benchmark spécifiquement conçu pour tester les capacités réelles d’ingénierie logicielle, couvrant quatre langages de programmation : Python, JavaScript, Go et Ruby. GPT-5.3-Codex a obtenu 56,8 %, dépassant les 56,4 % de son prédécesseur, GPT-5.2-Codex, et a continué à conserver sa première place dans l’industrie. Plus important encore, OpenAI a révélé que GPT-5.3-Codex utilise le plus petit nombre de jetons de sortie de tous les modèles lorsqu’il atteint ce score, ce qui signifie qu’il est non seulement précis mais aussi efficace.
OSWorld-Verified teste la capacité de l’IA à accomplir des tâches de productivité dans un environnement de bureau visuel, en éditant des tableurs, créant des présentations, travaillant sur des documents, et plus encore. GPT-5.3-Codex a obtenu un score de 64,7 %, contre une moyenne humaine de 72 %. Cela signifie qu’elle a atteint la performance des gens ordinaires dans les tâches informatiques, presque doublant par rapport à son prédécesseur. Cette performance quasi humaine rend l’IA véritablement capable de travailler de bureau pour la première fois, plutôt qu’un simple outil auxiliaire.
Ce qui est encore plus notable, c’est que Claude Opus 4.6 prend en charge pour la première fois une fenêtre de contexte de 100 000 jetons (bêta) dans le modèle Opus, qui peut traiter toute la base de code ou des centaines de pages de documents en même temps, et a lancé la fonction Agent Teams, où plusieurs agents IA peuvent collaborer simultanément à la programmation, aux tests et à la rédaction de documents.
Lorsque OpenAI et Anthropic lancent leurs modèles phares le même jour et au même moment, cette compétition n’est plus seulement une compétition technique, mais une bataille sur la future forme de l’IA : la voie « auto-évolution » d’OpenAI ou la voie de la « collaboration multi-agents » d’Anthropic ? La stratégie d’OpenAI est de rendre une IA unique plus puissante et même de s’améliorer. La stratégie d’Anthropic est de permettre à plusieurs IA de collaborer sur des tâches complexes par la division du travail et la collaboration.
Le contexte des jetons à 100 000 est une avancée technologique. Cela équivaut à environ 75 millions de mots anglais ou 300 caractères chinois, ce qui suffit à tenir l’intégralité du code d’un projet logiciel de taille moyenne ou à une documentation technique épaisse. Cette capacité permet à Claude de « voir » l’ensemble du projet plutôt qu’une compréhension fragmentaire. Pour l’analyse architecturale et la refactorisation de projets à grande échelle, cette vision globale est cruciale.
Agent Teams apporte le concept de collaboration à l’IA. Un agent écrit du code, un autre teste et un troisième écrit de la documentation, et ils peuvent communiquer et se coordonner entre eux. Ce schéma imite le fonctionnement des équipes logicielles humaines et peut être mieux adapté à certains scénarios qu’une seule super IA. Cependant, la collaboration multi-agents introduit également de nouvelles complexités : comment coordonner, comment éviter les conflits et comment assurer la cohérence.
Les deux voies ont leurs avantages et leurs inconvénients. La voie d’auto-évolution d’OpenAI est plus agressive et, si elle réussit, elle peut entraîner des améliorations exponentielles des capacités, mais elle pourrait aussi déraper. La voie multi-agents d’Anthropic est plus conservatrice, réduisant le point de risque unique en répartissant les capacités, mais les coûts de coordination peuvent limiter l’efficacité. À mesure que l’IA commence à évoluer dans la nature, les questions de gouvernance passeront de « quelle intelligence est-elle » à « comment gérer un système en constante évolution ? » Et lorsque deux grandes entreprises d’IA publient des modèles révolutionnaires consécutifs en moins de 20 minutes, la fenêtre temporelle restante pour la réflexion et la préparation humaine se réduit à une vitesse visible à l’œil nu.
Articles similaires
Le Dow Jones a atteint un nouveau sommet historique en cours de séance, culminant à 50 471,58 points
Ouverture du marché américain, le Dow Jones augmente de 0,11 %, le S&P 500 progresse de 0,13 %
Arbitrum étend la pile RWA institutionnelle alors qu'Arowana lance de l'or tokenisé
L'indice du dollar américain DXY baisse à court terme, actuellement à 96,78
Goldman Sachs avertit une pression à la vente sur les actions américaines, quelle sera la tendance du prix du BTC ?
La stratégie du trésor de Solana est-elle défaillante ? Les sociétés cotées en bourse aux États-Unis détiennent une perte latente de plus de 1,5 milliard de dollars en SOL