Six percées de l'IA qui ont façonné 2025 : ce qu'Andrej Karpathy a bien compris

2026-01-21 12:08:16

Etrej Karpathy, l’un des chercheurs en IA les plus influents au monde, a partagé sa vision personnelle des changements transformationnels qui façonnent l’intelligence artificielle en 2025. Ses observations éclairent non seulement ce qui s’est passé l’année dernière, mais aussi la direction que toute l’industrie prend. Entre les avancées en apprentissage par renforcement, de nouveaux paradigmes d’application et des changements fondamentaux dans la façon dont les humains interagissent avec l’IA, le paysage a évolué plus rapidement que la plupart ne l’avaient prévu.

RLVR : La nouvelle fondation qui remplace l’apprentissage supervisé

Le manuel de formation en IA a entamé un nouveau chapitre lorsque l’apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) est passé du stade expérimental à celui de la norme. Selon l’analyse d’Andrej Karpathy, ce changement a fondamentalement modifié l’apparence des modèles linguistiques de qualité production.

Pendant des années, le processus standard ressemblait à ceci : pré-entraînement → ajustement supervisé → apprentissage par renforcement à partir du feedback humain (RLHF). Il était stable, éprouvé, et est devenu l’épine dorsale des grands laboratoires d’IA. Mais quelque chose a changé en 2025.

RLVR bouleverse la donne en entraînant des modèles dans des environnements avec des signaux de récompense vérifiables automatiquement—pensez à des problèmes mathématiques avec des réponses définitives ou à des défis de codage où le code fonctionne ou ne fonctionne pas. Plutôt que de s’appuyer sur le jugement humain, ces mécanismes de feedback objectifs permettent aux modèles de développer quelque chose qui ressemble à un raisonnement authentique. Ils apprennent à décomposer les problèmes en étapes intermédiaires et découvrent plusieurs voies de solution par raffinements itératifs.

DeepSeek-R1 a démontré ce principe en premier, mais o1 (fin 2024) et o3 (début 2025) d’OpenAI ont prouvé que c’était scalable. Comme l’a noté Andrej Karpathy, ce qui l’a le plus surpris n’était pas simplement l’augmentation des performances—c’était le changement massif en termes de calcul. RLVR consomme beaucoup plus de ressources que l’ajustement fin traditionnel, redirigeant essentiellement des ressources initialement destinées au pré-entraînement. Cela signifiait que les gains de capacité en 2025 ne provenaient pas de modèles plus grands, mais de modèles plus intelligents, avec des phases d’optimisation considérablement prolongées.

Une autre avancée : cette nouvelle approche a ouvert une toute nouvelle dimension de mise à l’échelle—la capacité à moduler la capacité du modèle au moment du test en étendant les trajectoires d’inférence et en permettant plus de « temps de réflexion ». Cela découple la montée en capacité du modèle de sa taille, d’une manière auparavant impossible.

Intelligence fantôme vs Performance en dents de scie

Andrej Karpathy a introduit un concept qui a redéfini la façon dont l’industrie pense la cognition de l’IA : nous ne faisons pas évoluer des animaux, nous invoquons des fantômes.

Tout l’appareil de formation diffère fondamentalement—architecture neuronale, données, algorithmes, et surtout, objectifs d’optimisation. Il n’est donc pas surprenant que les grands modèles de langage présentent une intelligence radicalement différente du cerveau biologique. Les comparer à des animaux ou à une intelligence biologique passe complètement à côté du sujet.

Les réseaux neuronaux humains ont été façonnés par la survie dans des écosystèmes tribaux. Les modèles d’IA ont été conçus pour imiter du texte, résoudre des énigmes mathématiques, et obtenir l’approbation humaine dans des benchmarks compétitifs. Lorsqu’on optimise pour des objectifs aussi différents, on obtient des résultats aussi divergents.

Cela conduit à une caractéristique de performance particulière : des courbes de capacité en dents de scie. Les modèles peuvent afficher un savoir encyclopédique à un moment donné et un raisonnement élémentaire confus le suivant. Ils excellent dans des domaines vérifiables et trébuchent dans des contextes ouverts. Ce paysage de capacités inégales n’est pas un bug—c’est une conséquence directe du régime d’entraînement lui-même.

Voici où le scepticisme d’Andrej Karpathy devient important : il a développé ce qu’il appelle « indifférence générale » envers les benchmarks en 2025. La raison est simple—les benchmarks sont des environnements vérifiables, ce qui en fait des cibles privilégiées pour le surapprentissage RLVR. Les équipes construisent inévitablement des espaces d’entraînement proches des embeddings de benchmark et les saturent de capacités étroites. « Entraîner sur l’ensemble de test » est devenu la norme dans l’industrie. Cibler tous les benchmarks ne signifie plus faire de véritables progrès vers une AGI authentique.

Cursor : l’émergence de la couche d’application

La croissance explosive de Cursor en 2025 a révélé quelque chose d’essentiel : il existe une toute nouvelle couche dans la pile des applications IA.

Selon Andrej Karpathy, Cursor fonctionne parce qu’il résout un problème vertical précis—la génération de code dans des flux de travail de développement réels—et non parce qu’il est un chatbot généraliste meilleur. L’architecture qui alimente des outils comme Cursor implique trois composants intégrés : l’ingénierie du contexte (extraction d’informations pertinentes), l’orchestration de multiples appels à des LLM dans des graphes acycliques dirigés de plus en plus complexes (équilibrant performance et coût), et des interfaces utilisateur spécifiques à l’application avec un contrôle humain dans la boucle.

Cela a lancé une discussion plus large : les plateformes de grands modèles de langage (comme l’API d’OpenAI) domineront-elles toute la couche d’application, ou des outils spécialisés prospéreront-ils ? La prévision d’Andrej Karpathy : les plateformes deviendront progressivement des « universités généralistes », produisant des résultats capables mais non spécialisés. La vraie valeur ira aux entreprises de la couche applicative qui prendront ces modèles performants, les ajusteront avec des données propriétaires, intégreront capteurs et actionneurs, et les transformeront en « équipes professionnelles » déployables dans des domaines verticaux spécifiques.

L’implication : Cursor n’est pas la fin en soi—c’est le modèle. Attendez-vous à ce que des dizaines d’outils spécifiques à un secteur suivent cette même stratégie.

Claude Code : des agents vivants localement

L’émergence de Claude Code a démontré quelque chose qui a attiré l’attention d’Andrej Karpathy : les agents IA efficaces n’ont pas nécessairement besoin de vivre dans le cloud.

La technologie fait tourner un cycle d’utilisation d’outils et de raisonnement en boucle, permettant une résolution de problèmes plus persistante et complexe que ce que permettent de simples interfaces de chat. Mais ce qui a vraiment impressionné Andrej Karpathy, c’est le choix architectural : Claude Code fonctionne directement sur l’ordinateur de l’utilisateur, profondément intégré dans les fichiers locaux, les environnements personnels, et les flux de travail individuels.

Cela représente une divergence délibérée par rapport à la stratégie d’OpenAI. OpenAI a investi massivement dans des agents basés dans le cloud orchestrés dans des environnements ChatGPT conteneurisés. Bien que cette approche promette la « forme ultime de l’AGI », nous sommes actuellement dans une phase de développement inégale avec des bénéfices non prouvés.

Déployer des agents localement—près des développeurs, étroitement intégrés à leur contexte de travail spécifique—s’est avéré plus rapide et plus pratique pour l’instant. Claude Code a parfaitement ciblé cette priorité, en la packant dans un outil en ligne de commande élégant qui redéfinit fondamentalement l’interface de l’IA. Ce n’est plus seulement un site web comme Google. C’est un petit sprite vivant dans votre ordinateur, collaborant directement avec votre flux de travail. C’est un paradigme complètement différent pour l’interaction humain-IA.

Vibe Coding : programmer sans coder

D’ici 2025, l’IA a franchi un seuil critique : vous pouvez décrire ce que vous voulez en anglais et voir un logiciel fonctionnel apparaître, sans avoir besoin de comprendre l’implémentation sous-jacente.

Andrej Karpathy a inventé le terme « Vibe Coding » de manière informelle dans une pensée en rafale sur Twitter, sans s’attendre à ce qu’il devienne une tendance dans l’industrie. Pourtant, il capture parfaitement ce qui s’est passé—la programmation est devenue accessible à tous, pas seulement aux professionnels formés.

Cela s’inscrit dans un schéma plus large qu’Andrej Karpathy a identifié : les gens ordinaires bénéficient plus des grands modèles de langage que les experts. Les professionnels disposaient déjà d’outils et de connaissances approfondies. Les gens ordinaires ne pouvaient rien construire. Maintenant, ils peuvent.

Mais Vibe Coding profite aussi aux professionnels—différemment. Il permet aux développeurs de mettre en œuvre des fonctionnalités « qui n’auraient jamais été écrites autrement », car soudainement, le code devient gratuit, éphémère, et jetable. Lors de la création de nanochat, Andrej Karpathy a utilisé Vibe Coding pour écrire des tokenizers BPE personnalisés et efficaces en Rust, sans étudier le langage ni s’appuyer sur des bibliothèques existantes. Il a prototypé des systèmes entiers uniquement pour tester leur faisabilité. Il a écrit des applications ponctuelles juste pour déboguer des vulnérabilités spécifiques.

Ce changement économique—où le coût de changement du code est nul—va remodeler l’écosystème du développement logiciel et redessiner durablement les frontières de carrière dans le domaine de la programmation.

Nano Banana : les LLMs ont enfin des interfaces utilisateur

La percée Gemini Nano de Google—que Andrej Karpathy appelle « Nano Banana»—représente l’un des changements de paradigme les plus disruptifs de 2025.

Andrej Karpathy le présente simplement : les grands modèles de langage représentent le prochain paradigme informatique majeur après l’ère du PC des années 1970-80. Nous devons donc attendre des innovations similaires pour des raisons similaires—parallèlement à l’évolution de l’informatique personnelle, des microcontrôleurs, et d’Internet lui-même.

L’interaction humain-ordinateur actuelle ressemble encore aux terminaux en ligne de commande des années 1980. Le texte domine, malgré sa simplicité primitive pour les ordinateurs et son inadéquation pour les humains. Les humains trouvent la lecture de texte lente et pénible. Ils préfèrent les canaux visuels et spatiaux—ce qui explique précisément pourquoi les interfaces graphiques ont transformé l’informatique personnelle il y a des décennies.

Le même principe s’applique à l’IA : les modèles devraient communiquer par des images, infographies, diapositives, tableaux blancs, vidéos, applications web—en gros, tout format que les humains préfèrent réellement. Les premières étapes sont apparues via la « décoration visuelle du texte » comme les emojis et le format Markdown. Mais qui construira finalement la couche d’interface graphique complète pour l’IA ?

Nano Banana est un prototype précoce de cet avenir. Sa percée dépasse la génération d’images. Ce qui la rend significative, c’est la capacité intégrée—génération de texte, génération d’images, et connaissance du monde incarnée, toutes tissées à travers les poids du modèle. Cette fusion crée un paradigme d’interface fondamentalement différent de celui des modèles uniquement textuels.

La convergence : la vision d’Andrej Karpathy pour ce qui vient ensuite

Ces six changements n’existent pas isolément. Les observations d’Andrej Karpathy révèlent une industrie en transition : du simple dimensionnement des modèles, vers des méthodes d’entraînement plus intelligentes et des applications spécialisées. De l’informatique dans le cloud, vers des agents déployés localement et intégrés aux flux de travail humains. D’interfaces centrées sur le texte, vers des communications visuelles et spatiales.

2025 a prouvé que l’intelligence artificielle ne s’est pas simplement améliorée de façon incrémentielle. Elle a fondamentalement réorganisé la façon dont elle s’entraîne, se déploie, et communique. La prochaine phase appartiendra à celui qui maîtrisera en premier ces nouveaux paradigmes.

SIX0,96%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.