OpenAI dévoile le protocole de réseau supercalculateur MRC ! En partenariat avec Nvidia, AMD et Microsoft pour créer l’infrastructure de Stargate

OpenAI annonce le lancement d’un tout nouveau protocole de réseau pour superordinateur d’IA, MRC (Multipath Reliable Connection), et l’a déjà publié en open source via le Open Compute Project (OCP). Cette technologie a été développée conjointement par OpenAI et des acteurs comme AMD, Microsoft, NVIDIA, Intel, Broadcom, etc., avec pour objectif de résoudre le goulot d’étranglement des transmissions de données entre GPU dans les clusters d’entraînement d’IA à très grande échelle.

Le vrai goulot d’étranglement de l’entraînement IA : comment les GPU communiquent entre eux

OpenAI indique que, avec le nombre d’utilisateurs hebdomadaires de ChatGPT dépassant 900 millions, les systèmes d’IA deviennent progressivement un service de niveau infrastructure. Pour soutenir les besoins d’entraînement et d’inférence des modèles de prochaine génération, OpenAI estime qu’il ne suffit pas de faire évoluer uniquement les modèles : l’architecture réseau doit elle aussi être repensée.

Dans un article technique, OpenAI souligne qu’au cours de l’entraînement de grands modèles d’IA, une seule étape d’entraînement peut impliquer des échanges de données entre GPU à des millions de fois. Tant qu’une seule transmission présente une latence, tout l’entraînement peut se retrouver bloqué en synchronisation, entraînant un grand nombre de GPU inutilisés.

Et à mesure que l’échelle des superordinateurs d’IA s’accroît, des problèmes comme la congestion réseau, la panne des commutateurs, ou encore le jitter (variation de latence) se multiplient rapidement. OpenAI considère que c’est aussi l’un des défis techniques les plus centraux du projet de superordinateur Stargate.

Dans le passé, la majorité des architectures réseau des centres de données utilisaient une transmission à chemin unique (single-path). Mais la plus grande différence du MRC, c’est qu’il permet de répartir simultanément une même donnée sur plusieurs centaines de chemins de transmission.

Qu’est-ce que le MRC ? OpenAI : rendre le réseau d’IA capable d’éviter automatiquement les obstacles

D’après OpenAI et AMD, l’idée centrale du MRC est :

Diviser les données, puis les faire emprunter simultanément plusieurs chemins

Contourner automatiquement les pannes à l’échelle de la microseconde

Réduire la latence causée par la congestion réseau

Permettre aux GPU de rester synchronisés et de fonctionner en continu

AMD décrit que les réseaux d’IA traditionnels ressemblent à des autoroutes où l’on emprunte une seule voie à très grande vitesse : dès que les routes se chargent ou qu’il y a un accident, l’ensemble du calendrier est affecté. Le MRC, lui, ressemble à un système de transport intelligent doté d’une capacité de changement d’itinéraire en temps réel. AMD va même jusqu’à affirmer : « La vraie limite quand on met l’IA à l’échelle n’est plus le GPU et le CPU, mais le réseau. »

Pourquoi OpenAI a-t-il besoin de concevoir lui-même un protocole réseau ?

Le signal lancé par OpenAI est très clair : la compétition en IA ne concerne plus seulement les modèles, mais l’ensemble de la compétition autour des « infrastructures de superordinateur ». Dans son article, OpenAI mentionne qu’avant l’arrivée de Stargate, eux et leurs partenaires avaient ensemble assuré la maintenance de trois générations de superordinateurs d’IA. Ces expériences amènent OpenAI à conclure que pour exploiter efficacement la puissance de calcul à l’échelle de Stargate, l’ensemble de la pile technique doit réduire fortement sa complexité. Cela inclut aussi la couche réseau.

Autrement dit, dans la compétition des Frontier Models à venir, ce ne sera plus seulement une question de qui dispose du modèle le plus performant, mais de qui parvient à faire fonctionner de manière plus efficace des dizaines de milliers, voire des millions de GPU en synchronisation.

Derrière le MRC, il y a Stargate : le projet « manhattan » d’OpenAI

Le contexte du MRC est en fait celui de Stargate LLC. Stargate est un projet de grande infrastructure d’IA porté par OpenAI, SoftBank Group, Oracle Corporation et MGX. L’objectif initial était d’investir jusqu’à 500 milliards de dollars dans des infrastructures d’IA aux États-Unis. OpenAI indique qu’ils ont déjà dépassé l’objectif intermédiaire initial de 10GW, et qu’au cours des 90 derniers jours, plus de 3GW de capacité d’infrastructures d’IA ont été ajoutés.

Le superordinateur Stargate situé à Abilene, au Texas, fait justement partie des principaux sites de déploiement du MRC. OpenAI précise que le MRC a été intégré à la dernière interface réseau de 800Gb/s et qu’il est en fonctionnement dans des entraînements réels à grande échelle.

Cet article « OpenAI publie le protocole réseau pour superordinateur MRC ! En collaboration avec NVIDIA, AMD et Microsoft pour bâtir l’infrastructure Stargate » est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

xAI d’Elon Musk va se renommer SpaceXAI alors que son statut de société indépendante prend fin

D’après Odaily, Elon Musk a annoncé que xAI sera rebaptisée SpaceXAI, car l’entreprise ne fonctionnera plus comme une entité indépendante.

GateNewsIl y a 3m

IBM élargit sa suite d’IA d’entreprise avec de nouveaux outils basés sur des agents à Think 2026

Selon IBM, l’entreprise a annoncé une expansion de ses capacités d’IA d’entreprise lors de la conférence Think 2026 à Boston, en déployant de nouveaux outils basés sur des agents pour aider les organisations à intégrer l’intelligence artificielle dans leurs opérations quotidiennes. Context Studio, désormais généralement disponible, permet aux entreprises de

GateNewsIl y a 11m

Les actions de Hut 8 bondissent de 30 % sur un bail de centre de données d’IA de 9,8 milliards de dollars

Les actions de Hut 8 ont bondi de plus de 30 % après l’annonce d’un accord de location de centre de données d’IA d’une valeur de 9,8 milliards de dollars. Le mineur de Bitcoin se développe dans les infrastructures d’IA avec un contrat hyperscale de long terme situé au Texas. Expansion des infrastructures d’IA Le contrat inclut des options qui pourraient augmenter le total

CryptoFrontierIl y a 24m

Anthropic dévoile Claude Dreams : l’agent s’organise et gère sa mémoire entre les tâches, élimine les doublons et les contradictions

Anthropic a annoncé Dreams lors de la conférence Code with Claude : Claude Managed Agents peut automatiquement organiser la mémoire entre plusieurs sessions, éliminer les doublons et les contradictions, et mettre à jour les entrées obsolètes, pour produire une base de mémoire finalisée et vérifiable ; la limite d’entrée est de 100 sessions et de 4 096 caractères, exécution asynchrone, finalisation en quelques minutes à quelques dizaines de minutes, prise en charge de l’observation en streaming. L’aperçu de la recherche doit être demandé : pour l’instant, seuls claude-opus-4-7 et claude-sonnet-4-6 sont pris en charge, lancement officiel non déterminé.

ChainNewsAbmediaIl y a 3h

Anthropic contre SpaceX en puissance de calcul : acquisition de l’ensemble du cluster Colossus 1 avec 220 000 GPU, et Claude lève ses limites de débit

Anthropic annonce avoir conclu avec SpaceX un partenariat de puissance de calcul pour le centre de données Colossus 1, qui mobilisera plus de 220 000 GPU Nvidia, plus de 300 MW de capacité. Le déploiement complet devrait être achevé sous un mois afin d’être mis à disposition d’Anthropic, afin d’améliorer les performances et l’expérience de Claude et Code. En parallèle, la limite de consommation par tranche de 5 heures est assouplie pour Pro / Max / Team / Enterprise, les plafonds en période de pointe sont supprimés, et le taux de l’API Opus est augmenté. Les infrastructures en Asie et en Europe s’étendent simultanément ; à l’avenir, d’autres intentions existent, comme des « calculs d’IA en orbite », mais aucun accord n’a encore été conclu.

ChainNewsAbmediaIl y a 3h
Commentaire
0/400
Aucun commentaire