DeepSeek publie la série de modèles open-source V4 avec 1,6T de paramètres et une licence MIT

Message d’actualité de Gate, 24 avril — DeepSeek a publié la série V4 de modèles open-source sous la licence MIT, avec des poids désormais disponibles sur Hugging Face et ModelScope. La série comprend deux modèles (MoE) de type mixture-of-experts : V4-Pro avec 1,6 billion de paramètres au total et 49 milliards activés par jeton, et V4-Flash avec 284 milliards de paramètres au total et 13 milliards activés par jeton. Les deux prennent en charge une fenêtre de contexte d’1 million de jetons.

L’architecture présente trois mises à niveau clés : un mécanisme d’attention hybride combinant l’attention clairsemée compressée (CSA) et l’attention fortement compressée (HCA) qui réduit considérablement la surcharge pour les longs contextes — pour V4-Pro, les FLOPs d’inférence pour un contexte de 1M ne sont que 27 % de ceux de V3.2, et le cache KV (VRAM destiné au stockage d’informations historiques pendant l’inférence) n’est que 10 % de celui de V3.2 ; des hyperconnexions à contraintes de manifold (mHC) remplaçant les connexions résiduelles traditionnelles afin d’améliorer la stabilité de la propagation du signal entre les couches ; et l’optimiseur Muon pour une convergence d’entraînement plus rapide. Le préentraînement a utilisé plus de 32 trillions de jetons de données.

Le post-entraînement emploie une approche en deux étapes : d’abord entraîner des experts spécifiques au domaine via un fine-tuning supervisé (SFT) et l’apprentissage par renforcement GRPO, puis les fusionner en un seul modèle grâce à une distillation en ligne. V4-Pro-Max (plus haut mode d’inférence) affirme être le modèle open-source le plus puissant, avec des benchmarks de codage de premier plan et des écarts nettement réduits par rapport aux modèles de pointe propriétaires sur les tâches de raisonnement et d’agents. V4-Flash-Max atteint des performances de raisonnement de niveau Pro avec un budget de calcul suffisant, mais est limité par l’échelle des paramètres sur les tâches de connaissance pure et les tâches d’agents complexes. Les poids sont stockés dans une précision mixte FP4+FP8.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Kaelan, cofondateur de NeoSoul : l’industrie de l’IA devrait permettre l’existence de jouets, l’innovation commence souvent comme des produits expérimentaux

Message de Gate News, 24 avril — Lors d’un récent forum à Hong Kong sur la finance intelligente chiffrée, Kaelan, cofondateur de NeoSoul, a partagé des informations sur l’évaluation de projets d’IA dans une industrie de l’IA en début de stade et en évolution rapide. Au-delà de l’évaluation des produits actuels, les équipes doivent démontrer leur capacité à suivre l’évolution des capacités du modèle sous-jacent, a-t-il déclaré. Kaelan a souligné que l’entrepreneuriat en IA exige à la fois de l’ancrage et de la vision : l’ancrage signifie disposer de compétences en mise en œuvre d’ingénierie, en conception de produit et en compréhension du marché pour livrer des produits tangibles ; la vision signifie construire en alignement avec les tendances d’évolution des grands modèles de langage.

GateNewsIl y a 23m

Meta et Amazon s’entendent sur un accord de plusieurs milliards de dollars pour fournir des puces Graviton au développement de l’IA

Message de Gate News, 24 avril — Meta Platforms et Amazon Web Services (AWS) ont conclu un accord de plusieurs milliards de dollars pour soutenir les initiatives d’intelligence artificielle de Meta au cours des prochaines années, selon le Wall Street Journal. Aux termes de l’accord, Meta utilisera des dizaines de millions de cœurs de puces AWS Graviton pour alimenter ses agents d’IA et d’autres projets d’IA.

GateNewsIl y a 35m

DeepSeek V4-Flash arrive sur Ollama Cloud, hôtes américains : Claude Code, OpenClaw connexion en un clic

Ollama Cloud a mis en ligne DeepSeek V4-Flash, avec l'inférence sur des serveurs aux États-Unis, et propose trois ensembles de commandes en un clic pour se connecter à Claude Code, OpenClaw et Hermes. V4-Flash/V4-Pro utilisent une architecture MoE, avec une prise en charge native du contexte 1M, et réduisent les coûts grâce à une compression Token-wise + une attention clairsemée DSA ; dans un scénario de 1M, les FLOPs par token diminuent de 27 % et le cache KV baisse de 10 %. L'API est compatible avec OpenAI ChatCompletions et Anthropic, ce qui facilite le basculement entre plusieurs flux de travail, réduit les coûts et les risques liés à la souveraineté des données.

ChainNewsAbmediaIl y a 2h

Infrastructure Web3 pour l’IA : AIW3 lève $2M en financement de démarrage, menée par Buffalo Capital

Message de Gate News, 24 avril — La plateforme d’infrastructure Web3 pour l’IA, AIW3, a annoncé l’achèvement d’un tour de financement de démarrage de $2 millions. Le tour a été mené par Buffalo Capital, avec GalaXin Capital et Three-stones Ventures participant en tant qu’investisseurs co-investisseurs. AIW3 passe vers un paradigme d’exécution on-chain Agent-as-a-Service

GateNewsIl y a 2h

Cohere acquiert la société allemande d’IA Aleph Alpha et obtient $600M investissement pour son expansion en Europe

Message de Gate News, 24 avril — La société canadienne d’intelligence artificielle Cohere a annoncé son projet d’acquérir la société allemande d’IA Aleph Alpha afin de renforcer sa présence en Europe. Le groupe Schwarz, qui soutient Aleph Alpha, prévoit d’investir $600 million dans le tour de financement Série E de Cohere. Le tour de financement devrait se clôturer en 202

GateNewsIl y a 3h

Xpeng et Xiaomi mènent la poussée d’IA embarquée au Salon de l’automobile de Pékin

Message de Gate News, 24 avril — Les constructeurs automobiles chinois ont présenté, au Salon de l’automobile de Pékin le 24 avril, des systèmes d’IA embarquée avancés, alors que le pays accélère sa stratégie AI Plus et cherche à accroître son indépendance vis-à-vis des semi-conducteurs étrangers. Xpeng a démontré un stationnement contrôlé par la voix qui permet aux conducteurs de «

GateNewsIl y a 3h
Commentaire
0/400
Aucun commentaire