
DeepSeek lanzó oficialmente el paquete en vista previa de V4 el 24 de abril, con código abierto bajo una licencia MIT; los pesos del modelo ya se han sincronizado y publicado en Hugging Face y ModelScope. Según el informe técnico de DeepSeek V4, V4-Pro-Max (modo de máxima potencia de razonamiento) obtuvo 3206 puntos en el benchmark de Codeforces, superando a GPT-5.4.
Según el informe técnico de DeepSeek V4, la serie V4 incluye dos modelos de Mixture of Experts (MoE):
V4-Pro: 1.6T de parámetros totales, 49B activados por token, admite un contexto de 1M tokens
V4-Flash: 284B de parámetros totales, 13B activados por token, también admite un contexto de 1M tokens
Según el informe técnico, en un contexto de 1M, los FLOPs de inferencia por token de V4-Pro son solo el 27% de los de V3.2; la caché KV baja al 10% de la de V3.2. Esto se debe principalmente a la actualización de la arquitectura de la atención mixta (CSA de atención dispersa comprimida + HCA de atención comprimida intensiva). El volumen de datos de preentrenamiento supera 32T tokens; la actualización del optimizador de entrenamiento pasa a Muon.
Según el informe técnico de DeepSeek V4, la actualización central del postentrenamiento de V4 consiste en reemplazar por completo la fase de aprendizaje por refuerzo mixto (mixed RL) de V3.2 mediante destilación de estrategias en línea (On-Policy Distillation, OPD). El nuevo proceso se divide en dos pasos: primero, entrenar especialistas por dominio (SFT + aprendizaje por refuerzo GRPO) de forma separada en áreas como matemáticas, código, agentes y seguimiento de instrucciones; luego, usar múltiples maestros OPD para destilar las capacidades de más de una docena de especialistas a un único modelo unificado, alineando mediante logit para evitar los conflictos de capacidades comunes en métodos tradicionales.
El informe también introduce un modelo generativo de recompensas (Generative Reward Model, GRM). Para tareas que son difíciles de verificar con reglas, se entrena con una pequeña cantidad de datos de anotación humana diversificados, haciendo que el modelo asuma simultáneamente las funciones de generación y evaluación.
Según el informe técnico de DeepSeek V4, los resultados comparativos entre V4-Pro-Max y Opus 4.6 Max, GPT-5.4 xHigh y Gemini 3.1 Pro High (sin incluir el GPT-5.5 y Opus 4.7 publicados recientemente):
Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → El más alto del campo
LiveCodeBench: 93.5 → El más alto del campo
SWE Verified: 80.6, con una diferencia de 0.2 puntos porcentuales respecto a Opus 4.6 de 80.8
GPQA Diamond: 90.1, con una diferencia respecto a Gemini 3.1 Pro de 94.3
SimpleQA-Verified: 57.9, con una diferencia respecto a Gemini 3.1 Pro de 75.6
HLE: 37.7, con una diferencia respecto a Gemini 3.1 Pro de 44.4
El informe técnico también señala que las comparaciones anteriores no incluyen el GPT-5.5 y Opus 4.7 publicados recientemente, y que la brecha entre V4 y los modelos cerrados de última generación necesita validación mediante evaluación de terceros.
Según el anuncio oficial del 24 de abril de DeepSeek, la serie V4 se lanza como código abierto bajo una licencia MIT; los pesos del modelo ya se han publicado en Hugging Face y ModelScope, y es aplicable a usos comerciales y académicos.
Según el informe técnico de DeepSeek V4, V4-Pro tiene un total de parámetros de 1.6T, con 49B activados por token; V4-Flash tiene 284B de parámetros totales, con 13B activados por token. Ambos modelos admiten un contexto de 1M tokens.
Según el informe técnico de DeepSeek V4, V4-Pro-Max superó a GPT-5.4 y Gemini 3.1 Pro en dos benchmarks: Codeforces (3206 puntos) y LiveCodeBench (93.5), pero aún quedó por detrás de Gemini 3.1 Pro en benchmarks con alta densidad de conocimiento (GPQA Diamond, SimpleQA-Verified, HLE); el conjunto de comparación no incluye GPT-5.5 y Opus 4.7.
Artículos relacionados
Xpeng, Xiaomi Lead In-Car AI Push at Beijing Auto Show
Ex ingeniero de Seed de ByteDance: la iteración de la IA de ByteDance tarda seis meses frente a los tres meses de Google
El ingeniero de OpenAI Clive Chan cuestiona las recomendaciones de hardware de V4, citando errores y falta de claridad frente a V3
Naver lanza la beta de AI Tab mientras Google Gemini entra en el mercado de búsquedas de Corea del Sur
La contratación de ingeniería en IA en India se dispara un 59,5% y se expande más allá de los centros tecnológicos
Banco Commonwealth reduce 120 empleos en medio de la expansión de la IA