El camino de DeepSeek hacia los billones de dólares: impulsar el ecosistema de hardware de billones con código abierto

Título original: La gran estrategia de 10 billones de USD de DeepSeek
Autor original: @bookwormengr
Traducción: Peggy, BlockBeats

Nota del editor: Durante el último año, la mayoría de las discusiones sobre DeepSeek se centraron en el rendimiento del modelo, la estrategia de código abierto y la guerra de precios. Pero si solo se entiende a DeepSeek desde «si vende suscripciones», «si tiene multimodalidad» o «si puede hacer agentes de codificación», quizás se subestime lo que realmente quiere cambiar.

Este artículo plantea un juicio más audaz: el objetivo de DeepSeek no es necesariamente monetizar a corto plazo a través de la capa de aplicación, sino reformar la estructura de costos del entrenamiento y la inferencia de IA mediante una serie de innovaciones en la arquitectura subyacente, y de manera indirecta impulsar la formación de un nuevo ecosistema de hardware. Desde MoE, MLA hasta DSA, CSA, mHC, Engram, pasando por Dual Path y TileLang, la hoja de ruta tecnológica de DeepSeek siempre gira en torno a una cuestión central: en un contexto donde HBM, procesos avanzados, empaquetado y el ecosistema CUDA están limitados, ¿cómo ejecutar modelos más potentes con menos potencia de cálculo de gama alta?

Lo más interesante del artículo no es si «DeepSeek puede ganar miles de millones de dólares con API o suscripciones», sino si está vinculando las capacidades del modelo, el sistema de memoria y el ecosistema de hardware nacional. La compresión de KV Cache reduce la dependencia del HBM, NAND y SSD pueden soportar caché prolongada, LPDDR puede usarse para carga en flujo de pesos y almacenamiento de Engram, y TileLang intenta disminuir la barrera de entrada de CUDA. Si estas innovaciones continúan difundiendo, los beneficiados no serán solo DeepSeek, sino también los sectores de almacenamiento, ASIC, GPU, chips de red y toda la cadena de infraestructura de IA.

Por supuesto, las predicciones sobre una «industria ecológica de 10 billones de dólares» y una «valoración de 1 billón de dólares» aún contienen cierto carácter especulativo. Pero ofrecen una vía importante para entender a DeepSeek: abrir el código no significa necesariamente abandonar la comercialización, y los precios bajos no siempre son solo subsidios al mercado. Para DeepSeek, el negocio real puede no estar en la capa de aplicación, sino en hacer que más hardware sea accesible y que la oferta de IA de menor costo sea posible. En otras palabras, lo que vende no es solo el modelo en sí, sino la viabilidad de la próxima generación de infraestructura de IA.

A continuación, el texto original:

¿Alguna vez te has preguntado cómo gana dinero DeepSeek, y quizás mucho dinero?

No ha lanzado un plan de suscripción competitivo como GLM, MoonShot o MiniMax; tampoco tiene multimodalidad, modelos de audio o video. Hasta ahora, ni siquiera tiene su propio entorno de ejecución, es decir, un marco externo para llamadas a modelos, integración de herramientas y ejecución de tareas — aunque recientemente han comenzado a reclutar para construir esta infraestructura.

Al mismo tiempo, DeepSeek parece mantenerse firme en la filosofía de código abierto, incluso compartiendo abiertamente sus «secretos». ¿No es esto una locura? ¿No sería un gasto innecesario? ¿Los inversores que están dispuestos a invertir 10 mil millones de dólares en ella están tirando su dinero a la basura?

Personalmente, creo que la respuesta es exactamente lo contrario.

A continuación, basándome en lo que DeepSeek ya ha hecho, presentaré algunas observaciones y analizaré una estrategia que parece seguir. El objetivo del CEO de DeepSeek, Liang Wenfeng, puede ir mucho más allá de la competencia en modelos actuales. Quizá apunta a un premio mayor: que DeepSeek tenga la oportunidad de alcanzar una valoración de 1 billón de dólares, mientras impulsa la formación de una nueva industria de 10 billones de dólares.

Reportaje de TechInAsia sobre la última ronda de financiación de DeepSeek

Revisitando la «Odisea» de DeepSeek

DeepSeek siempre ha ido a contracorriente. No ha optado por lanzar modelos ligeramente mejores y apresurarse a empaquetarlos como aplicaciones monetizables, como planes de suscripción para programación. El 27 de enero de 2025, publiqué un tuit muy difundido que narraba lo que llamo la «Odisea» de DeepSeek. Ahora, esta historia se vuelve aún más interesante.

Mientras otros aún intentan construir modelos densos, DeepSeek eligió un camino más difícil: modelos expertos híbridos (Mixture of Experts, MoE).

Aplicaron un método de «primeros principios», inventando un nuevo algoritmo llamado GRPO para reemplazar el costoso PPO, que era el estándar en ese momento para aprendizaje reforzado.

Descubrieron que el aprendizaje reforzado basado en recompensas verificadas (Reinforcement Learning from Verified Rewards, RLVR) era clave para mejorar la capacidad de inferencia del modelo.

También propusieron una estrategia sencilla de decodificación basada en «predicción de múltiples tokens» (Multi Token Prediction), que además hacía que la señal de entrenamiento fuera más densa.

Perfeccionaron la línea de producción «Zero Bubble» (ZERO bubble) para mejorar la eficiencia en el uso de recursos GPU limitados.

Lanzaron un balanceador de carga para expertos, facilitando la implementación de modelos MoE. Especialmente, mediante la estrategia de «paralelismo ancho de expertos» (Wide Expert Parallel), el modelo puede atender con batchs mayores, reduciendo significativamente los costos de inferencia.

Inventaron mecanismos como MLA, DSA, CSA, HCA, para reducir la dependencia de KV Cache, y mantener cerca de constante el aumento de cálculo con la longitud del contexto.

También crearon Engram, que intercambia memoria por eficiencia computacional.

Y además, inventaron mHC, que permite entrenar modelos de gran escala de forma estable. Hay muchos ejemplos similares.

En la narrativa de la «Odisea», el héroe no decide desde el principio hacia dónde va su viaje. Descubre su misión en el camino, enfrentando obstáculos y aprendiendo. Ignora a los escépticos, enfrenta actores maliciosos, supera sus propias limitaciones y, finalmente, cumple su misión. Encuentra alianzas para desafíos aparentemente insuperables y aprende a usar recursos limitados de manera inteligente. Es esta perseverancia la que hace que los seguidores apoyen, que gane respeto global y que tenga detractores.

Como explicaré en detalle a continuación, DeepSeek lleva mucho tiempo en este camino y ha ido descubriendo su destino final: no se trata solo de vender suscripciones de programación, sino de impulsar un ecosistema de hardware de IA de 10 billones de dólares en China, y alcanzar una valoración de 1 billón de dólares. En este proceso, también creará oportunidades para nuevos actores en el ecosistema de hardware occidental.

Comencemos con algunos cálculos interesantes sobre KV Cache

Mira este tuit reciente de @SemiAnalysis_ que es muy oportuno:

¡DeepSeek ya ha resuelto este problema mejor que nadie!

Vamos a hacer un cálculo interesante de KV Cache. No te preocupes si no te gustan las matemáticas. Usaremos el calculador de KV Cache recién lanzado para ver cuánto ahorra DeepSeek V4 Pro en KV Cache, comparándolo con los modelos GLM y Qwen más recientes.

Aquí calculo con una longitud de contexto de aproximadamente 1 millón, asumiendo una precisión de 8 bits para KV y 16 bits para el índice. Puedes probar tú mismo con este calculador: https://kvcache.ai/tools/kv-cache-calculator/

También puedes probar tú mismo con el calculador.

Para una longitud de contexto de 1 millón:

· DeepSeek V4 necesita solo 5.48GB de HBM;
· GLM-5 requiere 60GB de HBM;
· Qwen3-235B-A22B llega a necesitar hasta 89GB de HBM.

Es importante notar que:

· DeepSeek es un modelo de 1.6 billones de parámetros;
· GLM-5 tiene aproximadamente 700 mil millones de parámetros, ya usa MLA y DSA de DeepSeek, aunque aún no la última compresión de atención;
· Qwen3-235B-A22B tiene unos 235 mil millones de parámetros, con mecanismo de atención GQA.

DeepSeek ya hace contribuciones fundamentales para aliviar la memoria. Si estas innovaciones se adoptan ampliamente, reducirán mucho los costos de operación de agentes de ciclo largo y desbloquearán nuevas aplicaciones.

Comparativa de KV Cache en contextos de 1 millón de tokens y diferentes tamaños de modelos

La metodología detrás de la «locura»

El tamaño reducido de KV Cache, sin sacrificar la calidad del modelo, es precisamente la razón por la que DeepSeek puede ofrecer caché prolongada a precios muy bajos — incluso menos del 3% del costo de cache hit de Sonnet 4.6, y puede mantener la caché durante horas.

Para tareas de ciclo largo, una KV Cache más pequeña permite descargarla de manera más económica en SSD y recargarla cuando sea necesario. Así, se reduce la dependencia del HBM. Desde la perspectiva de la industria de hardware de IA en China, el HBM no solo es escaso, sino también uno de los tipos de memoria más difíciles de fabricar.

Además, DeepSeek ha desarrollado tecnologías para cargar KV Cache desde SSD más rápido, ya descritas en su artículo sobre Dual Path.

DeepSeek V4 logra una compresión de KV Cache muy significativa, tanto que esta etapa quizás ni sea necesaria.

¿Y quiénes son los beneficiarios directos de la compresión de KV Cache?

¿Quién suministra en gran volumen SSD? No olvides que YMTC (Yangtze Memory Technologies) está creciendo como un gigante en NAND 3D. El NAND ayuda a DeepSeek a evitar cálculos repetidos de KV. A su vez, DeepSeek crea un enorme mercado para NAND y SSD — beneficiando no solo a YMTC, sino también a otros fabricantes relacionados.

Pero esto no se limita solo a NAND y SSD.

La memoria LPDDR también tiene un potencial enorme. Puede usarse para almacenar pesos del modelo y transmitirlos en flujo a HBM cuando sea necesario, aliviando la demanda de HBM. El equipo de SGLang publicó un excelente blog explicando esto. La siguiente imagen muestra cómo funciona esta estrategia.

Aunque DeepSeek no diseñó específicamente para esta solución, su arquitectura MoE, la presencia de muchos modelos expertos y el uso de pesos en 4 bits facilitan su implementación.

La ilustración muestra cómo se puede usar la memoria y cómo los pesos del modelo se transmiten en flujo desde LPDDR a HBM. Muy recomendable leer el blog de SGLang.

Si esta innovación se combina con KV Cache extremadamente compacto y sin pérdida, reducirá significativamente la demanda de HBM.

¿Y quién en China produce LPDDR? La respuesta es CXMT, o sea, ChangXin Memory Technologies. Están solo una generación atrás en velocidad y una en densidad, pero la diferencia no es grande.

Además de suficiente NAND, en un futuro cercano la industria de hardware de IA en China tendrá suficiente LPDDR. ¿Eso aliviará la presión de cálculo? La respuesta es sí. Continúa leyendo.

El uso inteligente de memoria también puede aliviar la carga en GPU / ASIC

El uso de NAND para almacenar KV Cache es bastante sencillo de entender: permite mantener KV Cache por más tiempo, reducir la presión sobre el HBM y evitar cálculos repetidos, aliviando la carga en GPU y ASIC.

¿Puede la LPDDR hacer lo mismo? Además de servir como almacenamiento para transmitir pesos en flujo a HBM cuando sea necesario, ¿puede reducir aún más la carga de cálculo?

La respuesta es sí.

La LPDDR puede almacenar gran cantidad de contenido llamado Engram. En el artículo de DeepSeek sobre Engram, señalan que MoE puede ampliar la capacidad del modelo mediante cálculo condicional, pero el Transformer en sí carece de un mecanismo nativo de «búsqueda de conocimiento». Por eso, suele simular ineficientemente la recuperación mediante cálculos.

Para solucionar esto, DeepSeek propuso el módulo Engram. Moderniza la técnica clásica de embedding N-gram, transformándola en un mecanismo de búsqueda basado en hash O(1), creando así una vía de sparseización complementaria llamada memoria condicional (conditional memory).

Este método ahorra cálculo, pero requiere memoria para alojar la tabla de embedding, que puede ser muy grande.

Es, en esencia, una estrategia de «intercambio memoria por cálculo». La clave está en que, en términos de coste por bit de datos leídos, la memoria es mucho más barata — una búsqueda en LPDDR cuesta mucho menos que hacer un pase completo por varias capas de Transformer.

Por eso, en escenarios a gran escala, esta es una operación muy rentable.

Así, DeepSeek sacrifica parte de la memoria para ahorrar cálculo.

Las decisiones que vale la pena tomar

Dado que en China no hay chips con la misma densidad de transistores ni tecnología EUV, los GPU y ASIC chinos probablemente seguirán siendo a largo plazo inferiores en FLOPs brutos a los occidentales. También tienen una brecha en empaquetado avanzado. Por eso, estas decisiones valen mucho la pena, especialmente si China puede producir en masa NAND y LPDDR.

Revisando la estrategia a largo plazo de DeepSeek

Desde estas innovaciones, parece que el objetivo de DeepSeek no es obtener beneficios inmediatos de unos pocos miles de millones. Muchas de sus decisiones pasadas lo evidencian: aún no tiene multimodalidad, ni modelos de voz, ni modelos de video.

Su verdadera participación es en un juego a largo plazo, paciente, con escala potencial de 10 billones de dólares: impulsar la formación de un ecosistema de hardware de IA alternativo.

Esto no solo busca que los fabricantes chinos de memoria sean actores clave en el mercado de hardware de IA en China y global, sino que también reduzcan fundamentalmente los recursos necesarios, haciendo que el entrenamiento y el servicio de modelos de IA sean más económicos. Así, muchos fabricantes de GPU, ASIC y chips de red podrán considerarse opciones viables.

Al mismo tiempo, estas innovaciones beneficiarán también a la comunidad de código abierto occidental y a nuevos fabricantes de hardware.

Todo indica que ya están surgiendo estas tendencias. Revisemos en detalle las innovaciones que DeepSeek ha propuesto hasta ahora:

  1. Introducción del modelo experto híbrido (MoE) y MLA en DeepSeek V2

DeepSeek en V2 introdujo MoE y MLA. MoE reduce en aproximadamente un 40-50% la cantidad de cálculo necesaria para entrenar modelos inteligentes; MLA reduce en un 90% la dependencia de KV Cache.

Estas ideas se publicaron por primera vez en el artículo de DeepSeek de mayo de 2024. Luego, sirvieron de base para el entrenamiento de DeepSeek V3. En ese momento, DeepSeek entrenó un sistema cercano al nivel de modelos cerrados usando solo 2048 GPU H800 debilitadas en rendimiento.

  1. DSA: introducido en la versión experimental V3.2, para reducir el coste de cálculo en contextos largos y aliviar la presión en el ancho de banda de HBM.

El núcleo de DSA es garantizar que el volumen de cálculo no crezca con la longitud del contexto. La gráfica muestra que, a medida que aumenta la longitud del contexto, el tiempo de procesamiento de DeepSeek V3.2 se mantiene estable.

  1. mHC: propuesto en diciembre de 2025 en el artículo «mHC: Manifold-Constrained Hyper-Connections».

mHC es una innovación en la arquitectura macro de DeepSeek, que rediseña el flujo de información entre capas Transformer.

Tradicionalmente, desde ResNet, los modelos usan conexiones residuales estándar, x + F(x). Pero mHC extiende esto a múltiples canales paralelos, permitiendo que el modelo aprenda a mezclar estos canales. La matriz de mezcla se constriñe a una doble matriz aleatoria, proyectada en el politopo de Birkhoff mediante Sinkhorn-Knopp, garantizando que, sin importar cuán profundo sea el modelo, la señal se mantenga estable.

Esto resuelve el problema de inestabilidad catastrófica que enfrentaban las Hyper-Connections sin restricciones. Originalmente propuestas por ByteDance, sin restricciones, las Hyper-Connections provocaban una explosión de señal en modelos de 270 millones de parámetros, creciendo hasta 3000 veces y causando fallos en el entrenamiento.

El coste computacional de mHC es muy bajo: solo un 6.7% adicional en tiempo de entrenamiento, ya que no altera los FLOPs de atención o FFN, solo la forma en que se enrutan las salidas entre capas.

Pero el impacto en rendimiento es notable: en 2700 millones de parámetros, mHC mejora en 7.2 puntos en tareas de inferencia BIG-Bench Hard, en 3.2 en DROP, en 2.8 en matemáticas GSM8K, y en 1.4 en tareas de conocimiento general MMLU, todo en modelos del mismo tamaño y con presupuestos de cálculo similares.

Esencialmente, mHC proporciona una topología de enrutamiento de información entre capas más expresiva y rica, logrando mayor inteligencia por parámetro sin aumentar FLOPs.

mHC es un diseño arquitectónico complejo, pero permite entrenar de forma más estable y obtener mayor inteligencia por parámetro.

  1. CSA, HSA: introducidos en V4 en abril de 2026.

CSA y HSA buscan reducir en un 90% la dependencia de KV Token mediante compresión, además de disminuir significativamente los FLOPs, aliviando tanto la presión en HBM como en GPU/ASIC.

  1. Engram: introducido en el primer trimestre de 2026, usando memoria — LPDDR — para intercambiar por eficiencia de cálculo.

La gráfica detallada muestra que, con el mismo presupuesto de parámetros, Engram mejora claramente el rendimiento.

  1. Engram: en el primer trimestre de 2026, usando memoria — LPDDR — para intercambiar por eficiencia de cálculo.

La misma gráfica muestra que, con el mismo presupuesto de parámetros, Engram aporta mejoras notables en rendimiento.

Esta es la recomendación que DeepSeek compartió con fabricantes de hardware en su artículo de V4. Estoy seguro de que en conversaciones presenciales recibirán aún más retroalimentación.

El esfuerzo en TileLang también apunta en la misma dirección: DeepSeek no solo busca resolver su cuello de botella de cálculo, sino impulsar que el ecosistema de hardware chino tenga capacidad competitiva frente al occidental.

Con TileLang, los desarrolladores pueden escribir un solo kernel — código base para cálculo — y hacer que funcione en múltiples plataformas hardware, siempre que estas tengan soporte para TileLang.

Preveo que otros laboratorios chinos de IA también se sumarán. Esto ayudará a que los fabricantes chinos de hardware puedan afrontar indirectamente la «barrera CUDA». Además, potenciará el hardware occidental, como AMD.

Es importante aclarar que muchas plataformas de hardware de IA en China ya ofrecen compatibilidad con CUDA o capas de traducción. Por ejemplo, Moore Threads, Muxi, Biren y Tianshu Zhixin, logran compatibilidad CUDA mediante capas de traducción, por lo que en teoría no necesitan TileLang.

Aprendizaje reforzado a gran escala y RSI

Con más recursos de hardware disponibles, y la demanda de cálculo en los modelos disminuyendo, DeepSeek puede avanzar en proyectos de entrenamiento más ambiciosos, especialmente en aprendizaje reforzado posterior.

El aprendizaje reforzado requiere generar muchas trayectorias, es decir, billones de tokens. Este proceso puede volverse muy costoso rápidamente. Además, para entrenar modelos con contextos de 1 millón de tokens, hay que generar trayectorias de esa misma longitud. Solo entrenando en trayectorias ultra largas se puede soportar verdaderamente tareas de ciclo largo.

Por otra parte, con más opciones de hardware, DeepSeek podrá usar más recursos, impulsando la investigación automatizada, o RSI. RSI significa que la IA diseña y ejecuta sus propios experimentos. Este método implica mucho ensayo y error, y los costos se disparan. Pero es crucial para explorar todo el espacio de diseño de modelos. Antes de alcanzar la AGI, y mucho antes la ASI, DeepSeek debe desarrollar capacidades de RSI.

Lo que DeepSeek hace hoy, el sector lo seguirá mañana

Las innovaciones en MoE, MLA, DSA y otros enfoques ya están siendo adoptadas por otros laboratorios de IA en China y en el mundo.

Por ejemplo, ZAI, desarrollador de la serie GLM, usa MLA y DSA. Kimi, de MoonShot, también usa MLA y ha declarado abiertamente que su arquitectura está basada en la de DeepSeek. A su vez, DeepSeek usa el optimizador Muon, que fue adoptado inicialmente por Kimi en entrenamiento a gran escala.

¿Y qué pasa con la monetización?

Podemos mirar el ejemplo interesante de OpenAI.

OpenAI obtuvo warrants / opciones para comprar acciones de AMD y Cerebras a precios bajos, vinculados a hitos de consumo de potencia. Para AMD y Cerebras, es una operación muy rentable: si OpenAI se compromete a usar su hardware, aumenta mucho la probabilidad de éxito a largo plazo.

En el anuncio de AMD se lee:

«Como parte del acuerdo, para alinear aún más los intereses estratégicos, AMD emitió warrants a OpenAI para comprar hasta 160 millones de acciones ordinarias de AMD, que se irán otorgando progresivamente según se cumplan ciertos hitos. La primera entrega será al completar la implementación inicial de 1 GW, y las siguientes a medida que la escala de compra aumente a 6 GW. La concesión también dependerá de que AMD alcance ciertos objetivos de precio y de que OpenAI logre hitos técnicos y comerciales para desplegar AMD a gran escala.»

Preveo que DeepSeek también firmará acuerdos similares con varias empresas chinas de memoria, ASIC, CPU y stacks de red, colaborando estrechamente para que sus hardware puedan soportar cargas de trabajo de IA de vanguardia.

Considerando que la capitalización total de las acciones de IA en Occidente y en aliados de Asia Oriental ya supera los 10 billones de dólares, esta estrategia de «obtener participación mediante colaboración» puede ayudar a China a construir una industria igualmente gigante, y a obtener su parte, alcanzando una valoración de 1 billón de dólares.

Esto no solo generará ganancias mucho mayores que las suscripciones tradicionales, sino que también permitirá cumplir el objetivo de «hacer que la AGI beneficie a todos». Liang Wenfeng, fanático de Jim Simons y jugador de capital inteligente, no se perdería esta oportunidad.

Si miras todo lo que DeepSeek ha hecho hasta ahora, solo esta explicación tiene sentido.

Estas son las acciones clave en el mercado de IA. La gráfica no incluye a los hyperscalers, los gigantes del cloud, ni muchas otras empresas relacionadas.

[Enlace al original]

Haz clic para conocer las vacantes en Rhythm BlockBeats

Únete a la comunidad oficial de Rhythm BlockBeats:

Telegram suscripción: https://t.me/theblockbeats

Telegram grupo: https://t.me/BlockBeats_App

Cuenta oficial en Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
ThereAreCatsInTheContract.
· Hace26m
Por lo tanto, DeepSeek está en una jugada más grande.
Ver originalResponder0
BlackGoldMechanicalHand
· hace2h
¿Cien billones es un objetivo de valoración o la escala de la industria? Estoy un poco confundido
Ver originalResponder0
GateUser-26374bb4
· hace2h
La guerra de precios al final, el ganador se lleva todo, son las infraestructuras
Ver originalResponder0
PaperSculptureSquidward
· hace2h
Finalmente alguien que sale del modelo de evaluación para analizar el problema.
Ver originalResponder0
GateUser-34d2b0ab
· hace2h
Si realmente se pudiera reconstruir la capa base, ahora estas aplicaciones serían necesidades falsas.
Ver originalResponder0
SlippageSailor
· hace2h
Si esta afirmación es verdadera, entonces todos los que compran tokens ahora están ayudándolo a entrenar a sus tropas.
Ver originalResponder0
GlitchOrchard
· hace2h
Este ángulo es bastante interesante, de hecho antes solo me enfoqué en la capa de aplicación.
Ver originalResponder0
ThetaSideEye
· hace2h
Espera a que esté completo, este comentario del editor realmente sabe cómo crear expectación.
Ver originalResponder0
SushiSlippage
· hace2h
¿Compilado por Peggy? La calidad de BlockBeats siempre está en línea
Ver originalResponder0
ExitLiquidityBuddy
· hace2h
Siento que las grandes empresas nacionales están siguiendo este camino, DeepSeek avanza más rápido
Ver originalResponder0
Ver más
  • Fijado