Autor: Lin Wanwan
La Exposición Universal de Filadelfia en 1876. El emperador de Brasil, Pedro II, tomó el teléfono inventado por Bell, escuchó la voz al otro lado y exclamó: «¡Dios mío, habla!»
Ciento cincuenta años después, el 18 de marzo de 2026, en el Centro de Convenciones de San José. Huang Renxun, vestido con chaqueta de cuero negra, se encontraba en el escenario de la conferencia GTC y también dijo una frase que sorprendió a todos.
«Dentro de diez años, NVIDIA tendrá aproximadamente 75,000 empleados. Estarán muy, muy ocupados, porque trabajarán junto a 7.5 millones de agentes de IA.»
La audiencia se rió.
75,000 personas, 7.5 millones de agentes, 1:100.
Huang Renxun también se rió y añadió: «Trabajarán las 24 horas del día. Esperamos que nuestro personal no tenga que competir con ellos.»
El aplauso se disipó, y esa cifra quedó opacada por los lanzamientos de chips más llamativos y los acuerdos de colaboración del día. Pero si la analizamos por separado, esta podría ser una de las frases más importantes de toda la conferencia.
No solo Huang Renxun. Hace tres meses, otra persona describió un futuro similar con más detalle.
En enero de 2026, en la CES de Las Vegas. Bob Sternfels, CEO de McKinsey, presentó cifras.
«Actualmente, contamos con 40,000 empleados humanos y aproximadamente 25,000 agentes de IA.» Hace menos de dos años, esa cifra era de unos pocos miles. En los últimos seis meses, esos 25,000 agentes generaron 2.5 millones de gráficos.
2.5 millones de gráficos. Antes, esa tarea la realizaban analistas recién ingresados. Con 23 o 24 años, con el aura de universidades prestigiosas, alineando coordenadas a las 3 de la madrugada.
Ese era el punto de partida para cada nuevo analista de McKinsey, intercambiando trabajo mecánico por un boleto hacia la asociación.
Ahora, la primera mitad de ese boleto ha sido tomada por agentes. Sternfels dijo: «La IA ha aumentado en un 25% ciertos puestos, y ha reducido en un 25% otros.» La empresa se ha dividido en dos partes: una en expansión y otra en contracción.
La historia de NVIDIA y la de McKinsey hablan de lo mismo.
En un mundo 1:100, los que trabajan son agentes impulsados por tokens, y las personas son interfaces conectadas a esos agentes.
Esa semana en GTC, Huang Renxun fue invitado al podcast All-In y dijo una frase aún más impactante.
«Supongamos que tienes un ingeniero con un salario anual de 500,000 dólares. Si no consume al menos 250,000 dólares en tokens, me preocuparía mucho.»
El anfitrión preguntó si NVIDIA está gastando 200 millones de dólares en tokens para su equipo de ingeniería, y Huang respondió: «Estamos trabajando en ello.»
Un ingeniero que no gasta tokens, ni siquiera vale 500,000 dólares.
La solución de NVIDIA es simple: incluir tokens en el paquete salarial. Huang Renxun dijo en su discurso principal en GTC que en el futuro, cada ingeniero de NVIDIA tendrá un presupuesto anual de tokens, aproximadamente la mitad de su salario base.
Un ingeniero con un salario base de varias decenas de miles de dólares recibirá una asignación adicional de capacidad de razonamiento equivalente a la mitad de su salario base, y un tercio del paquete total será pura gasolina.
Quien tenga el presupuesto completo de tokens, tendrá a su disposición más de diez agentes de IA ayudándolo a programar, realizar pruebas, buscar literatura y hacer simulaciones las 24 horas. Quien solo tenga acceso a la API gratuita, todavía trabaja con sus propias manos. Dos currículums similares pueden producir entre 5 y 10 veces más resultados con uno que con otro.
Esto ya no es solo teoría en Silicon Valley.
En marzo de este año, Business Insider reportó un cambio: en las entrevistas de ingenieros, ahora preguntan «¿Cuál es tu presupuesto de tokens para este puesto?» Tomasz Tunguz, socio de Theory Ventures, llama al presupuesto de tokens la «cuarta columna vertebral» del salario del ingeniero, después del salario base, bonificaciones y acciones.
Greg Brockman, presidente de OpenAI, fue aún más directo: cuánto razonamiento y poder de cálculo puedas invocar, cada vez más determinará tu productividad general.
Huang Renxun también dijo en su discurso en GTC: «¿Cuántos tokens acompañan a mi puesto? Esto ya es una herramienta de reclutamiento en Silicon Valley.»
En los años 50, los salarios de los trabajadores automotrices en Detroit estaban entre los mejores del país. Lo que realmente les permitió vivir en clase media fue la línea de ensamblaje inventada por Henry Ford. Los trabajadores estaban en línea, sin moverse, y la producción de cada uno se multiplicaba por decenas gracias a los brazos mecánicos. El nivel de vida de un trabajador en Detroit superaba ampliamente al de los artesanos de la misma época. No necesariamente tenían mejor habilidad, pero estaban en una línea de producción mucho más gruesa.
El presupuesto de tokens en 2026 es como la línea de ensamblaje de 1950.
Pero hay una diferencia.
Los trabajadores de Detroit podían ir a General Motors o Chrysler, dondequiera que hubiera líneas de ensamblaje. Los sindicatos podían negociar con los empleadores para obtener mejores velocidades y condiciones de trabajo.
El presupuesto de tokens no es así. La empresa te da ese día como si fueras un superhéroe, y te lo quita al día siguiente. Las acciones se pueden vender y llevarse, las habilidades se pueden cambiar al cambiar de trabajo. El presupuesto de tokens no es nada más que un complemento externo, un interruptor en manos de la empresa.
En Silicon Valley ya existe un nuevo término para describir esta situación: «GPU hambrienta» (GPU hunger).
Los mejores investigadores en IA cambian de trabajo, y la diferencia salarial ya no es la principal. La principal es la capacidad de cálculo. Sin poder realizar experimentos ni desplegar agentes, sus habilidades se ven limitadas por las cuotas. «¿Cuántos tokens te dan?» a veces está por delante de las acciones. Las acciones son un cheque a futuro que puede caer de valor, mientras que el presupuesto de tokens es la productividad que se puede obtener hoy mismo.
Y quienes no usan IA, simplemente quedan fuera.
Goldman Sachs estima que la IA podría automatizar el 25% de las horas laborales en EE.UU. Mercer dice que el 65% de los ejecutivos espera que entre el 20% y el 30% de los empleados sean reconfigurados por IA. Cuando se combinan estas cifras, la conclusión es clara: quienes tienen tokens producen explosivamente, y quienes no, son optimizados fuera.
La línea divisoria es el cupo de tokens, y cada vez importa menos la capacidad humana.
El valor personal está determinado por el cupo de tokens. ¿Y la empresa?
A principios de marzo de 2026, una empresa llamada MiniMax en Shanghái publicó su primer informe anual desde su salida a bolsa. Ingresos anuales de 79 millones de dólares, pérdida neta ajustada de 250 millones. Desde la perspectiva de los indicadores financieros tradicionales, es una pequeña empresa que quema dinero, con ingresos que equivalen a solo una fracción de lo que gana Accenture en un trimestre.
Pero el mercado no lo ve así.
El CEO de MiniMax, Yan Junjie, dijo en la llamada de resultados algo más importante que todo el informe: «El valor de la empresa se determina por la densidad inteligente multiplicada por el volumen de tokens procesados.»
El volumen de tokens no es el crecimiento de los ingresos, ni el número de usuarios, ni el margen bruto.
Los datos que respaldan esta afirmación son sólidos. En febrero de 2026, el consumo diario de tokens del modelo M2 de MiniMax aumentó seis veces respecto a diciembre, dos meses antes. El consumo de tokens en escenarios de programación aumentó diez veces. En la plataforma de agregación de modelos de IA OpenRouter, MiniMax consumió 4.55 billones de tokens en dos semanas, superando a todos los modelos estadounidenses y alcanzando el primer lugar en la clasificación global de consumo de tokens por primera vez.
El South China Morning Post informó que esto terminó con la dominación del mercado de los desarrolladores estadounidenses durante casi un año, gracias a los modelos de código abierto en China. ¿La clave? El consumo de tokens. Quien queme más tokens, gana.
Este mismo razonamiento también aplica a OpenAI. Su plataforma API procesa 6 mil millones de tokens por minuto, y en dos años ha aumentado 20 veces. Los clientes empresariales que gastan más de 100,000 dólares al año han casi septuplicado su consumo en ese período. El analista de Barclays, Ross Sandler, tras analizar los datos, concluyó que el consumo de tokens en OpenAI es más del doble que en Google Gemini.
El consumo de tokens se ha convertido en la moneda dura para clasificar a las empresas de IA.
Lo más interesante es cómo se refleja esto dentro de las empresas. The New York Times reportó recientemente un fenómeno llamado «tokenmaxxing»: ingenieros de Meta y OpenAI compiten en sus rankings internos por quién consume más tokens.
El presupuesto de tokens se está convirtiendo en un beneficio estándar, como lo fueron las comidas gratuitas y el seguro dental hace diez años. Un ingeniero en la oficina de Ericsson en Estocolmo dijo a The New York Times que el dinero que gasta en Claude puede ser incluso mayor que su salario, pero la empresa paga.
Un artículo de TechCrunch la semana pasada hizo un cálculo: un ingeniero que escribe un artículo por la tarde puede gastar unos 10,000 tokens, pero un ingeniero que ejecuta un clúster de agentes puede quemar millones de tokens en un día, sin escribir ni una sola palabra.
Hace dos años, el precio de un millón de tokens era de 33 dólares. Ahora, 9 centavos. Una caída del 99.7%. Cuanto más barato, más se quema. Cuanto más se quema, más difícil es dejarlo.
Yan Junjie predijo en la llamada que: «El mercado futuro de la demanda de tokens podría crecer una o dos órdenes de magnitud.»
Así se establece una nueva forma de valorar una empresa en 2026. No importa cuánto ganes, sino cuánto se queman tus tokens. MiniMax perdió 250 millones, pero su curva de crecimiento en volumen de tokens es tan pronunciada que los inversores están dispuestos a apostar. Se puede comparar con YouTube en 2006, sin ingresos, pero con un consumo de ancho de banda en crecimiento exponencial, y Google pagó 1,65 mil millones por ella.
En ese entonces, YouTube quemaba ancho de banda. Hoy, MiniMax quema tokens. La unidad de medición ha cambiado, pero la lógica no.
En la misma semana de GTC, ocurrió otro evento.
El 18 de marzo, Stripe anunció el Machine Payments Protocol. En pocas palabras: los agentes de IA ahora pueden gastar su dinero.
Un agente necesita un conjunto de datos, pagar por descargarlos. Requiere poder de cálculo para razonamiento, y compra en segundos. Necesita llamar a la API de otro agente y pagar. Todo el proceso sin intervención humana. Visa adaptó pagos con tarjeta de crédito a este protocolo, Coinbase creó una billetera exclusiva para agentes, y Mastercard está desarrollando Agent Pay.
El consumo de tokens ahora tiene una nueva fuente. Antes solo había escenarios de «persona gestionando agentes». Ahora, los agentes también consumen tokens y usan las ganancias para comprar más tokens. John Collison, cofundador de Stripe, lo llamó «la corriente de la marea».
Huang Renxun dio cifras relacionadas: NVIDIA planea aumentar la tasa de generación de tokens de 22 millones a 700 millones, ¡350 veces!
Es como construir toda una red de autopistas, apostando a que el flujo de tráfico se exponencial.
La apuesta por infraestructura de 600 mil millones de dólares requiere una premisa: que el consumo global de tokens sea lo suficientemente grande para recuperar la inversión. Esa premisa sigue siendo solo una hipótesis, y muy costosa.
En el último trimestre de 2025, las empresas tecnológicas emitieron bonos por un récord de 108.7 mil millones de dólares. En las primeras semanas de 2026, otros 100 mil millones.
Morgan Stanley y JPMorgan estiman que en los próximos años, la deuda total de las empresas relacionadas con IA podría alcanzar 1.5 billones de dólares. Goldman Sachs calcula que el gasto de capital en IA ya representa alrededor del 3% del PIB de EE.UU.
Los primeros en detectar el riesgo en Wall Street ya están comprando seguros. El volumen de swaps de incumplimiento de crédito está en aumento. Pagando primas de decenas de puntos básicos, apuestan a que estas empresas no podrán pagar. Daniel Sorid, director de estrategia de crédito de Citi, dijo en una reunión de inversores: «Como inversores en crédito, ante esta transformación de escala, se requiere una inversión de capital tan grande que genera una sensación de inseguridad.»
Larry Page, cofundador de Google, expresó en la empresa una frase aún más extrema: «Prefiero quebrar antes que perder esta carrera.»
Describe con precisión un dilema del prisionero: cada gigante apuesta a que sus rivales seguirán invirtiendo, por lo que no pueden detenerse. Quien se detiene, sale del juego.
El lado optimista tiene datos duros. La tasa de generación de tokens se ha multiplicado por 350. Stripe ya permite que los agentes gasten su dinero. McKinsey pasó de unos pocos miles de agentes a 25,000 en dos años. Si la economía de los agentes despega, la curva de crecimiento del consumo de tokens podría volverse exponencial.
Pero hay una fecha que mantiene despiertos a muchos: la caída de renovaciones en la segunda mitad de 2026.
De 2024 a 2025, las empresas gastan en «presupuesto de innovación». Los CEOs dicen en las presentaciones que «estamos adoptando IA», sin ser muy exigentes con los resultados, gastando dinero solo por la apariencia. En la segunda mitad de 2026, los primeros proyectos piloto llegan a la etapa de renovación. El presupuesto de innovación se agota, y los CTO ceden su lugar a los CFO, que solo piensan en ROI.
Si muchos proyectos piloto se cancelan, el consumo final de tokens puede experimentar un agujero repentino. La capacidad creada con los 600 mil millones de dólares en inversión, con centros de datos construidos, energía conectada y chips instalados, quedará ociosa.
Esto ya ha ocurrido antes.
En 2000, las empresas de telecomunicaciones gastaron billones en cables submarinos. La burbuja estalló, y el 90% de los cables quedaron en el fondo del mar durante casi una década. Solo cuando Netflix empezó a hacer streaming y el iPhone impulsó la movilidad, los cables se encendieron uno tras otro. La infraestructura no fue en vano. Los fabricantes como Lucent, Nortel y WorldCom quebraron, pero la infraestructura permaneció, aunque los constructores desaparecieron.
En 2012, la energía solar en China. Suntech y Sàiwéi en Wuxi y Jiangxi bajaron los precios de los módulos por debajo del costo global. La sobrecapacidad fue brutal, y la industria sufrió durante tres años. Luego, la demanda llegó, y hoy la energía solar es la fuente de mayor crecimiento en el mundo. Suntech quebró, Sàiwéi quebró, y los pioneros quedaron en la última oscuridad antes del amanecer.
Tras la invención del teléfono por Bell, Western Union rechazó comprar la patente por 100,000 dólares. Diez años después, Western Union pagó 25 millones y no compró. Treinta años después, la red telefónica cubría todo EE.UU. Pero las pequeñas empresas que construyeron la red, en su mayoría, no vivieron para ver la telefonía masificada. Los ganadores fueron AT&T, que mediante adquisiciones y monopolios, se quedó con todo.
La historia de la infraestructura siempre sigue esta versión. La dirección casi siempre es correcta, pero el tiempo puede matar.
Volviendo a los tokens. La estructura que mencionamos antes: los tokens se convierten en fuerza laboral, las personas en interfaces, y el cupo de tokens lo define todo. La premisa es que los tokens se consumen de manera continua, masiva y acelerada. La productividad de los ingenieros, diez veces mayor gracias a los tokens, se reduce a cero si se cortan. La valoración de OpenAI, basada en 840 mil millones, se sostiene por la promesa de poder de cálculo; si el acuerdo termina, se reduce. La infraestructura de 600 mil millones, sustentada en el crecimiento del consumo final, se vuelve ociosa si la tasa de crecimiento se desacelera.
Cada capa depende de la siguiente. Si el ritmo de consumo crece dos o tres años más lento que la construcción, toda la cadena ajustará sus precios.
En 2023, tener un problema era ser «el que tiene el problema». En 2026, tener tokens será como tenerlo.
Parece solo un cambio de palabra, pero las transformaciones subyacentes son más profundas de lo que muchos creen.
GPU es un activo: si lo compras, es tuyo, y queda en el centro de datos, intransferible.
Los tokens son flujo: tu diez veces mayor producción, tu valoración elevada, tu poder de negociación, todo se basa en un suministro continuo, no propio. Si cierras la llave, todo vuelve a cero.
Cuando los tokens se convierten en fuerza laboral real, las personas se vuelven interfaces conectadas a ellos. Una buena interfaz puede maximizar el valor de los tokens; juicio, estética, experiencia, todavía existen. Pero cuánto puede hacer una interfaz depende primero de cuántos tokens está conectada.
En los años 70 en EE.UU., los agricultores descubrieron que no basta con cultivar buen trigo, también hay que estar cerca del ferrocarril. En los años 50, los artesanos descubrieron que, por muy buena que fuera su habilidad, no podían competir con los trabajadores en la línea de ensamblaje. En 2026, los ingenieros descubren que, por muy elegante que sea su código, sin un presupuesto de tokens, todo es solo rotación vacía.
Cuando los tokens se vuelven fuerza laboral real, las personas se vuelven interfaces. La calidad de la interfaz sigue siendo importante, pero cuánto vale esa interfaz depende primero de quién la alimenta.