Economía de tokens de Jensen Huang

K-LinePoet · 2026-03-17T13:31:03+00:00

# Traducción al EspañolReportera del Observador Económico Zheng ChenyeLa conferencia GTC de Nvidia, conocida como el indicador de tendencias anuales de la industria de IA, se celebrará del 16 al 19 de marzo de este año en San José, California, Estados Unidos.A las 11:00 a.m. hora local del 16 de marzo, es decir, a las 2:00 a.m. hora de Beijing del 17 de marzo, el CEO de Nvidia, Jensen Huang, pronunció un discurso principal de más de dos horas en el Centro SAP de San José.Durante su discurso, Huang predijo que para 2027, la demanda mundial relacionada con la infraestructura de IA alcanzará 1 billón de dólares. También señaló que la demanda real podría ser mucho mayor que 1 billón de dólares, e incluso los productos de Nvidia podrían tener escasez de oferta.Después de que se publicó este número, las acciones de Nvidia en el mercado bursátil estadounidense saltaron más del 4% instantáneamente. Sin embargo, pocas horas después de la apertura del mercado A de China, las acciones de la cadena industrial de poder de cálculo cayeron colectivamente, con Tianfu Communications (300394) (300394.SZ) cerrando con una caída de más del 1%

K-LinePoet

2026-03-17 13:31:03

Economía Observador reportero Zheng Chenye

Conocido como el indicador anual de la industria de IA, la conferencia GTC de NVIDIA se llevó a cabo del 16 al 19 de marzo en San José, California, EE. UU.

El 16 de marzo a las 11 a.m. hora local, es decir, a las 2 a.m. del 17 de marzo en horario de Beijing, el CEO de NVIDIA, Jensen Huang, realizó una conferencia principal de más de dos horas en el centro SAP de San José.

En su discurso, Huang predijo que para 2027 la demanda global relacionada con infraestructura de IA alcanzará los 1 billón de dólares. También dijo que la demanda real podría ser mucho mayor, y que los productos de NVIDIA incluso podrían estar en escasez.

Tras anunciar esta cifra, el precio de las acciones de NVIDIA en EE. UU. subió instantáneamente más del 4%. Sin embargo, unas horas después, al abrir el mercado en A-shares, las acciones de la cadena de la industria de computación cayeron colectivamente, con Tianfutongtong (300394.SZ) cerrando con una caída superior al 10%, y Changguang Huaxin (688048.SH) cayendo un 9.72%, recuperando casi las ganancias de los últimos cinco días.

Por un lado, la expectativa de un billón de dólares; por otro, la caída de las acciones en la cadena industrial, la diferencia radica en la escala temporal.

Huang hablaba de la demanda futura, pero su próxima generación de arquitectura de chips Feynman no estará disponible hasta 2028. Además, en un informe de investigación publicado por Wanlian Securities el 16 de marzo, se señaló que el promedio del PER del sector electrónico en A-shares hasta el 15 de marzo era de aproximadamente 82 veces, y el mercado podría estar preocupado por “el frío en las alturas”.

Pero lo que vale la pena analizar en la conferencia de Huang no es solo la cifra de un billón de dólares, sino que en dos horas presentó una nueva lógica comercial: los centros de datos están pasando de ser lugares de entrenamiento de modelos a convertirse en fábricas de tokens de producción.

Un token es la unidad básica de procesamiento de información en modelos de lenguaje grande, que puede entenderse aproximadamente como fragmentos de texto generados o procesados por IA. Un carácter chino equivale a aproximadamente uno o dos tokens.

En los últimos dos años, el consumo de tokens ha experimentado varios saltos de magnitud.

Huang rastrea estos cambios a tres hitos: a finales de 2022, la aparición de ChatGPT, que enseñó a la IA a generar contenido y comenzó a consumir tokens en gran cantidad; tras la aparición del modelo ChatGPT o1, la IA aprendió a razonar y reflexionar, generando muchos tokens internos para pensar; y después del lanzamiento de Claude Code (herramienta de programación IA desarrollada por Anthropic), la IA puede leer archivos, escribir código y compilar pruebas, consumiendo muchos más tokens por tarea que en simples conversaciones.

Huang mencionó que todos los ingenieros de software de NVIDIA usan IA para asistir en la programación.

El trabajo de IA tiene dos fases: entrenamiento, que hace que el modelo sea más inteligente y requiere una gran inversión para entrenarlo; e inferencia, que es el proceso en el que el modelo realiza tareas en tiempo real, con una demanda cada vez mayor. En el pasado, la compra de GPU (procesadores gráficos, hardware clave para cálculos de IA) en todo el mundo se centraba en entrenamiento, pero ahora el foco se está desplazando hacia la inferencia.

Huang afirmó que el negocio de servicios de inferencia creció 100 veces en el último año. El analista de IDC China, Du Yunlong, también dijo a Economía Observador que en China, tanto la tasa de crecimiento como la proporción del mercado de servidores de inferencia superan a los de entrenamiento, y que en términos de envío de servidores, la proporción de inferencia ya se acerca al 60%.

La demanda de inferencia está explotando, pero aún no existe un sistema de precios de mercado para los tokens.

Huang propuso cinco niveles de precios futuros: nivel gratuito, con gran producción de tokens pero respuesta lenta; nivel medio, aproximadamente 3 dólares por millón de tokens; nivel avanzado, aproximadamente 6 dólares por millón de tokens; nivel de alta velocidad, aproximadamente 45 dólares por millón de tokens; y nivel top, aproximadamente 150 dólares por millón de tokens. Cuanto mayor sea el tamaño del modelo, más largo sea el contexto y más rápida la respuesta, más caros serán los tokens.

Puso como ejemplo el nivel top: un equipo de investigación que usa 50 millones de tokens al día, a 150 dólares por millón, solo costaría 7,500 dólares, lo cual no es mucho para una empresa. Cuando el tamaño del contexto aumenta de 32K a 400K tokens, la IA puede leer toda una contrato o un código completo en una sola vez, lo que antes no era posible y que ahora tiene un precio que refleja esa capacidad.

Con precios escalonados, el modelo económico de los centros de datos cambia.

Huang explicó que cada centro de datos está limitado por la electricidad, y que un centro de 1 GW (gigavatios, unidad de medida de potencia eléctrica) nunca se convertirá en uno de 2 GW, debido a restricciones de energía y tierra. Bajo una potencia fija, quien consuma más tokens por vatio de electricidad tendrá costos de producción más bajos. Es decir, con la misma cantidad de electricidad, quien produzca más tokens ganará más.

Mostró una serie de cifras: un centro de datos de 1 GW, si distribuye su capacidad de cálculo en diferentes niveles de precios, con la arquitectura Blackwell de NVIDIA, genera aproximadamente 30 mil millones de dólares al año; con la nueva Vera Rubin, puede llegar a 150 mil millones; y con el acelerador de inferencia Groq LPU, hasta 300 mil millones. Con el mismo centro de datos, cambiar a diferentes equipos puede variar los ingresos hasta en 10 veces.

NVIDIA proyecta que en el año fiscal 2026, sus ingresos totales serán de 215.9 mil millones de dólares, de los cuales la división de centros de datos aportará 193.7 mil millones.

Siguiendo la lógica de Huang, los centros de datos existentes aún no están siendo utilizados al máximo; reemplazarlos por la nueva generación de equipos, bajo las mismas condiciones de energía, puede multiplicar los ingresos varias veces. La expectativa de un billón de dólares no proviene solo del aumento de precios de chips, sino de que con la misma electricidad se pueden producir tokens más numerosos y más caros.

Huang afirmó que en el futuro, cada CEO estará atento a la eficiencia de su fábrica de tokens, ya que eso determinará directamente sus ingresos.

También describió un cambio que ya está ocurriendo en Silicon Valley: cada vez más ingenieros usan IA en su trabajo diario para programar, investigar y gestionar documentos, operaciones que consumen tokens, y las empresas deberán pagar por ese uso.

Huang predice que estos gastos serán tan altos que requerirán un presupuesto separado, como cuando las empresas asignan fondos para computadoras y software a sus empleados.

Además, dijo que en el futuro, cada ingeniero recibirá un presupuesto anual de tokens al ingresar, equivalente aproximadamente a la mitad de su salario base.

Dos tipos de chips

La economía de tokens que Huang describe está relacionada con la plataforma Vera Rubin, presentada oficialmente en GTC.

Huang explicó que, en el pasado, cuando hablaba de la arquitectura Hopper, mostraba un chip, pero Vera Rubin no es solo un chip, sino un sistema completo. Este sistema logra una refrigeración líquida al 100%, y su instalación, que antes tomaba dos días, ahora se realiza en dos horas.

Vera Rubin está compuesta por siete chips. La estructura principal, NVL72, integra 72 GPUs Rubin y 36 CPUs Vera, conectados mediante NVLink 6 (tecnología de interconexión de alta velocidad desarrollada por NVIDIA). En comparación con la generación anterior, Blackwell, la eficiencia por vatio en inferencia aumenta hasta 10 veces, y el costo por token se reduce a una décima parte.

NVIDIA también lanzó la nueva CPU Vera de 88 núcleos, optimizada para escenarios de agentes inteligentes y procesamiento de datos.

Huang mencionó que el CEO de Microsoft, Satya Nadella, le confirmó que los primeros racks Vera Rubin ya están operando en Azure, la plataforma de nube de Microsoft.

Pero Vera Rubin tiene una limitación: cuando cada usuario necesita generar más de 400 tokens por segundo, el ancho de banda de NVL72 no es suficiente. Para solucionar esto, NVIDIA adquirió la tecnología de Groq, una empresa estadounidense fundada en 2016, especializada en chips aceleradores de IA. NVIDIA ya ha adquirido licencias tecnológicas y el equipo central de Groq.

Los LPU (Unidad de Procesamiento de Lenguaje) de Groq y las GPUs son chips completamente diferentes. Las GPUs tienen gran memoria y potencia de cálculo; una GPU Rubin tiene 288 GB de memoria, adecuada para cálculos complejos. Los LPUs tienen menos memoria, solo 500 MB, pero una velocidad de lectura y escritura muy rápida, no aptos para modelos grandes completos, pero con velocidad y latencia superiores en la generación de tokens.

NVIDIA usa un software de inferencia llamado Dynamo, que divide el proceso en dos pasos: tareas que requieren mucho cálculo y memoria, como comprensión de contexto, se manejan con Vera Rubin; y la generación de tokens sensible a la latencia, con Groq LPU. Ambos trabajan en conjunto mediante una conexión Ethernet de alta velocidad, reduciendo la latencia en aproximadamente la mitad.

Huang llama a este método “inferencias desacopladas” (dividir el proceso entre diferentes chips), y su idea central es aceptar que alto rendimiento y baja latencia son inherentemente contradictorios, por lo que es mejor que cada chip se especialice en lo que hace mejor.

Dijo que esta combinación logra un aumento de rendimiento de 35 veces respecto a la generación anterior en niveles de precios de 45 y 150 dólares.

Desde una perspectiva a largo plazo, en un centro de datos de 1 GW, en dos años, la tasa de generación de tokens puede aumentar de 22 millones por segundo a 700 millones.

El consejo de Huang para los clientes es que, si su trabajo se basa en inferencias en lotes de alta velocidad, deben usar Vera Rubin; si necesitan programación intensiva o interacción en tiempo real, pueden destinar un 25% de la capacidad del centro de datos a Groq LPU.

Huang anunció que Groq produce en masa 3 LPUs, fabricados por Samsung, y que se espera que salgan al mercado en el tercer trimestre de este año.

En cuanto al software, NVIDIA lanzó la plataforma de agentes inteligentes NemoClaw, que soporta el popular proyecto de código abierto OpenClaw. En pocas semanas, OpenClaw se convirtió en el proyecto de código abierto de mayor crecimiento en GitHub, y Huang lo comparó con Linux, considerándolo como el sistema operativo para computadoras de agentes inteligentes.

Pero en entornos empresariales, usar OpenClaw sin seguridad adicional presenta riesgos, ya que los agentes pueden acceder a datos sensibles, ejecutar código y comunicarse con externos. NemoClaw añade una capa de seguridad empresarial a OpenClaw. Empresas como Adobe, Salesforce y SAP han anunciado que adoptan el Agent Toolkit de NVIDIA para desarrollo de agentes.

En cuanto a la hoja de ruta, NVIDIA anunció que su próxima generación Feynman, prevista para 2028, soportará por primera vez tanto conexiones por cable de cobre como CPO (tecnología que integra componentes de comunicación óptica directamente en el chip).

Este año también se cumplen 20 años de CUDA, la plataforma de cálculo general para GPU desarrollada por NVIDIA, considerada la base del ecosistema de software de la compañía. Huang mencionó que actualmente, el 60% de los negocios de NVIDIA proviene de los cinco principales proveedores de servicios en la nube a nivel mundial, y el 40% restante se distribuye en AI soberano, empresas, industria y robótica.

En esta conferencia GTC, NVIDIA también anunció colaboraciones en conducción autónoma con Uber, BYD (002594), Geely, Hyundai, Nissan y Isuzu. Impulsados por estas noticias, el sector automotriz en Hong Kong subió colectivamente el 17 de marzo, con Geely Auto (00175.HK) alcanzando un aumento superior al 5% en intradía y cerrando con un incremento del 4.55%.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.