Entrevista mais recente de Jensen Huang (parte 2): por que a Nvidia não faz um Hyperscaler ela mesma?

ChainNewsAbmedia

No segundo trecho da entrevista de Huang Renxun, ele respondeu diretamente ao risco que a TPU e a ASIC representam para a NVIDIA. Ele enfatizou que o que a NVIDIA faz não é apenas um chip de IA específico, e sim uma plataforma de computação acelerada, com o foco na integração de todo o ecossistema. Assim como na guerra de chips entre EUA e China, a corrida de IA não é uma disputa de ponto único; o que importa é se toda a pilha tecnológica consegue crescer ao mesmo tempo.

Diante do questionamento: “Na essência, IA é uma grande quantidade de multiplicações de matrizes. Por que não deixar uma arquitetura mais especializada como a TPU dominar a liderança?”, a resposta de Huang Renxun foi: multiplicações de matrizes são importantes, mas isso não é tudo da IA. Do novo mecanismo de attention, à fusão de SSM híbrido, diffusion e autoregressive, passando pela execução distribuída de modelos e pela inovação de arquitetura, o avanço da IA muitas vezes vem de inovação algorítmica, e não apenas de empurrar a Lei de Moore para a frente com hardware.

Já que a NVIDIA tem muito caixa e também já participou profundamente da infraestrutura e da camada de modelos de IA por meio de investimentos como CoreWeave, Nebius e Nscale, e até OpenAI e Anthropic, então por que ela não entra diretamente como provedora de serviços em nuvem? A resposta de Huang Renxun ainda volta àquela frase: fazer o máximo do que é necessário, e o mínimo do que não é necessário. Isso não se enquadra no âmbito de “se não fizermos, ninguém fará”.

TPU e ASIC representam ameaças, mas o campo de batalha da NVIDIA é maior

Em resposta à tendência de Google TPU, AWS Trainium e até OpenAI, Anthropic e outros grandes clientes desenvolvendo internamente ou adotando aceleradores alternativos, Huang Renxun não demonstrou postura defensiva; ao contrário, por várias vezes, ele voltou o foco para “a NVIDIA não faz apenas um chip de IA, e sim uma plataforma de computação acelerada”.

Ele enfatizou que o que a NVIDIA constrói é accelerated computing, e não apenas tensor processing. A IA é, claro, um dos aplicativos mais importantes hoje, mas a GPU e o CUDA conseguem lidar com muito mais do que IA — incluindo dinâmica molecular, dinâmica de cromodinâmica quântica, processamento de dados, dinâmica dos fluidos, física de partículas, desenvolvimento de medicamentos, geração de imagens e várias computações científicas. Isso faz com que o alcance de mercado da NVIDIA seja naturalmente mais amplo do que o de ASICs projetados para um único tipo de carga de trabalho.

Diante do questionamento: “Na essência, IA é uma grande quantidade de multiplicações de matrizes. Por que não deixar uma arquitetura mais especializada como a TPU dominar a liderança?”, a resposta de Huang Renxun é:

Multiplicações de matrizes são importantes, mas isso não é tudo da IA. Do novo mecanismo de attention, à fusão de SSM híbrido, diffusion e autoregressive, passando pela execução distribuída de modelos e pela inovação de arquitetura, o avanço da IA muitas vezes vem de inovação algorítmica, e não apenas de empurrar a Lei de Moore para a frente com hardware.

Ele disse de forma bem direta: se dependêssemos apenas de redução e escalonamento de transistores, a melhora seria de cerca de 25% ao ano; mas da Hopper à Blackwell, a NVIDIA conseguiu saltos de eficiência energética na ordem de 35 vezes e até 50 vezes. Isso não veio de forma “simples” de processo, e sim de design cooperativo entre modelos, algoritmos, rede, memória, arquitetura de sistema e CUDA.

Por isso, Huang Renxun descreveu a NVIDIA como uma “empresa de design extremamente co-projetado”. Ela não faz apenas GPU; ela altera sincronizadamente o processador, a interconexão, a rede, as bibliotecas, os algoritmos e todo o sistema. Sem essa camada de alta programabilidade do CUDA, essa otimização grande e transversal entre camadas seria muito difícil de realizar.

O valor do CUDA: base instalada, sensação de confiança e universalidade global

Quando o apresentador questiona: “Já que grandes clientes como OpenAI, Anthropic, Google e AWS já sabem escrever kernel por conta própria e otimizar a estrutura, o CUDA ainda tem uma ‘boa muralha’ de proteção?” Huang Renxun respondeu sob três ângulos.

Primeiro, a integridade e confiabilidade do ecossistema. A NVIDIA consegue fornecer bastante suporte de base para frameworks como Triton, vLLM e SGLang, permitindo que pesquisadores se apoiem em uma base que já foi amplamente validada. Para desenvolvedores, o mais assustador não é apenas escrever algo errado, mas sim não conseguir nem mesmo determinar se o erro está na própria implementação ou na plataforma base. Um dos valores do CUDA está justamente em ele já ter sido “testado repetidamente até rodar”, sendo suficientemente confiável.

Segundo, a enorme base instalada. Huang Renxun foi direto ao ponto: se você é um desenvolvedor de frameworks ou de modelos, o que você mais quer é uma base de instalação. Você não quer escrever software apenas para uso próprio; quer que ele funcione no maior número possível de máquinas. Do A10, A100 ao H100, H200, e então para nuvem e edge, robôs e workstations, o CUDA está praticamente em toda parte. Essa base instalada significa que, com um desenvolvimento só, você consegue alcançar, globalmente, muitos sistemas.

Terceiro, universalidade entre nuvens e entre cenários. Huang Renxun apontou que a NVIDIA é uma das muito poucas plataformas de computação capazes de existir simultaneamente em todas as nuvens mais importantes e em ambientes on-prem. Para empresas de IA, isso significa que elas não precisam se prender cedo demais a um único provedor de nuvem e torna mais fácil implantar produtos em diferentes mercados e cenários.

Em outras palavras, o valor do CUDA não é apenas “conveniência na toolchain”, mas sim a combinação de integridade do ecossistema, base instalada global e universalidade entre cenários, formando um tipo de volante difícil de ser abalado com facilidade.

Alta margem bruta não vem de imposto de software; vem de “token por watt” e de custo total de manutenção

Diante das críticas de que, para o mundo de fora, a NVIDIA consegue manter alta margem bruta em grande parte por causa do monopólio do CUDA e que, no futuro, se mais clientes tiverem capacidade de escrever kernel por conta própria e construir uma pilha alternativa de software, essa margem alta seria corroída, a resposta de Huang Renxun é extremamente confiante.

Ele apontou que, dentro da NVIDIA, o número de engenheiros investidos em suporte a vários laboratórios de IA é “surpreendentemente grande”, porque GPUs não são tão fáceis de domar quanto CPUs. Huang Renxun comparou CPU com Cadillac: estável, fácil de dirigir e acessível a todos; já os aceleradores da NVIDIA são como carros de F1: em teoria, qualquer um pode dirigir, mas para espremer o desempenho ao limite de forma real, é preciso uma capacidade profissional muito alta.

A NVIDIA também usa bastante IA para gerar e otimizar seus próprios kernels. Por isso, ao fazer ajuste conjunto com clientes, muitas vezes consegue elevar o desempenho de algum modelo ou stack em 50%, 2 vezes e até 3 vezes. Essa otimização, para clientes que possuem grandes frotas de GPUs, equivale a praticamente dobrar a receita.

Huang Renxun também defendeu ainda mais que a plataforma da NVIDIA tem o melhor performance por TCO do mundo, ou seja, a melhor eficiência de custo total de manutenção. Ele disse que ninguém consegue provar de verdade que TPU, Trainium ou outras plataformas superam a NVIDIA em custo total e desempenho; além disso, não há demonstrações públicas, confiáveis e passíveis de comparação direta na prática.

Na visão dele, o sucesso da NVIDIA não é simplesmente porque os clientes ficam presos ao CUDA; é porque, com a mesma energia e o mesmo gasto de capital, ela consegue produzir o maior número de tokens e então converter isso em mais receita. Para clientes construindo data centers de nível 1GW, o que mais importa não é se um chip é ou não barato, e sim se o data center inteiro consegue gerar a maior receita. Enquanto a NVIDIA continuar sendo a melhor globalmente em tokens por watt e performance por dólar, faz sentido que exista alta margem bruta.

Por que a NVIDIA não virou ela mesma um hyperscaler?

Já que a NVIDIA tem muito caixa e também já participou profundamente da infraestrutura e da camada de modelos de IA por meio de investimentos como CoreWeave, Nebius e Nscale, e até OpenAI, Anthropic, etc., então por que ela não entra diretamente como provedora de serviços em nuvem?

A resposta de Huang Renxun ainda volta àquela frase: “fazer o máximo do que é necessário, e o mínimo do que não é necessário”.

Se a NVIDIA não fizer CUDA, NVLink, CUDA-X, bibliotecas de funções para vários domínios e plataformas base, essas coisas provavelmente nem existiriam — então a NVIDIA precisa fazê-las pessoalmente. Mas, se for como serviço em nuvem, já existem muitos no mundo, então isso não é um âmbito de “se não fizermos, ninguém fará”.

No entanto, quando provedores de nuvem de IA de novo tipo ainda são fracos e talvez precisem que alguém “puxe” para decolar, a NVIDIA está disposta a fornecer dinheiro, suprimentos e suporte técnico para ajudar esse ecossistema a crescer. Ou seja: a NVIDIA quer fomentar o ecosystem, mas não quer virar ela mesma um financier ou um hyperscaler.

Quanto a investir em empresas de modelos como OpenAI e Anthropic, Huang Renxun também reconheceu que isso é, na verdade, resultado de aprendizado da NVIDIA nos últimos anos. No passado, a NVIDIA não tinha percebido que empresas de modelos baseados, como OpenAI e Anthropic, no estágio inicial, simplesmente não conseguiam fazer isso com a densidade de capital exigida pelo modelo tradicional de VC. Só quando ele realmente entendeu isso é que percebeu que, se ele tivesse a oportunidade, poderia ter apoiado mais cedo.

Ele até admitiu que isso foi um dos erros de julgamento: “naquela época, não entendi profundamente que, se essas empresas não tivessem apoio vindo de grandes empresas de tecnologia ou capital em nível semelhante, elas simplesmente não conseguiriam se estabelecer”. Agora que a NVIDIA tem uma escala maior, ele também explicou que não vai cometer o mesmo erro.

Questão da China: a parte mais contundente de toda a conversa

A parte mais intensa de ataque e defesa de toda a entrevista se concentrou em China e nas restrições à exportação de chips. A posição do apresentador é que a capacidade de computação de IA é uma entrada de risco direto para treinar e implantar modelos altamente sensíveis; se a China obtiver mais capacidade avançada, poderá construir mais rapidamente modelos com capacidades de ataques de rede, mineração de vulnerabilidades etc., o que constituiria risco real para a segurança nacional e a segurança corporativa dos EUA.

Huang Renxun não negou que a IA tenha riscos, nem negou que os EUA deveriam manter a liderança contínua, mas ele foi fortemente contra a ideia de equiparar chips de IA a material de armas nucleares, ou de tirar uma conclusão extrema do tipo “se vender um pouco mais, vai dar ruim”.

Seus principais argumentos têm alguns pontos.

Primeiro, ele acha que a China não está em um “vácuo” de capacidade de computação. A China tem uma enorme capacidade de energia, fabricação de chips, infraestrutura de comunicação e rede, e também tem uma grande parcela de talentos de pesquisa em IA no mundo. Na narrativa de Huang Renxun, a China não é “incapaz de desenvolver IA se não conseguir os chips da NVIDIA”; é “se não conseguir o melhor, vai usar o próprio e, além disso, será forçada a construir mais rapidamente uma pilha tecnológica local”.

Segundo, ele acredita que o efeito colateral das restrições de exportação é obrigar modelos open-source da China, ecossistemas e a indústria de chips a se desvincularem aceleradamente da pilha tecnológica dos EUA. Para ele, esse é o risco que os EUA deveriam se preocupar mais a longo prazo. Porque IA não envolve apenas modelos; também inclui a camada de chips, a camada de ferramentas de desenvolvimento, a camada de ecossistemas open-source, a camada de aplicação etc., toda a pilha. Se os EUA, para proteger uma camada específica — por exemplo, empresas de modelos mais avançados —, sacrificar a influência do ecossistema de chips e de desenvolvedores no mercado chinês, a longo prazo isso pode, ao contrário, fazer com que os EUA percam posição na disputa por padrões globais e plataformas.

A China é o segundo maior mercado de tecnologia do mundo e um dos maiores contribuidores globais para software e modelos open-source. Se os EUA desistirem ativamente dessa fatia de mercado, é como empurrar, por iniciativa própria, uma comunidade inteira de desenvolvedores para outra pilha tecnológica. Isso não só prejudica a NVIDIA, como também prejudica toda a indústria de tecnologia dos EUA e a segurança nacional.

Terceiro, ele enfatizou repetidamente que o mundo não é um conjunto de cenários extremos de “zero ou infinito”. Os EUA, claro, devem ter a maior, a melhor e a mais cedo capacidade de computação; nisso ele concorda totalmente. Mas isso não significa que os EUA deveriam abrir mão ativamente do segundo maior mercado do mundo, ou descrever a IA como uma arma absoluta do tipo urânio enriquecido concentrado. Para ele, narrativas excessivamente extremas não só não ajudam na formulação de políticas, como também podem espantar talentos, enfraquecer a confiança da indústria e, no fim, fazer com que os próprios EUA percam vantagem competitiva.

Ele até trouxe isso de volta ao contexto de política industrial doméstica: “se os EUA, por medo, fizerem a IA ficar excessivamente militarizada, também levará mais pessoas a resistirem a investir em software, engenharia e áreas relacionadas.” Para ele, esse tipo de política baseada no medo é uma mentalidade de “derrotados”, e não uma postura que um país deveria ter para liderar uma revolução tecnológica.

O que Huang Renxun realmente quer dizer é: “a corrida de IA não é uma disputa de ponto único; o que importa é se toda a pilha tecnológica consegue crescer ao mesmo tempo”.

Este artigo, a entrevista mais recente de Huang Renxun (parte de baixo): por que a NVIDIA não faz seu próprio Hyperscaler?, apareceu pela primeira vez no Cadeia News ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários