Google apresenta novo algoritmo TurboQuant: consegue reduzir necessidades de memória de IA em 6 vezes, ações de memória caem em massa

動區BlockTempo

Google lança algoritmo de compressão TurboQuant sem necessidade de treino, alegando reduzir pelo menos 6 vezes a necessidade de memória para IA; após o anúncio, ações de memória caíram em massa, mas analistas têm opiniões divergentes.
(Atualização: Google planeja migrar para criptografia quântica até 2029, seis anos antes da meta do governo, obrigando a indústria de criptografia a acompanhar)
(Informação adicional: The Wall Street Journal: Trump pretende nomear Zuckerberg, Huang Renxun e Ellison para o PCAST, formando a “Equipe Nacional de IA dos EUA”)

Um novo algoritmo faz as ações de memória despencarem? A Google Research anunciou oficialmente em 25 de abril o TurboQuant, alegando que consegue quantizar o cache KV de grandes modelos de linguagem (LLM) para apenas 3 bits, sem perda de precisão do modelo, e reduzir o uso de memória pelo menos 6 vezes.

Após o anúncio, a gigante de memória Micron caiu até 6,1% durante o pregão, fechando a 382,09 dólares, atingindo a menor cotação em três semanas. Por outro lado, Sandisk caiu 3,5%, Seagate 2,59%, Western Digital 1,63%, levando o setor de memória a uma queda geral.

Os mercados asiáticos também sofreram pressão hoje, com Samsung Electronics caindo 3,6% na abertura, SK Hynix 4,5%. Os investidores pensam de forma direta: se os modelos de IA não precisarem mais de tanta memória, o poder de precificação sustentado pela escassez de componentes pode estar em risco.

Análise técnica do TurboQuant: eliminação de erro em duas fases, velocidade 8 vezes maior

O cache Key-Value (KV) é o mecanismo central que permite aos LLM “lembrar” dados processados, armazenando informações de atenção anteriores para evitar cálculos repetidos na geração de cada token. Com a expansão da janela de contexto, o cache KV virou um gargalo de memória.

O TurboQuant foca exatamente nesse problema. A Google aponta que métodos tradicionais de quantização vetorial geram um overhead de cerca de 1 a 2 bits por valor na memória, e o TurboQuant elimina essa carga em um processo de duas fases:

Primeira fase, usando o método PolarQuant para rotacionar os vetores de dados, alcançando compressão de alta qualidade.
Segunda fase, usando o algoritmo Quantized Johnson-Lindenstrauss para eliminar o erro residual.

Nos testes com a GPU H100 da Nvidia, o TurboQuant de 4 bits aumentou a performance na medição de atenção em 8 vezes em relação ao uso de chaves de 32 bits, além de reduzir o uso de memória do cache KV em pelo menos 6 vezes.

Mais importante, o algoritmo não requer treinamento ou ajuste fino, tem baixo custo de execução e pode ser implantado diretamente em ambientes de inferência e sistemas de busca vetorial em larga escala. Segundo a empresa, o artigo completo será publicado na conferência ICLR 2026 em abril.

Paradoxo de Jevons: a demanda por memória pode aumentar?

Porém, nem todos concordam com a narrativa do “fim da memória”.

Alguns analistas citam o paradoxo de Jevons: quando a tecnologia reduz o custo de recursos, a facilidade de acesso pode impulsionar a demanda geral. Os defensores acreditam que, se o TurboQuant realmente facilitar a inferência de IA, isso acelerará a adoção de modelos de IA, levando a uma maior demanda por memória em vez de reduzi-la.

Um analista da Lynx Equity Strategies afirmou de forma direta: “O método detalhado pelo Google provavelmente não reduzirá a demanda por memória e memória flash nos próximos 3 a 5 anos, pois a oferta ainda é extremamente limitada.” Assim, a instituição mantém a previsão de 700 dólares para a Micron.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários