Porque é que agora todos os AI Agents falam de multimodalidade e de chamada de ferramentas, mas quando realmente entram em funcionamento continuam lentos, caros e com quebras?


Porque o verdadeiro gargalo na inferência não são os “parâmetros”, mas sim a largura de banda.
Quanto maior o modelo, mais contexto, mais longa a cadeia de ferramentas, o que realmente atrasa tudo é o I/O: carregamento de pesos, transmissão da cache KV, transporte dos resultados intermédios de um lado para o outro. Se houver poder de computação suficiente mas a largura de banda não acompanhar, a inferência ficará sempre presa.

Neste aspeto, o que a Inference Labs faz não é criar “nós mais rápidos”, mas sim voltar a dividir a inferência em pequenos blocos paralelizáveis, entregando-os à rede para processamento.

Já não é preciso que uma única máquina suporte o modelo inteiro; cada nó só trata de um fragmento, e o protocolo recompõe os resultados.
A inferência deixa de ser “execução pontual” para passar a ser “throughput de rede”.

A sua configuração assemelha-se a uma fusão de duas coisas:
– Cloudflare descentralizada: responsável pela distribuição, orquestração e cache de fragmentos de inferência
– AWS Lambda descentralizada: nós executam pequenos blocos lógicos e os resultados são automaticamente agregados
O efeito disto para os Agents on-chain é:
A velocidade já não está limitada a uma única GPU, o custo já não é esmagado por uma única máquina, e quanto mais complexa for a cadeia de chamadas, mais evidente é a vantagem.

A Inference Labs não está a alterar o modelo, mas sim a camada de largura de banda da inferência.
Este é o problema de fundo que todos os Agents on-chain têm de resolver se querem ser rápidos e baratos.
@inference_labs @KaitoAI
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)