Porque é que agora todos os AI Agents falam de multimodalidade e de chamada de ferramentas, mas quando realmente entram em funcionamento continuam lentos, caros e com quebras?
Porque o verdadeiro gargalo na inferência não são os “parâmetros”, mas sim a largura de banda. Quanto maior o modelo, mais contexto, mais longa a cadeia de ferramentas, o que realmente atrasa tudo é o I/O: carregamento de pesos, transmissão da cache KV, transporte dos resultados intermédios de um lado para o outro. Se houver poder de computação suficiente mas a largura de banda não acompanhar, a inferência ficará sempre presa.
Neste aspeto, o que a Inference Labs faz não é criar “nós mais rápidos”, mas sim voltar a dividir a inferência em pequenos blocos paralelizáveis, entregando-os à rede para processamento.
Já não é preciso que uma única máquina suporte o modelo inteiro; cada nó só trata de um fragmento, e o protocolo recompõe os resultados. A inferência deixa de ser “execução pontual” para passar a ser “throughput de rede”.
A sua configuração assemelha-se a uma fusão de duas coisas: – Cloudflare descentralizada: responsável pela distribuição, orquestração e cache de fragmentos de inferência – AWS Lambda descentralizada: nós executam pequenos blocos lógicos e os resultados são automaticamente agregados O efeito disto para os Agents on-chain é: A velocidade já não está limitada a uma única GPU, o custo já não é esmagado por uma única máquina, e quanto mais complexa for a cadeia de chamadas, mais evidente é a vantagem.
A Inference Labs não está a alterar o modelo, mas sim a camada de largura de banda da inferência. Este é o problema de fundo que todos os Agents on-chain têm de resolver se querem ser rápidos e baratos. @inference_labs @KaitoAI
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Porque é que agora todos os AI Agents falam de multimodalidade e de chamada de ferramentas, mas quando realmente entram em funcionamento continuam lentos, caros e com quebras?
Porque o verdadeiro gargalo na inferência não são os “parâmetros”, mas sim a largura de banda.
Quanto maior o modelo, mais contexto, mais longa a cadeia de ferramentas, o que realmente atrasa tudo é o I/O: carregamento de pesos, transmissão da cache KV, transporte dos resultados intermédios de um lado para o outro. Se houver poder de computação suficiente mas a largura de banda não acompanhar, a inferência ficará sempre presa.
Neste aspeto, o que a Inference Labs faz não é criar “nós mais rápidos”, mas sim voltar a dividir a inferência em pequenos blocos paralelizáveis, entregando-os à rede para processamento.
Já não é preciso que uma única máquina suporte o modelo inteiro; cada nó só trata de um fragmento, e o protocolo recompõe os resultados.
A inferência deixa de ser “execução pontual” para passar a ser “throughput de rede”.
A sua configuração assemelha-se a uma fusão de duas coisas:
– Cloudflare descentralizada: responsável pela distribuição, orquestração e cache de fragmentos de inferência
– AWS Lambda descentralizada: nós executam pequenos blocos lógicos e os resultados são automaticamente agregados
O efeito disto para os Agents on-chain é:
A velocidade já não está limitada a uma única GPU, o custo já não é esmagado por uma única máquina, e quanto mais complexa for a cadeia de chamadas, mais evidente é a vantagem.
A Inference Labs não está a alterar o modelo, mas sim a camada de largura de banda da inferência.
Este é o problema de fundo que todos os Agents on-chain têm de resolver se querem ser rápidos e baratos.
@inference_labs @KaitoAI