PANews 27 de fevereiro — Enquanto a indústria aguarda ansiosamente a nova geração de modelos flagship DeepSeek V4, a equipe DeepSeek lançou silenciosamente um novo artigo acadêmico. O novo artigo apresenta um sistema de raciocínio inovador chamado DualPath, projetado especificamente para otimizar o desempenho de inferência de grandes modelos (LLMs) sob cargas de trabalho de agentes inteligentes. Ao introduzir o mecanismo de “leitura de KV-Cache de caminho duplo” (semelhante a uma memória cache), redistribui a carga de armazenamento da rede, aumentando a taxa de throughput de inferência offline em até 1,87 vezes e a média de execuções de agentes por segundo em serviços online em 1,96 vezes. Na introdução, o artigo menciona que os grandes modelos estão evoluindo rapidamente de chatbots de uma única rodada e modelos de raciocínio independentes para sistemas de agentes — capazes de planejar autonomamente, chamar ferramentas e resolver tarefas reais por meio de múltiplas rodadas de interação. Essa mudança de paradigma na aplicação impulsiona uma transformação significativa na carga de trabalho de inferência de grandes modelos: de uma interação tradicional entre humanos e grandes modelos para uma interação entre humanos, grandes modelos e o ambiente, podendo chegar a dezenas ou centenas de rodadas de interação.