PANews informó el 27 de febrero que, en el entusiasmo de la industria por la nueva generación del modelo insignia DeepSeek V4, el equipo de DeepSeek publicó discretamente un nuevo artículo académico. El nuevo artículo introduce un innovador sistema de inferencia llamado DualPath, que está específicamente optimizado para el rendimiento de inferencia de grandes modelos (LLM) bajo cargas de trabajo de agentes. Al introducir el mecanismo “KV-Cache de lectura dual (similar a la caché de memoria)” para redistribuir la carga de la red de almacenamiento, el rendimiento de inferencia offline se incrementa hasta 1,87 veces, y el número de agentes ejecutándose por segundo de servicios en línea se incrementa en una media de 1,96 veces. El artículo menciona en la introducción que los grandes modelos están evolucionando rápidamente, pasando de robots conversacionales de ronda única y modelos de razonamiento independientes a sistemas agentes que pueden planificar, invocar herramientas y resolver tareas prácticas de forma autónoma a través de múltiples rondas de interacción. Este cambio en el paradigma de la aplicación ha provocado un cambio importante en las cargas de trabajo de inferencia de grandes modelos: desde la interacción tradicional humano-modelo grande hasta la interacción humano-modelo grande-entorno, la ronda de interacción puede alcanzar decenas o incluso cientos de rondas.