Noticias de Gate, 11 de abril, la empresa de infraestructura de IA Ramp Labs publicó resultados de investigación titulados «Latent Briefing», que logran un intercambio de memoria eficiente entre sistemas multiagente mediante la compresión directa de la caché KV de modelos de gran tamaño, reduciendo de forma significativa el consumo de Tokens sin perder precisión. En las arquitecturas multiagente más comunes, el orquestador (Orchestrator) descompone las tareas y llama repetidamente al modelo del trabajador (Worker); a medida que la cadena de inferencia se alarga, el uso de Tokens se expande de manera exponencial. La idea central de Latent Briefing es usar el mecanismo de atención para identificar en el contexto las partes realmente clave, eliminando la información redundante directamente en la capa de representación, en lugar de depender de resúmenes de LLM que son lentos o de la recuperación RAG con poca estabilidad. En el benchmark LongBench v2, el método mostró un rendimiento sobresaliente: el consumo de Tokens del modelo Worker se reduce en 65%, el ahorro de Tokens en documentos de longitud media (32k a 100k) alcanza una mediana del 49%, la precisión global mejora alrededor de 3 puntos porcentuales frente a la línea base, y el tiempo adicional por cada compresión es de solo aproximadamente 1.7 segundos, lo que acelera el proceso unas 20 veces frente al algoritmo original. El experimento utilizó Claude Sonnet 4 como orquestador y Qwen3-14B como modelo de trabajador, cubriendo escenarios de documentos de múltiples tipos, como artículos académicos, documentos legales, novelas e informes gubernamentales. La investigación también encontró que el umbral de compresión óptimo varía según la dificultad de la tarea y la longitud del documento: para tareas difíciles conviene una compresión más agresiva para filtrar el ruido de razonamiento especulativo, mientras que para documentos largos es más adecuado una compresión ligera para conservar información clave dispersa.