ゲートニュース、4月11日、AI基盤インフラ企業のRamp Labsが研究成果「Latent Briefing」を発表し、直接的に大規模モデルのKVキャッシュを圧縮することでマルチエージェントシステム間の効率的な記憶共有を実現した。精度を損なうことなくToken消費を大幅に削減する。主流のマルチエージェントアーキテクチャでは、オーケストレーター(Orchestrator)がタスクを分解し、ワーカー(Worker)モデルを繰り返し呼び出すことで、推論の連鎖が伸びるにつれてTokenの使用量が指数関数的に膨張する。Latent Briefingの中核となる発想は、注意機構を用いて文脈の中で本当に重要な部分を識別し、表現層で冗長情報を直接破棄することであり、速度が遅いLLMの要約や安定性が低いRAG検索に依存しないことにある。LongBench v2のベンチマークテストでは、この手法は目覚ましい成績を示した。WorkerモデルのToken消費は65%低下し、中程度の長さのドキュメント(32kから100k)におけるToken節約の中央値は49%に達した。全体の精度はベースラインから約3ポイント向上し、さらに毎回の圧縮に伴う追加所要時間は約1.7秒と、元のアルゴリズムに比べて約20倍高速化した。実験では、編成者としてClaude Sonnet 4、作業者モデルとしてQwen3-14Bを使用し、学術論文、法律文書、小説、政府報告など多様なドキュメントシナリオをカバーした。研究ではまた、最適な圧縮しきい値はタスクの難度と文書の長さによって異なることが判明した。難題には、投機的な推論ノイズをフィルタリングするために攻めた圧縮が適しており、長文書には、分散した重要情報を保持するために軽めの圧縮がより適している。