Ramp Labs пропонує нове рішення для спільного використання пам’яті між багатьма агентами, витрати токенів знижуються максимум на 65%

GateNews

Оновлення Gate News: 11 квітня компанія з інфраструктури для AI Ramp Labs опублікувала результати дослідження «Latent Briefing». Вона забезпечує ефективний обмін пам’яттю між багатосистемними агентами шляхом прямого стиснення KV-кешу великих мовних моделей, значно зменшуючи витрати на Token без втрати точності. У більшості поширених архітектур багатосистемних агентів оркестратор (Orchestrator) розкладає завдання на частини та неодноразово викликає модель робітника (Worker). У міру того, як ланцюжок міркувань постійно подовжується, обсяг Token стрімко зростає експоненційно. Ключова ідея Latent Briefing полягає в тому, щоб за допомогою механізму уваги визначити в контексті справді важливі фрагменти, а в шарі представлення прямо відкидати надлишкову інформацію, а не покладатися на повільні LLM-зведення або ненадійний RAG-пошук. У бенчмарку LongBench v2 цей підхід показав вражаючі результати: витрати Token у моделі Worker знизилися на 65%, а медіанна економія Token для документів середньої довжини (32k до 100k) досягла 49%. Загальна точність підвищилася приблизно на 3 відсоткові пункти порівняно з базовим рівнем, тоді як додатковий час на кожне стиснення становить лише близько 1,7 секунди, що прискорює роботу приблизно у 20 разів порівняно з початковим алгоритмом. Експерименти проводилися з Claude Sonnet 4 як оркестратором і Qwen3-14B як моделлю робітника, охоплюючи сценарії з документами різних типів, зокрема наукові статті, юридичні документи, романи та урядові звіти. Дослідження також виявило, що оптимальний поріг стиснення залежить від складності завдання та довжини документа: для складних задач підходить більш агресивне стиснення, щоб відфільтрувати шум спекулятивного міркування, а для довгих документів краще підходить м’яке стиснення, щоб зберегти розосереджену ключову інформацію.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів