Чому зараз всі AI Agent говорять про мультимодальність та виклик інструментів, але на практиці все одно залишаються повільними, дорогими й глючними?


Тому що вузьким місцем інференсу є не «параметри», а пропускна здатність (бендвідс).
Чим більша модель, більше контексту, довший ланцюг інструментів, тим більше все сповільнює саме I/O: завантаження ваг, передача KV cache, обмін проміжними результатами. Обчислювальної потужності достатньо, а от пропускної здатності — ні, і через це інференс завжди лагає.

Inference Labs тут робить не «швидші вузли», а розбиває інференс на малі паралельні блоки, які запускає по всій мережі.

Один сервер більше не обробляє всю модель цілком, вузол відповідає лише за свій фрагмент, а протокол збирає результати докупи.
Інференс переходить від «одноточкового виконання» до «мережевої пропускної здатності».

Це поєднання двох підходів:
– Децентралізований Cloudflare: відповідає за розподіл, оркестрацію, кешування фрагментів інференсу
– Децентралізований AWS Lambda: вузли виконують окремі шматки логіки, результати автоматично збираються
Результат для ончейн агентів:
Швидкість більше не обмежена однією картою, вартість не впирається в окремий сервер, і чим складніший ланцюг викликів — тим більше перевага.

Inference Labs змінює не саму модель, а саме пропускну здатність рівня інференсу.
Це базова проблема, яку мають вирішити всі ончейн агенти, щоб стати швидшими й дешевшими.
@inference_labs @KaitoAI
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити