PANews повідомив 27 лютого, що в прагненні індустрії до нового покоління флагманської моделі DeepSeek V4 команда DeepSeek тихо опублікувала нову наукову статтю. У новій статті представлена інноваційна система виведення під назвою DualPath, яка спеціально оптимізована для продуктивності виведення великих моделей (LLM) під навантаженнями агентів. Впроваджуючи механізм «двошляховий KV-кеш для читання (подібно до кешу пам’яті)» для перерозподілу навантаження на мережу зберігання, пропускна здатність офлайн-інференції збільшується до 1,87 раза, а кількість агентів, що працюють на секунду онлайн-сервісів, збільшується в середньому в 1,96 раза. У вступі статті згадується, що великі моделі швидко еволюціонують від однораундових розмовних роботів і моделей незалежного мислення до агентних систем, які можуть автономно планувати, викликати інструменти та вирішувати практичні завдання через кілька раундів взаємодії. Ця зміна в парадигмі застосування спричинила суттєві зміни у навантаженнях з виведення великих моделей: від традиційної взаємодії людини-велика модель до взаємодії людино-велика модель і середовище, раунд взаємодії може сягати десятків або навіть сотень раундів.