DeepSeek випустила попередні версії DeepSeek-V4-Pro та DeepSeek-V4-Flash 24 квітня 2026 року — обидві є моделями з відкритими вагами з контекстним вікном на один мільйон токенів і з ціноутворенням суттєво нижчим, ніж у порівнянних західних альтернатив. Модель V4-Pro коштує $1.74 за мільйон вхідних токенів і $3.48 за мільйон вихідних токенів — приблизно 1/20 частина ціни Claude Opus 4.7 і на 98% менше, ніж GPT-5.5 Pro, згідно з офіційними специфікаціями компанії.
DeepSeek-V4-Pro має 1.6 трильйона загальних параметрів, що робить її найбільшою відкритою моделлю з моменту появи на ринку LLM до цього часу. Однак лише 49 мільярдів параметрів активуються для кожного проходу інференсу, використовуючи підхід Mixture-of-Experts, який DeepSeek називає і доопрацьовує з часів V3. Ця конструкція дозволяє всій моделі залишатися в сплячому режимі, тоді як активуються лише релевантні її фрагменти для будь-якого запиту, знижуючи витрати на обчислення та водночас зберігаючи потенціал знань.
DeepSeek-V4-Flash працює на меншому масштабі: 284 мільярди загальних параметрів і 13 мільярдів активних параметрів. Згідно з бенчмарками DeepSeek, він «досягає порівнянної з версією Pro продуктивності міркувань, коли йому виділяють більший бюджет на “думки”».
Обидві моделі підтримують контекст на один мільйон токенів як стандартну функцію — приблизно 750,000 слів, або приблизно вся трилогія «Володар перснів» плюс додаткові тексти.
DeepSeek вирішив проблему масштабування обчислень, притаманну обробці довгого контексту, винайшовши два нові типи уваги, як детально описано в технічному документі компанії, доступному на GitHub.
Стандартні механізми уваги в ШІ стикаються з жорсткою проблемою масштабування: щоразу, коли довжина контексту подвоюється, вартість обчислень приблизно чотириразово зростає. Рішення DeepSeek передбачає два взаємодоповнювальні підходи:
Compressed Sparse Attention працює у два кроки. Спочатку вона стискає групи токенів — наприклад, кожні 4 токени — в один запис. Потім, замість того щоб звертати увагу на всі стиснені записи, вона використовує «Lightning Indexer», щоб вибрати лише найбільш релевантні результати для будь-якого запиту. Це зменшує область уваги моделі з мільйона токенів до значно меншого набору важливих фрагментів.
Heavily Compressed Attention використовує більш агресивний підхід: згортає кожні 128 токенів в один запис без розрідженого відбору. Хоча це втрачає деталізацію, зате дає надзвичайно дешевий глобальний огляд. Обидва типи уваги працюють у чергувальних шарах, дозволяючи моделі підтримувати і деталізацію, і огляд.
Результат: V4-Pro використовує 27% від обчислювальних ресурсів свого попередника (V3.2). KV cache — пам’ять, потрібна для відстеження контексту — падає до 10% від V3.2. V4-Flash ще більше підвищує ефективність: 10% обчислень і 7% пам’яті проти V3.2.
DeepSeek опублікував детальні порівняння в бенчмарках проти GPT-5.4 та Gemini-3.1-Pro, включно з напрямами, де V4-Pro поступається конкурентам. У задачах на міркування, за технічним звітом DeepSeek, міркування V4-Pro відстають від GPT-5.4 та Gemini-3.1-Pro приблизно на три–шість місяців.
Де V4-Pro лідирує:
Де V4-Pro поступається:
У задачах із довгим контекстом V4-Pro лідирує серед відкритих моделей і випереджає Gemini-3.1-Pro у CorpusQA (simulating real document analysis at one million tokens), але поступається Claude Opus 4.6 у MRCR, який вимірює пошук конкретної інформації, похованої глибоко в довгому тексті.
V4-Pro може працювати в Claude Code, OpenCode та інших інструментах кодування для ШІ. Згідно з внутрішнім опитуванням DeepSeek серед 85 розробників, які використовували V4-Pro як основного агента для кодування, 52% заявили, що він готовий стати їхньою моделлю за замовчуванням, 39% схилялися до «так», і менше ніж 9% сказали «ні». Внутрішні тести DeepSeek показали, що V4-Pro перевершує Claude Sonnet і наближається до Claude Opus 4.5 у агентних задачах кодування.
Artificial Analysis поставила V4-Pro першим серед усіх моделей з відкритими вагами в GDPval-AA — бенчмарку, що тестує економічно цінну роботу зі знаннями в межах фінансів, права та дослідницьких задач. V4-Pro-Max набрав 1,554 Elo, випереджаючи GLM-5.1 (1,535) і MiniMax’s M2.7 (1,514). Claude Opus 4.6 набирає 1,619 на цьому ж бенчмарку.
V4 вводить «перемежоване мислення», яке зберігає повний ланцюг міркувань у викликах інструментів. У попередніх моделях, коли агент робив кілька викликів інструментів — наприклад, шукав у вебі, запускав код, а потім знову шукав — контекст міркувань моделі очищався між раундами. V4 зберігає наступність міркувань між кроками, запобігаючи втраті контексту в складних автоматизованих робочих процесах.
Реліз V4 виходить на тлі значної активності в сфері ШІ. Anthropic відвантажила Claude Opus 4.7 16 квітня 2026 року. GPT-5.5 OpenAI запущено 23 квітня 2026 року, а GPT-5.5 Pro оцінено в $30 за мільйон вхідних токенів і $180 за мільйон вихідних токенів. GPT-5.5 обганяє V4-Pro на Terminal Bench 2.0 (82.7% проти 70.0%), який тестує складні робочі процеси агентів у командному рядку.
Xiaomi випустила MiMo V2.5 Pro 22 квітня 2026 року, запропонувавши повні мультимодальні можливості (image, audio, video) за $1 input і $3 output на (за мільйон токенів. Tencent випустила Hy3 у той самий день, що й GPT-5.5.
Для контексту цін: CEO Cline Сауд Різван зазначив, що якби Uber використав DeepSeek замість Claude, його бюджет на ШІ у 2026 році — як повідомляється, достатній для чотирьох місяців використання — проіснував би сім років.
![Pricing comparison and Uber budget analysis])https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29
І V4-Pro, і V4-Flash ліцензовані MIT та доступні на Hugging Face. Поки що моделі є лише текстовими; DeepSeek заявив, що працює над мультимодальними можливостями. Обидві моделі можна запускати безкоштовно на локальному обладнанні або налаштовувати відповідно до потреб компанії.
Існуючі endpoints deepseek-chat і deepseek-reasoner від DeepSeek уже маршрутизують до V4-Flash у режимах non-thinking і thinking відповідно. Старі endpoints deepseek-chat і deepseek-reasoner будуть виведені з експлуатації 24 липня 2026 року.
DeepSeek частково навчила V4 на чипах Huawei Ascend, обходячи обмеження на експорт США. Компанія заявила, що коли наприкінці 2026 року вийдуть на роботу 950 нових суперноду, вже низька ціна моделі Pro зменшиться ще більше.
Для підприємств структура ціноутворення може змінити розрахунки «витрати-вигоди». Модель, що лідирує в open-source бенчмарках із ціною $1.74 за мільйон вхідних токенів, робить обробку великих обсягів документів, юридичну перевірку та конвеєри генерації коду суттєво дешевшими, ніж за шість місяців до цього. Контекст на один мільйон токенів дозволяє обробляти цілі кодові бази або регуляторні подання в одному запиті замість того, щоб фрагментувати їх на кілька викликів.
Для розробників і сольних ентузіастів основною альтернативою є V4-Flash. За $0.14 за вхідні та $0.28 за вихідні на мільйон токенів, він дешевший, ніж моделі, що вважалися бюджетними рік тому, водночас обробляючи більшість задач, які виконує версія Pro.