DeepSeek V4-Pro запускається з 98% нижчою вартістю, ніж GPT-5.5 Pro

CryptoFrontier

DeepSeek випустила попередні версії DeepSeek-V4-Pro та DeepSeek-V4-Flash 24 квітня 2026 року — обидві є моделями з відкритими вагами з контекстним вікном на один мільйон токенів і з ціноутворенням суттєво нижчим, ніж у порівнянних західних альтернатив. Модель V4-Pro коштує $1.74 за мільйон вхідних токенів і $3.48 за мільйон вихідних токенів — приблизно 1/20 частина ціни Claude Opus 4.7 і на 98% менше, ніж GPT-5.5 Pro, згідно з офіційними специфікаціями компанії.

Архітектура моделі та масштаб

DeepSeek-V4-Pro має 1.6 трильйона загальних параметрів, що робить її найбільшою відкритою моделлю з моменту появи на ринку LLM до цього часу. Однак лише 49 мільярдів параметрів активуються для кожного проходу інференсу, використовуючи підхід Mixture-of-Experts, який DeepSeek називає і доопрацьовує з часів V3. Ця конструкція дозволяє всій моделі залишатися в сплячому режимі, тоді як активуються лише релевантні її фрагменти для будь-якого запиту, знижуючи витрати на обчислення та водночас зберігаючи потенціал знань.

DeepSeek-V4-Flash працює на меншому масштабі: 284 мільярди загальних параметрів і 13 мільярдів активних параметрів. Згідно з бенчмарками DeepSeek, він «досягає порівнянної з версією Pro продуктивності міркувань, коли йому виділяють більший бюджет на “думки”».

Обидві моделі підтримують контекст на один мільйон токенів як стандартну функцію — приблизно 750,000 слів, або приблизно вся трилогія «Володар перснів» плюс додаткові тексти.

Технічні інновації: механізми уваги в масштабі

DeepSeek вирішив проблему масштабування обчислень, притаманну обробці довгого контексту, винайшовши два нові типи уваги, як детально описано в технічному документі компанії, доступному на GitHub.

Стандартні механізми уваги в ШІ стикаються з жорсткою проблемою масштабування: щоразу, коли довжина контексту подвоюється, вартість обчислень приблизно чотириразово зростає. Рішення DeepSeek передбачає два взаємодоповнювальні підходи:

Compressed Sparse Attention працює у два кроки. Спочатку вона стискає групи токенів — наприклад, кожні 4 токени — в один запис. Потім, замість того щоб звертати увагу на всі стиснені записи, вона використовує «Lightning Indexer», щоб вибрати лише найбільш релевантні результати для будь-якого запиту. Це зменшує область уваги моделі з мільйона токенів до значно меншого набору важливих фрагментів.

Heavily Compressed Attention використовує більш агресивний підхід: згортає кожні 128 токенів в один запис без розрідженого відбору. Хоча це втрачає деталізацію, зате дає надзвичайно дешевий глобальний огляд. Обидва типи уваги працюють у чергувальних шарах, дозволяючи моделі підтримувати і деталізацію, і огляд.

Attention mechanism comparison chart

Результат: V4-Pro використовує 27% від обчислювальних ресурсів свого попередника (V3.2). KV cache — пам’ять, потрібна для відстеження контексту — падає до 10% від V3.2. V4-Flash ще більше підвищує ефективність: 10% обчислень і 7% пам’яті проти V3.2.

Продуктивність у бенчмарках і конкурентне становище

DeepSeek опублікував детальні порівняння в бенчмарках проти GPT-5.4 та Gemini-3.1-Pro, включно з напрямами, де V4-Pro поступається конкурентам. У задачах на міркування, за технічним звітом DeepSeek, міркування V4-Pro відстають від GPT-5.4 та Gemini-3.1-Pro приблизно на три–шість місяців.

Де V4-Pro лідирує:

  • Codeforces (competitive programming): V4-Pro набрав 3,206, що ставить його приблизно на 23-тє місце серед реальних учасників людських змагань
  • Apex Shortlist (curated math and STEM problems): 90.2% рівень проходження проти Opus 4.6 (85.9%) та GPT-5.4 (78.1%)
  • SWE-Verified (GitHub issue resolution): 80.6%, що дорівнює Claude Opus 4.6

Де V4-Pro поступається:

  • MMLU-Pro (multitasking): Gemini-3.1-Pro — 91.0% проти V4-Pro — 87.5%
  • GPQA Diamond (expert knowledge): Gemini — 94.3 проти V4-Pro — 90.1
  • Humanity’s Last Exam (graduate-level): Gemini-3.1-Pro — 44.4% проти V4-Pro — 37.7%

У задачах із довгим контекстом V4-Pro лідирує серед відкритих моделей і випереджає Gemini-3.1-Pro у CorpusQA (simulating real document analysis at one million tokens), але поступається Claude Opus 4.6 у MRCR, який вимірює пошук конкретної інформації, похованої глибоко в довгому тексті.

Агентні та кодувальні можливості

V4-Pro може працювати в Claude Code, OpenCode та інших інструментах кодування для ШІ. Згідно з внутрішнім опитуванням DeepSeek серед 85 розробників, які використовували V4-Pro як основного агента для кодування, 52% заявили, що він готовий стати їхньою моделлю за замовчуванням, 39% схилялися до «так», і менше ніж 9% сказали «ні». Внутрішні тести DeepSeek показали, що V4-Pro перевершує Claude Sonnet і наближається до Claude Opus 4.5 у агентних задачах кодування.

Artificial Analysis поставила V4-Pro першим серед усіх моделей з відкритими вагами в GDPval-AA — бенчмарку, що тестує економічно цінну роботу зі знаннями в межах фінансів, права та дослідницьких задач. V4-Pro-Max набрав 1,554 Elo, випереджаючи GLM-5.1 (1,535) і MiniMax’s M2.7 (1,514). Claude Opus 4.6 набирає 1,619 на цьому ж бенчмарку.

GDPval-AA benchmark ranking chart

V4 вводить «перемежоване мислення», яке зберігає повний ланцюг міркувань у викликах інструментів. У попередніх моделях, коли агент робив кілька викликів інструментів — наприклад, шукав у вебі, запускав код, а потім знову шукав — контекст міркувань моделі очищався між раундами. V4 зберігає наступність міркувань між кроками, запобігаючи втраті контексту в складних автоматизованих робочих процесах.

Конкурентний ландшафт і контекст ціноутворення

Реліз V4 виходить на тлі значної активності в сфері ШІ. Anthropic відвантажила Claude Opus 4.7 16 квітня 2026 року. GPT-5.5 OpenAI запущено 23 квітня 2026 року, а GPT-5.5 Pro оцінено в $30 за мільйон вхідних токенів і $180 за мільйон вихідних токенів. GPT-5.5 обганяє V4-Pro на Terminal Bench 2.0 (82.7% проти 70.0%), який тестує складні робочі процеси агентів у командному рядку.

Xiaomi випустила MiMo V2.5 Pro 22 квітня 2026 року, запропонувавши повні мультимодальні можливості (image, audio, video) за $1 input і $3 output на (за мільйон токенів. Tencent випустила Hy3 у той самий день, що й GPT-5.5.

Для контексту цін: CEO Cline Сауд Різван зазначив, що якби Uber використав DeepSeek замість Claude, його бюджет на ШІ у 2026 році — як повідомляється, достатній для чотирьох місяців використання — проіснував би сім років.

![Pricing comparison and Uber budget analysis])https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29

Розгортання та доступність

І V4-Pro, і V4-Flash ліцензовані MIT та доступні на Hugging Face. Поки що моделі є лише текстовими; DeepSeek заявив, що працює над мультимодальними можливостями. Обидві моделі можна запускати безкоштовно на локальному обладнанні або налаштовувати відповідно до потреб компанії.

Існуючі endpoints deepseek-chat і deepseek-reasoner від DeepSeek уже маршрутизують до V4-Flash у режимах non-thinking і thinking відповідно. Старі endpoints deepseek-chat і deepseek-reasoner будуть виведені з експлуатації 24 липня 2026 року.

DeepSeek частково навчила V4 на чипах Huawei Ascend, обходячи обмеження на експорт США. Компанія заявила, що коли наприкінці 2026 року вийдуть на роботу 950 нових суперноду, вже низька ціна моделі Pro зменшиться ще більше.

Практичні наслідки

Для підприємств структура ціноутворення може змінити розрахунки «витрати-вигоди». Модель, що лідирує в open-source бенчмарках із ціною $1.74 за мільйон вхідних токенів, робить обробку великих обсягів документів, юридичну перевірку та конвеєри генерації коду суттєво дешевшими, ніж за шість місяців до цього. Контекст на один мільйон токенів дозволяє обробляти цілі кодові бази або регуляторні подання в одному запиті замість того, щоб фрагментувати їх на кілька викликів.

Для розробників і сольних ентузіастів основною альтернативою є V4-Flash. За $0.14 за вхідні та $0.28 за вихідні на мільйон токенів, він дешевший, ніж моделі, що вважалися бюджетними рік тому, водночас обробляючи більшість задач, які виконує версія Pro.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
AprDaydreamvip
· 4год тому
Сподіваюся, офіційні органи нададуть механізм аудиту дій/відтворення, інакше у разі проблем важко буде притягнути до відповідальності, особливо щодо автоматичних операцій з активами.
Переглянути оригіналвідповісти на0
PaperHandsProvip
· 4год тому
Реальне застосування «розуміння намірів» — це справжня складність, сподіваюся, більше не з’являтиметься ситуація, коли ви хочете забронювати квитки на літак, а він змінює ваше резюме.
Переглянути оригіналвідповісти на0
Half-SectionedSucculentvip
· 4год тому
Трохи сподівань, трохи страху: можливість натиснути мишею означає, що можна робити багато речей, які раніше могли виконуватися лише за допомогою «людських кліків», тому системи управління ризиками та протидії шахрайству потрібно оновлювати.
Переглянути оригіналвідповісти на0
ACalmnessWithAHintOfPomelovip
· 4год тому
Ця хвиля також вплине на Web3, адже автоматизація ланцюгових операцій, процеси підпису та взаємодія з гаманцями, якщо їх зробити безшовними, змінить форму продукту.
Переглянути оригіналвідповісти на0
StarsInTheGlassDomevip
· 4год тому
API і ціну поки не поспішайте, спершу подивіться, чи може вона витримати спливаючі вікна, багатоконтурність і коливання мережі у складному настільному середовищі.
Переглянути оригіналвідповісти на0
GateUser-b665e41cvip
· 4год тому
Відчуття еволюції від «можу говорити і писати» до «можу виконувати та доставляти», наступним кроком є надання їй кращої пам’яті та управління завданнями.
Переглянути оригіналвідповісти на0
LintCollectorvip
· 4год тому
Якщо справді можливо з'єднати через різні застосунки: пошук інформації у браузері → обробка в Excel → створення презентації у PowerPoint → надсилання електронною поштою, тоді це буде повний цикл роботи офісного процесу.
Переглянути оригіналвідповісти на0
DegenWithNotebookvip
· 4год тому
Нарешті з’явилися на настільних платформах у нативному режимі? Тепер справді доведеться бути «цифровим стажером».
Переглянути оригіналвідповісти на0