DeepSeek запустила V4 відкриту прев’ю-версію, технічний рейтинг 3206 перевершив GPT-5.4

DeepSeek V4開源預覽版

DeepSeek 24 квітня офіційно випустила серію V4-прев’ю, відкривши моделі з ліцензією MIT; ваги моделей синхронно завантажено на Hugging Face та ModelScope. Згідно з технічним звітом DeepSeek V4, V4-Pro-Max (максимально потужний режим міркувань) на бенчмарку Codeforces набрав 3206 балів, випередивши GPT-5.4.

Специфікації двох MoE-модельних архітектур

Згідно з технічним звітом DeepSeek V4, серія V4 включає дві змішані експертні (MoE) моделі:

V4-Pro: загальні параметри 1.6T, активація на кожен token 49B, підтримка контексту 1M token

V4-Flash: загальні параметри 284B, активація на кожен token 13B, так само підтримка контексту 1M token

Згідно зі звітом, у режимі 1M-контексту однотокенові FLOPs для міркувань V4-Pro становлять лише 27% від V3.2; кеш KV знижується до 10% від V3.2. Це головним чином завдяки архітектурному оновленню механізму змішаної уваги (CSA із стисненим розрідженим attention + HCA з важким стисненням attention). Розмір даних для передтренування перевищує 32T token; тренувальний оптимізатор оновлено до Muon.

Методологія післятренування: онлайн-стратегічна дистиляція замість змішаного підкріплювального навчання

Згідно з технічним звітом DeepSeek V4, ключове оновлення післятренування V4 полягає в тому, що онлайн-стратегічна дистиляція (On-Policy Distillation, OPD) повністю замінює етап змішаного підкріплювального навчання (mixed RL) V3.2. Новий процес складається з двох кроків: спочатку для таких галузей, як математика, код, Agent та наслідування інструкцій, окремо тренуються галузеві експерти (SFT + GRPO підкріплювальне навчання); далі за допомогою OPD з багатьма вчителями здібності десятка з лишком експертів дистилюються в єдину модель, використовуючи вирівнювання через logit, щоб уникнути типових конфліктів здібностей у традиційних підходах.

Звіт також вводить генеративну модель винагороди (Generative Reward Model, GRM): для задач, які складно валідовувати правилами, за допомогою невеликого обсягу різноманітно розмічених вручну даних навчають модель виконувати одночасно функції генерації та оцінювання.

Результати бенчмарків: кодування попереду, з міркуваннями за знаннями — відставання

Згідно з технічним звітом DeepSeek V4, результати порівняння V4-Pro-Max з Opus 4.6 Max, GPT-5.4 xHigh та Gemini 3.1 Pro High (без урахування нещодавно опублікованих GPT-5.5 та Opus 4.7):

Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → найвищий результат у всьому заліку

LiveCodeBench: 93.5 → найвищий результат у всьому заліку

SWE Verified: 80.6, відставання від Opus 4.6 на 80.8, різниця 0.2 відсоткового пункту

GPQA Diamond: 90.1, відставання від Gemini 3.1 Pro на 94.3

SimpleQA-Verified: 57.9, відставання від Gemini 3.1 Pro на 75.6

HLE: 37.7, відставання від Gemini 3.1 Pro на 44.4

Технічний звіт також зазначає, що наведені вище порівняння не враховують нещодавно опубліковані GPT-5.5 та Opus 4.7; відмінності між V4 і найновішими закритими моделями потребують підтвердження сторонніми незалежними оцінюваннями.

Поширені питання

Які умови відкритої ліцензії для DeepSeek V4-прев’ю та де їх можна отримати?

Згідно з офіційним оголошенням DeepSeek від 24 квітня, серія V4 відкрито поширюється за ліцензією MIT; ваги моделей розміщені на Hugging Face та ModelScope; застосовна для комерційного та академічного використання.

У чому різниця в масштабі параметрів між DeepSeek V4-Pro і V4-Flash?

Згідно з технічним звітом DeepSeek V4, V4-Pro має загалом 1.6T параметрів, активація на кожен token — 49B; V4-Flash має загалом 284B параметрів, активація на кожен token — 13B; обидві моделі підтримують контекст 1M token.

Якими є результати бенчмаркового порівняння DeepSeek V4-Pro-Max з GPT-5.4 та Gemini 3.1 Pro?

Згідно з технічним звітом DeepSeek V4, V4-Pro-Max у двох бенчмарках — Codeforces (3206 балів) і LiveCodeBench (93.5) — перевершив GPT-5.4 та Gemini 3.1 Pro, але в знаннєво-інтенсивних бенчмарках (GPQA Diamond, SimpleQA-Verified, HLE) все ще відстає від Gemini 3.1 Pro; у складі порівняльного набору не враховані GPT-5.5 та Opus 4.7.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів