Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.
Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.
Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.
Related News
OpenAI 推 GPT-5.5:12M контекст, AA індекс на першому місці, Terminal-Bench 82.7% переписує агентський бенчмарк
Google Jules запускає список оновлених кандидатів у відкритому доступі та перевизначає його як платформу для розробки end-to-end продуктів
DeepSeek веде переговори про перший раунд зовнішнього фінансування, оцінка 20 мільярдів доларів США: новий рекорд оцінки для AI у Китаї