Повідомлення Gate News, 22 квітня — аспірант Принстонського університету Юйфань Чжан розкрив повні технічні характеристики DeepSeek V4 у X після попереднього анонсу 19 квітня. V4 має загалом 1,6 трильйона параметрів і полегшений варіант V4-Lite, який містить 285 мільярдів параметрів.
Модель використовує механізм уваги DSA2, який поєднує попередню DSA (DeepSeek Sparse Attention) від V3.2 та NSA (Native Sparse Attention) із вкладеннями для голови розмірністю 512, у парі з Sparse Multi-Query Attention (MQA) та Sliding Window Attention (SWA). Рівень MoE (Mixture of Experts) містить 384 експерти, з 6 активованими під час кожного прямого проходу, із використанням Fused MoE Mega-Kernel. Від’ємні зв’язки застосовують архітектуру Hyper-Connections.
Деталі тренування, розкриті вперше, включають використання оптимізатора Muon (applying Newton-Schulz orthogonalization to momentum updates), контекстного вікна для попереднього навчання на 32K токенів, а також GRPO (Group Relative Policy Optimization) з корекцією за розбіжністю KL під час підкріплювального навчання. Кінцеве контекстне вікно розширюється до 1 мільйона токенів. Модель є лише текстовою.
Чжан не працює в DeepSeek, і компанія офіційно не коментувала розкриту інформацію.
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
Freshworks Скорочує 500 Робочих Місць у Пере-організації, Керованій ШІ
Freshworks, бізнес-компанія з Сан-Матео (штат Каліфорнія), 5 травня оголосила, що скоротить 11% свого штату, або приблизно 500 робочих місць по всьому світу, у межах реструктуризації, пов’язаної з ширшим використанням ШІ та автоматизації. Генеральний директор Деніс Вудсайд заявив, що ШІ тепер пише понад половину контенту компанії
CryptoFrontier29хв. тому
OpenAI запускає GPT-5.5 Instant для всіх користувачів ChatGPT починаючи з сьогодні
Відповідно до оголошення OpenAI від 6 травня, GPT-5.5 Instant тепер доступний усім користувачам ChatGPT. Для платних користувачів GPT-5.3 Instant залишатиметься доступним через налаштування моделей ще протягом наступних трьох місяців, перш ніж його буде знято. Функція пам’яті виходить на всі користувацькі плани ChatGPT у т
GateNews35хв. тому
Google тестує AI-агента «Remy» для Gemini, конкуренти відкривають OpenClaw
За даними Business Insider, Google тестує новий AI-агент під назвою Remy для Gemini 6 травня. Наразі агент доступний лише співробітникам у внутрішньому застосунку Gemini від Google. Він може виконувати дії від імені користувачів у межах роботи, навчання та щоденних завдань, одночасно інтегруючись з іншими продуктами Google
GateNews37хв. тому
Meta планує AI-асистента з підтримкою моделі Muse Spark, щоб скласти конкуренцію OpenClaw, для 3 мільярдів користувачів 6 травня
За даними Financial Times, Meta 6 травня будує високоперсоналізованого AI-асистента, щоб скласти конкуренцію OpenClaw, який працює на новій моделі Muse Spark. Інструмент буде обслуговувати понад 3 мільярди користувачів компанії та наразі проходить внутрішнє тестування. Асистент прагне дозволити користувачам створювати AI
GateNews37хв. тому
Alphabet наближається до ринкової капіталізації Nvidia на рівні 4,67 трильйона доларів, зростання на 24% цього року
За даними Reuters, станом на 6 травня Alphabet оцінювався приблизно в 4,67 трильйона доларів США, наближаючись до оцінки Nvidia у 4,79 трильйона доларів США, оскільки інвестори підтримують його стратегію в галузі ШІ та швидше зростання хмарних сервісів. Акції Alphabet зросли на 24% цього року, тоді як прибуток Nvidia становив 7%. Дохід Google Cloud зріс на 63% у
GateNews50хв. тому
Cloudflare: AI-агенти спричиняють нелюдський трафік, x402 пропонує рішення
Головний директор зі стратегії Cloudflare заявив, що нині понад половину трафіку в інтернеті становить не-людський трафік, підкресливши суттєву зміну моделей використання вебу, спричинену AI-агентами та автоматизованими системами. Керівник припустив, що x402 Foundation будує інфраструктуру для вирішення проблем
CryptoFrontier2год тому