Архитектура DeepSeek V4 подтверждена: 3 из 4 прогнозов сбылись, модуля Engram нет

Сообщение Gate News, 24 апреля — DeepSeek выпустила сегодня карточку модели V4, подтвердив более ранние архитектурные прогнозы, сделанные в ходе анализа библиотеки ядер TileKernels, выпущенной вчера (23 апреля). По данным мониторинга от Beating, были подтверждены три ключевых компонента: mHC (Manifold-Constrained Hyper-Connections) вместо исходного HyperConnection от ByteDance, архитектура MoE с маршрутизацией Top-k для экспертов и хранение весов со смешанной точностью FP4+FP8. Прогнозируемый условный модуль памяти Engram не появился в карточке модели.

В карточке модели раскрыты новые компоненты, не охваченные TileKernels: гибридные механизмы внимания (CSA + HCA) обеспечивают прирост эффективности V4 в длинном контексте, снижая число FLOPs при инференсе до всего 27% от уровня V3.2 на окнах контекста 1M, а кэш KV — до 10%. Теперь при обучении используется оптимизатор Muon.

Проверка демонстрирует, как реализации ядер уровня production могут раскрывать базовую архитектуру модели до публикации официальных спецификаций.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

DeepSeek V4 получает идеальный результат на Putnam-2025, делит первое место с Axiom в формальном математическом рассуждении

Gate News сообщение, 24 апреля — DeepSeek V4 опубликовала результаты оценок формального математического рассуждения, набрав идеальные 120/120 на Putnam-2025, разделив первое место с Axiom. В практическом режиме с использованием LeanExplore и ограниченной выборки V4-Flash-Max набрала 81.00 по

GateNews3м назад

С каким ИИ можно наиболее явно показать свой статус и положение? Исследование раскрывает, что доходы пользователей Claude значительно выше, чем у конкурентов; Meta AI внизу

Расследование Epoch AI показывает, что пользователи Claude в основном относятся к группе с высоким доходом: у 80% годовой доход превышает 100 000 долларов США; у Meta AI самое широкое распределение по доходам: 36,5% имеют доход свыше 100 000, при этом самая высокая доля приходится на пользователей с низким доходом; цены на Claude выросли и введена многоуровневая тарификация, поэтому затраты могут увеличиться, в то время как Meta для новичков доступнее. Какая AI в будущем может стать скрытой меткой идентичности.

ChainNewsAbmedia9м назад

V4-Pro демонстрирует 67% процент успешного прохождения кода во внутреннем тесте догфудинга, приближаясь к производительности Opus 4.5

Сообщение Gate News, 24 апреля — V4 публично раскрыла внутренние данные догфудинга для своей модели V4-Pro. Компания собрала примерно 200 реальных инженерных задач от более чем 50 инженеров, охватив разработку функций, исправление ошибок, рефакторинг и диагностику в различных технологических стеках, включая

GateNews23м назад

Великобритания изучает Anthropic AI, чтобы усилить кибербезопасность банков

Великобритания изучает крупный шаг в финансовой кибербезопасности, сотрудничая с компанией по ИИ Anthropic. Ранние обсуждения предполагают, что правительство может развернуть продвинутую модель Claude Mythos от Anthropic во всех банках и финансовых учреждениях. Этот шаг направлен на улучшение защиты от киберугроз,

CryptometerIo28м назад

Ведомство по ИС Китая добавило ИИ, полупроводники и интерфейсы «мозг-компьютер» в программу ускоренной защиты

Сообщение Gate News, 24 апреля — Национальное управление по интеллектуальной собственности Китая объявило 24 апреля, что оно создаст всеобъемлющую систему охраны прав интеллектуальной собственности для emerging technologies посредством институциональных реформ, улучшенных услуг и расширенных применений. Управление wi

GateNews34м назад

Военный флот США использует рабочий биткоин-узел без майнинга, указывает адмирал

Старший адмирал указал, что правительство США активно управляет нодой в сети Bitcoin, при этом намеренно избегая участия в майнинге. Раскрытие информации предполагает, что власти принимают более активную роль в инфраструктуре блокчейна для надзора и

CryptoFrontier50м назад
комментарий
0/400
Нет комментариев