Arquitetura DeepSeek V4 Verificada: 3 de 4 Previsões Acertadas, Módulo Engram Ausente

Mensagem de notícias do Gate, 24 de abril — A DeepSeek lançou hoje o cartão do modelo V4, validando as previsões arquiteturais anteriores feitas por meio da análise da biblioteca de kernels TileKernels lançada ontem (23 de abril). De acordo com o monitoramento da Beating, três componentes principais foram confirmados: mHC (Manifold-Constrained Hyper-Connections) substituindo o HyperConnection original da ByteDance, arquitetura MoE com roteamento de especialistas Top-k, e armazenamento de pesos de precisão mista FP4+FP8. O módulo de memória condicional Engram previsto não apareceu no cartão do modelo.

O cartão do modelo revelou novos componentes não cobertos pelo TileKernels: mecanismos híbridos de atenção (CSA + HCA) impulsionam os ganhos de eficiência de longo contexto do V4, reduzindo as FLOPs de inferência para apenas 27% do nível do V3.2 em janelas de contexto de 1M e cache KV para 10%. O treinamento agora usa o otimizador Muon.

A verificação demonstra como implementações de kernels em nível de produção podem revelar a arquitetura subjacente do modelo antes de especificações oficiais serem publicadas.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Meta Platforms Planeja Redução de 10% da Força de Trabalho em 20 de Maio, Afetando Aproximadamente 8.000 Posições

Mensagem do Gate News, 24 de abril — A Meta Platforms planeja reduzir sua força de trabalho em aproximadamente 10%, afetando cerca de 8.000 vagas, em 20 de maio. Os desligamentos têm a intenção de melhorar a eficiência operacional enquanto aumentam os investimentos em inteligência artificial. A reorganização planejada reflete a

GateNews45m atrás

O governo Trump divulgou um plano de combate ao reprocessamento de IA e acusou empresas chinesas de roubo sistemático de capacidades de modelos

Escritório de Políticas de Tecnologia da Casa Branca (OSTP), o Assistente do Presidente Michael J. Kratsios em 23 de abril divulgou um comunicado oficial, afirmando que o governo Trump tem informações que mostram que entidades estrangeiras (principalmente sediadas na China) estão deliberadamente mirando grandes empresas de IA dos EUA, extraindo sistematicamente a capacidade dos modelos de IA americanos por meio de “dezenas de milhares de contas de agentes” e sistemas de tecnologia de jailbreak, além de divulgar simultaneamente quatro medidas de resposta.

MarketWhisper1h atrás

DeepSeek lança uma versão de pré-visualização open source do V4, pontuação técnica 3206 superando o GPT-5.4

DeepSeek lançou oficialmente a série de pré-visualização V4 em 24 de abril, sob uma licença MIT de código aberto, com os pesos do modelo também disponíveis no Hugging Face e no ModelScope. De acordo com o relatório técnico do DeepSeek V4, o V4-Pro-Max (modo de força máxima de inferência) obteve 3206 pontos no benchmark do Codeforces, superando o GPT-5.4.

MarketWhisper1h atrás

Cambricon Conclui Adaptação do Day 0 do DeepSeek-V4, Marcando um Marco para o Ecossistema de Chips de IA da China

Mensagem do Gate News, 24 de abril — A Cambricon anunciou hoje que concluiu a adaptação do Day 0 do DeepSeek-V4, o mais recente modelo de linguagem grande da DeepSeek, usando seu ecossistema proprietário de software NeuWare e a estrutura vLLM. O código de adaptação foi disponibilizado simultaneamente como open source, marcando o

GateNews1h atrás

A prévia do Hy3 open source da Tencent melhora em 40% os testes de benchmark de código em relação à versão anterior

A Tencent lançou oficialmente o modelo de linguagem grande Hy3 em versão de prévia no GitHub, no Hugging Face e na plataforma ModelScope em 23 de abril, e também disponibilizou simultaneamente um serviço de API pago no Tencent Cloud. De acordo com uma reportagem da Decrypt em 24 de abril, a versão de prévia do Hy3 iniciou o treinamento no final de janeiro e, até a data de publicação, havia menos de três meses.

MarketWhisper1h atrás

Investimentos do Portfólio da FTX no Valor de 158 Trilhões de Won, Se Não Tivesse Falido

FTX, a exchange centralizada de criptomoedas que entrou com pedido de proteção contra falência Capítulo 11 em novembro de 2022 devido a escassez de liquidez e saídas de capital, teria mantido investimentos avaliados em aproximadamente 158,796 trilhões de won se não tivesse colapsado, de acordo com uma análise citada por Park

CryptoFrontier1h atrás
Comentário
0/400
Sem comentários