Yifan Zhang divulga as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 especialistas com 6 ativações

Mensagem do Gate News, 22 de abril — O estudante de doutoramento da Princeton, Yifan Zhang, divulgou no X especificações técnicas completas para o DeepSeek V4, na sequência de uma antevisão a 19 de abril. O V4 conta com 1,6 biliões de parâmetros no total e uma variante leve, V4-Lite, com 285 mil milhões de parâmetros.

O modelo utiliza o mecanismo de atenção DSA2, que combina a anterior DSA (DeepSeek Sparse Attention) da DeepSeek da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeça de 512 dimensões, em conjunto com a Sparse Multi-Query Attention (MQA) e a Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas, com 6 ativados por passagem forward, utilizando o Fused MoE Mega-Kernel. As ligações residuais recorrem à arquitectura Hyper-Connections.

Os detalhes de treino revelados pela primeira vez incluem o uso do optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treino de 32K tokens e o GRPO (Group Relative Policy Optimization) com correcção de divergência KL durante a aprendizagem por reforço. A janela de contexto final estende-se até 1 milhão de tokens. O modelo é apenas de texto.

Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário