O DeepSeek lançou versões de pré-visualização do DeepSeek-V4-Pro e do DeepSeek-V4-Flash a 24 de abril de 2026, ambos modelos open-weight com janelas de contexto de um milhão de tokens e preços significativamente inferiores aos de alternativas ocidentais comparáveis. O modelo V4-Pro custa $1.74 por cada milhão de tokens de entrada e $3.48 por cada milhão de tokens de saída — aproximadamente 1/20 do preço do Claude Opus 4.7 e 98% menos do que o GPT-5.5 Pro, de acordo com as especificações oficiais da empresa.
O DeepSeek-V4-Pro apresenta 1,6 biliões de parâmetros totais, tornando-o no maior modelo open-source no mercado de LLM até à data. No entanto, apenas 49 mil milhões de parâmetros são ativados por passagem de inferência, recorrendo ao que a DeepSeek chama abordagem Mixture-of-Experts, refinada desde a V3. Este desenho permite que o modelo completo permaneça inativo, enquanto apenas os segmentos relevantes são ativados para qualquer pedido em particular, reduzindo os custos de computação enquanto mantém a capacidade de conhecimento.
O DeepSeek-V4-Flash opera numa escala menor, com 284 mil milhões de parâmetros totais e 13 mil milhões de parâmetros ativos. De acordo com os benchmarks da DeepSeek, ele “atinge desempenho de raciocínio comparável ao da versão Pro quando lhe é atribuído um orçamento de pensamento maior.”
Ambos os modelos suportam um milhão de tokens de contexto como funcionalidade padrão — aproximadamente 750.000 palavras, ou cerca do total da trilogia “O Senhor dos Anéis”, mais texto adicional.
A DeepSeek resolveu o problema de escalabilidade computacional inerente ao processamento de longos contextos ao inventar dois novos tipos de atenção, conforme descrito no artigo técnico da empresa disponível no GitHub.
Os mecanismos de atenção padrão de IA enfrentam um problema brutal de escalabilidade: sempre que o comprimento do contexto dobra, o custo de computação aumenta aproximadamente quatro vezes. A solução da DeepSeek envolve duas abordagens complementares:
Atenção Sparsity Comprimida funciona em dois passos. Primeiro, comprime grupos de tokens — por exemplo, cada 4 tokens — numa única entrada. Depois, em vez de atender a todas as entradas comprimidas, usa um “Lightning Indexer” para selecionar apenas os resultados mais relevantes para qualquer query em particular. Isto reduz o âmbito da atenção do modelo de um milhão de tokens para um conjunto muito menor de chunks importantes.
Atenção Fortemente Comprimida adota uma abordagem ainda mais agressiva, colapsando cada 128 tokens numa única entrada sem seleção sparsity. Embora isto perca detalhe fino, proporciona uma visão global extremamente barata. Os dois tipos de atenção executam-se em camadas alternadas, permitindo ao modelo manter tanto o detalhe como a visão geral.
O resultado: o V4-Pro usa 27% da computação que o seu predecessor (V3.2) exigia. A KV cache — a memória necessária para rastrear o contexto — desce para 10% da V3.2. O V4-Flash empurra a eficiência ainda mais: 10% de computação e 7% de memória face à V3.2.
A DeepSeek publicou comparações abrangentes em benchmarks contra o GPT-5.4 e o Gemini-3.1-Pro, incluindo áreas em que o V4-Pro fica atrás dos concorrentes. Em tarefas de raciocínio, o raciocínio do V4-Pro fica atrás do GPT-5.4 e do Gemini-3.1-Pro em aproximadamente três a seis meses, segundo o relatório técnico da DeepSeek.
Onde o V4-Pro lidera:
Onde o V4-Pro fica para trás:
Em tarefas de longo contexto, o V4-Pro lidera modelos open-source e bate o Gemini-3.1-Pro em CorpusQA (simulando análise real de documentos a um milhão de tokens), mas perde para o Claude Opus 4.6 no MRCR, que mede a recuperação de informação específica enterrada profundamente em texto longo.
O V4-Pro pode ser executado no Claude Code, OpenCode e outras ferramentas de codificação de IA. De acordo com o inquérito interno da DeepSeek a 85 programadores que usaram o V4-Pro como agente primário de codificação, 52% disseram que estava pronto para ser o modelo por defeito, 39% inclinaram-se para “sim” e menos de 9% disseram “não”. O teste interno da DeepSeek indicou que o V4-Pro supera o Claude Sonnet e aproxima-se do Claude Opus 4.5 em tarefas de codificação agentic.
A Artificial Analysis classificou o V4-Pro em primeiro lugar entre todos os modelos open-weight no GDPval-AA, um benchmark que testa trabalho de conhecimento economicamente valioso em tarefas de finanças, legais e de pesquisa. O V4-Pro-Max obteve 1,554 Elo, à frente do GLM-5.1 (1,535) e do MiniMax’s M2.7 (1,514). O Claude Opus 4.6 obtém 1,619 no mesmo benchmark.
O V4 introduz “interleaved thinking”, que retém toda a cadeia de pensamento ao longo das chamadas às ferramentas. Nos modelos anteriores, quando um agente fazia múltiplas chamadas a ferramentas — como procurar na web, executar código e depois procurar novamente — o contexto de raciocínio do modelo era limpo entre rondas. O V4 mantém a continuidade do raciocínio entre etapas, evitando perda de contexto em fluxos de trabalho automatizados complexos.
O lançamento do V4 chega num momento de atividade significativa no espaço de IA. A Anthropic fez o lançamento do Claude Opus 4.7 a 16 de abril de 2026. O GPT-5.5 da OpenAI foi lançado a 23 de abril de 2026, com o GPT-5.5 Pro com preços de $30 por cada milhão de tokens de entrada e $180 por cada milhão de tokens de saída. O GPT-5.5 vence o V4-Pro no Terminal Bench 2.0 (82.7% versus 70.0%), que testa fluxos de trabalho complexos de agentes em linha de comandos.
A Xiaomi lançou o MiMo V2.5 Pro a 22 de abril de 2026, oferecendo capacidades multimodais completas (imagem, áudio, vídeo) a $1 por cada milhão de tokens de entrada e $3 por cada milhão de tokens de saída. A Tencent lançou o Hy3 no mesmo dia do GPT-5.5.
Para contexto de preços: o CEO da Cline, Saoud Rizwan, notou que se a Uber tivesse usado a DeepSeek em vez do Claude, o seu orçamento de IA de 2026 — alegadamente suficiente para quatro meses de utilização — teria durado sete anos.
Tanto o V4-Pro como o V4-Flash são licenciados pela MIT e disponíveis no Hugging Face. Por agora, os modelos são apenas de texto; a DeepSeek afirmou que está a trabalhar capacidades multimodais. Ambos os modelos podem ser executados gratuitamente em hardware local ou personalizados com base nas necessidades da empresa.
Os endpoints existentes deepseek-chat e deepseek-reasoner da DeepSeek já encaminham para o V4-Flash nos modos non-thinking e thinking, respetivamente. Os antigos endpoints deepseek-chat e deepseek-reasoner ficarão descontinuados a 24 de julho de 2026.
A DeepSeek treinou parcialmente o V4 em chips Huawei Ascend, contornando restrições de exportação dos EUA. A empresa afirmou que, quando 950 novos supernodes entrarem em funcionamento mais tarde em 2026, o preço já baixo do modelo Pro irá cair ainda mais.
Para empresas, a estrutura de preços pode alterar os cálculos custo-benefício. Um modelo que lidera benchmarks open-source a $1.74 por cada milhão de tokens de entrada torna o processamento de documentos em grande escala, a revisão legal e os pipelines de geração de código substancialmente mais baratos do que há seis meses. O contexto de um milhão de tokens permite que bases de código inteiras ou formulários regulamentares sejam processados num único pedido em vez de ser segmentados em múltiplas chamadas.
Para programadores e criadores individuais, o V4-Flash é a consideração principal. A $0.14 de entrada e $0.28 de saída por cada milhão de tokens, é mais barato do que modelos considerados opções de orçamento há um ano, enquanto lida com a maior parte das tarefas que a versão Pro gere.