DeepSeek V4 Obtém Pontuação Perfeita no Putnam-2025, Empata com a Axiom em Raciocínio Matemático Formal

Notícia do Gate, 24 de Abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, obtendo uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.

No regime prático com LeanExplore e amostragem condicionada, o V4-Flash-Max marcou 81.00 no benchmark Putnam-200 Pass@8, superando significativamente o Seed-2.0-Prover (35.50), o Gemini 3 Pro (26.50) e o Seed-1.5-Prover (26.50). Os resultados do regime de fronteira mostraram o V4 à frente do Seed-1.5-Prover (110/120) e do Aristotle (100/120).

O V4 utiliza uma abordagem híbrida de raciocínio formal-informal: o raciocínio informal gera soluções candidatas em linguagem natural, a auto-verificação filtra os resultados e um agente formal completa provas rigorosas no Lean. Os resultados do regime de fronteira usaram escalamento computacional em grande escala, enquanto as pontuações do regime prático reflectem melhor as capacidades padrão de implementação.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário