Notícia do Gate, 24 de Abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, obtendo uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.
No regime prático com LeanExplore e amostragem condicionada, o V4-Flash-Max marcou 81.00 no benchmark Putnam-200 Pass@8, superando significativamente o Seed-2.0-Prover (35.50), o Gemini 3 Pro (26.50) e o Seed-1.5-Prover (26.50). Os resultados do regime de fronteira mostraram o V4 à frente do Seed-1.5-Prover (110/120) e do Aristotle (100/120).
O V4 utiliza uma abordagem híbrida de raciocínio formal-informal: o raciocínio informal gera soluções candidatas em linguagem natural, a auto-verificação filtra os resultados e um agente formal completa provas rigorosas no Lean. Os resultados do regime de fronteira usaram escalamento computacional em grande escala, enquanto as pontuações do regime prático reflectem melhor as capacidades padrão de implementação.
Related News
OpenAI lança o GPT-5.5: 12M de contexto, o índice AA atinge o topo, o Terminal-Bench reescreve a referência de agentes com 82,7%
Hyperliquid HYPE atinge a máxima de 60 dias no impulso HIP4
DeepSeek discute a primeira ronda de financiamento externo, avaliação de 20 mil milhões de dólares: nova máxima na avaliação de IA na China