A Google DeepMind lançou o co-matemático de IA, um assistente de investigação matemática multi-agente, alcançando 47,9% de precisão no benchmark FrontierMath Tier 4, superando o recorde anterior do GPT-5.5 Pro de 39,6% a 9 de maio. O sistema resolveu 23 de 48 problemas, incluindo 3 que todos os modelos anteriores falharam em resolver. Construído sobre o Gemini 3.1 Pro, a arquitetura usa um design hierárquico com um agente coordenador de projeto que distribui tarefas por sub-agentes encarregues de pesquisa de literatura, codificação e raciocínio, com vários agentes avaliadores a validar as provas antes da submissão.
A Epoch AI realizou testes cegos, impedindo a equipa da DeepMind de ver os problemas, com cada questão permitida até 48 horas de computação. Numa aplicação no mundo real, o matemático Marc Lackenby usou o sistema para resolver uma conjectura em aberto do Kourovka Notebook, demonstrando o seu valor prático para investigação. O sistema está atualmente disponível para um número limitado de matemáticos em testes beta.
Related News
Jeff Kaufman: A IA rompe simultaneamente duas culturas de vulnerabilidades de segurança e um período de embargo de 90 dias acaba por ter um efeito contrário
OpenAI revela impacto inesperado na pontuação do CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA
Os GPT-5.5-Cyber da OpenAI armam os defensores cibernéticos