Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, foram mantidas 30 tarefas para a avaliação de referência.
V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente Sonnet 4.5 em 47% e aproximando o Opus 4.5 em 70%. No entanto, fica aquém do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto excede substancialmente Haiku 4.5 em 13%.
Numa sondagem interna com 85 inquiridos, todos os participantes relataram utilizar V4-Pro para codificação agentica nos fluxos diários. 52% endossaram o V4-Pro como o seu modelo principal de codificação por defeito, 39% inclinaram-se para a aprovação, e menos de 9% manifestaram desaprovação. As questões reportadas incluíram erros de baixo nível, interpretação incorreta de prompts ambíguos e, ocasionalmente, um comportamento de excessiva ponderação.
Related News
OpenAI lança o GPT-5.5: 12M de contexto, o índice AA atinge o topo, o Terminal-Bench reescreve a referência de agentes com 82,7%
A Google revela a lista de candidatos ao novo lançamento da Jules e reposiciona-a como uma plataforma de desenvolvimento de produtos ponta-a-ponta
A Google alarga a Wiz Cloud Security a nível do AWS, Azure e Google Cloud