V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, 30 tarefas foram mantidas para a avaliação do benchmark.

O V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente o Sonnet 4.5 em 47% e chegando perto do Opus 4.5 em 70%. No entanto, fica atrás do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto supera substancialmente o Haiku 4.5 em 13%.

Em uma pesquisa interna com 85 respondentes, todos os participantes relataram usar o V4-Pro para codificação agentic em fluxos de trabalho diários. 52% endossaram o V4-Pro como seu modelo principal padrão de codificação, 39% tenderam à aprovação, e menos de 9% expressaram desaprovação. Os problemas relatados incluíam erros de baixo nível, interpretação incorreta de prompts ambíguos e comportamento ocasional de excesso de pensamento.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários