V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Aproximando o Desempenho do Opus 4.5

Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, foram mantidas 30 tarefas para a avaliação de referência.

V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente Sonnet 4.5 em 47% e aproximando o Opus 4.5 em 70%. No entanto, fica aquém do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto excede substancialmente Haiku 4.5 em 13%.

Numa sondagem interna com 85 inquiridos, todos os participantes relataram utilizar V4-Pro para codificação agentica nos fluxos diários. 52% endossaram o V4-Pro como o seu modelo principal de codificação por defeito, 39% inclinaram-se para a aprovação, e menos de 9% manifestaram desaprovação. As questões reportadas incluíram erros de baixo nível, interpretação incorreta de prompts ambíguos e, ocasionalmente, um comportamento de excessiva ponderação.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário