Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема PyTorch, CUDA, Rust і C++. Після ретельної фільтрації для оцінювання в бенчмарку було збережено 30 завдань.
V4-Pro-Max досягла 67% частки успішних проходжень коду, суттєво випередивши Sonnet 4.5 із 47% та наблизившись до Opus 4.5 із 70%. Однак вона поступається Opus 4.5 Thinking (73%) та Opus 4.6 Thinking (80%), тоді як значно перевищує Haiku 4.5 із 13%.
У внутрішньому опитуванні за участю 85 респондентів усі учасники повідомили, що щоденні робочі процеси для агентного програмування використовують V4-Pro. 52% підтримали V4-Pro як свій основний модельний вибір для кодування за замовчуванням, 39% схилялися до схвалення, і менш ніж 9% висловили незгоду. Повідомлені проблеми включали низькорівневі помилки, неправильне тлумачення неоднозначних запитів і інколи надмірно обдуману поведінку.
Related News
OpenAI 推 GPT-5.5:12M контекст, AA індекс на першому місці, Terminal-Bench 82.7% переписує агентський бенчмарк
Google Jules запускає список оновлених кандидатів у відкритому доступі та перевизначає його як платформу для розробки end-to-end продуктів
Google розширює Wiz Cloud Security на AWS, Azure та Google Cloud