Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема PyTorch, CUDA, Rust і C++. Після ретельної фільтрації для оцінювання в бенчмарку було збережено 30 завдань.

V4-Pro-Max досягла 67% частки успішних проходжень коду, суттєво випередивши Sonnet 4.5 із 47% та наблизившись до Opus 4.5 із 70%. Однак вона поступається Opus 4.5 Thinking (73%) та Opus 4.6 Thinking (80%), тоді як значно перевищує Haiku 4.5 із 13%.

У внутрішньому опитуванні за участю 85 респондентів усі учасники повідомили, що щоденні робочі процеси для агентного програмування використовують V4-Pro. 52% підтримали V4-Pro як свій основний модельний вибір для кодування за замовчуванням, 39% схилялися до схвалення, і менш ніж 9% висловили незгоду. Повідомлені проблеми включали низькорівневі помилки, неправильне тлумачення неоднозначних запитів і інколи надмірно обдуману поведінку.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.