V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5

ข้อความจาก Gate News วันที่ 24 เมษายน — V4 ได้เปิดเผยข้อมูลการใช้งานจริงภายใน (dogfooding) สำหรับโมเดล V4-Pro ต่อสาธารณะแล้ว บริษัทได้รวบรวมงานวิศวกรรมในโลกจริงประมาณ 200 งานจากวิศวกรมากกว่า 50 คน ครอบคลุมการพัฒนาฟีเจอร์ การแก้ไขบั๊ก การปรับโครงสร้างโค้ด (refactoring) และการวินิจฉัย (diagnostics) ข้ามสแตกเทคโนโลยี รวมถึง PyTorch, CUDA, Rust และ C++ หลังจากการคัดกรองอย่างเข้มงวด คงเหลือ 30 งานเพื่อการประเมินผลการทดสอบมาตรฐาน (benchmark)

V4-Pro-Max ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ซึ่งเหนือกว่า Sonnet 4.5 ที่ 47% อย่างมีนัยสำคัญ และเข้าใกล้ Opus 4.5 ที่ 70% อย่างไรก็ตาม ยังตามหลัง Opus 4.5 Thinking (73%) และ Opus 4.6 Thinking (80%) ขณะเดียวกันก็เหนือกว่า Haiku 4.5 อย่างมากที่ 13%.

ในการสำรวจภายในกลุ่มตัวอย่าง 85 คน ผู้เข้าร่วมทั้งหมดรายงานว่าใช้ V4-Pro สำหรับการเขียนโค้ดแบบเชิงตัวแทน (agentic coding) ในเวิร์กโฟลว์ประจำวัน 52% เห็นด้วยให้ V4-Pro เป็นโมเดลหลักเริ่มต้นสำหรับการเขียนโค้ด 39% โน้มเอียงไปทางการอนุมัติ และน้อยกว่า 9% แสดงความไม่เห็นด้วย ปัญหาที่รายงานรวมถึงข้อผิดพลาดระดับต่ำ การตีความที่คลาดเคลื่อนต่อพรอมพ์ที่กำกวม และพฤติกรรมการคิดมากเกินไปเป็นครั้งคราว

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น