ข้อความจาก Gate News วันที่ 24 เมษายน — V4 ได้เปิดเผยข้อมูลการใช้งานจริงภายใน (dogfooding) สำหรับโมเดล V4-Pro ต่อสาธารณะแล้ว บริษัทได้รวบรวมงานวิศวกรรมในโลกจริงประมาณ 200 งานจากวิศวกรมากกว่า 50 คน ครอบคลุมการพัฒนาฟีเจอร์ การแก้ไขบั๊ก การปรับโครงสร้างโค้ด (refactoring) และการวินิจฉัย (diagnostics) ข้ามสแตกเทคโนโลยี รวมถึง PyTorch, CUDA, Rust และ C++ หลังจากการคัดกรองอย่างเข้มงวด คงเหลือ 30 งานเพื่อการประเมินผลการทดสอบมาตรฐาน (benchmark)

V4-Pro-Max ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ซึ่งเหนือกว่า Sonnet 4.5 ที่ 47% อย่างมีนัยสำคัญ และเข้าใกล้ Opus 4.5 ที่ 70% อย่างไรก็ตาม ยังตามหลัง Opus 4.5 Thinking (73%) และ Opus 4.6 Thinking (80%) ขณะเดียวกันก็เหนือกว่า Haiku 4.5 อย่างมากที่ 13%.

ในการสำรวจภายในกลุ่มตัวอย่าง 85 คน ผู้เข้าร่วมทั้งหมดรายงานว่าใช้ V4-Pro สำหรับการเขียนโค้ดแบบเชิงตัวแทน (agentic coding) ในเวิร์กโฟลว์ประจำวัน 52% เห็นด้วยให้ V4-Pro เป็นโมเดลหลักเริ่มต้นสำหรับการเขียนโค้ด 39% โน้มเอียงไปทางการอนุมัติ และน้อยกว่า 9% แสดงความไม่เห็นด้วย ปัญหาที่รายงานรวมถึงข้อผิดพลาดระดับต่ำ การตีความที่คลาดเคลื่อนต่อพรอมพ์ที่กำกวม และพฤติกรรมการคิดมากเกินไปเป็นครั้งคราว

news.view.source

news.article.disclaimer

news.related.news

04-24 03:21

ข้อมูลการฝึกของ DeepSeek V4 เพิ่มเป็นสองเท่าเป็น 33T กระตุ้นความไม่เสถียรที่ทำให้การปล่อยล่าช้า

04-24 03:04

DeepSeek เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ด้วยพารามิเตอร์ 1.6T และใบอนุญาต MIT

04-24 01:46

OpenAI เปิดตัว GPT-5.5 ออกแบบมาสำหรับงานเอเจนต์และเวิร์กโฟลว์ที่ซับซ้อน

04-23 20:42

การรั่วไหลด้านความปลอดภัยของ Vercel ขยายวงสู่ผู้ใช้หลายร้อยคน; นักพัฒนา AI เสี่ยงสูงขึ้น

04-23 02:02