
DeepSeek เมื่อวันที่ 24 เมษายน ได้เปิดตัวชุดตัวอย่าง V4 อย่างเป็นทางการ ภายใต้สัญญาอนุญาต MIT ที่เปิดซอร์ส โดยน้ำหนักของโมเดลได้ถูกอัปโหลดขึ้นใช้งานบน Hugging Face และ ModelScope แล้ว ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro-Max (โหมดความสามารถในการอนุมานสูงสุด) ได้ 3206 คะแนนบนเกณฑ์มาตรฐาน Codeforces โดยทำได้ดีกว่า GPT-5.4
ตามรายงานทางเทคนิคของ DeepSeek V4 ชุด V4 ประกอบด้วยโมเดลแบบผสมผู้เชี่ยวชาญ (MoE) จำนวน 2 รุ่น:
V4-Pro: พารามิเตอร์รวม 1.6T ต่อ 1 โทเค็นเปิดใช้งาน 49B รองรับบริบท 1M token
V4-Flash: พารามิเตอร์รวม 284B ต่อ 1 โทเค็นเปิดใช้งาน 13B รองรับบริบท 1M token เช่นกัน
ตามรายงานทางเทคนิค ภายใต้บริบท 1M การอนุมาน FLOPs ต่อ 1 โทเค็นของ V4-Pro มีเพียง 27% ของ V3.2 และ KV cache ลดลงเหลือ 10% ของ V3.2 ซึ่งส่วนใหญ่เกิดจากการอัปเกรดสถาปัตยกรรมของกลไก attention แบบผสม (การบีบอัดความสนใจแบบพร่าบาง CSA + การบีบอัดความสนใจอย่างหนัก HCA) ขนาดข้อมูลสำหรับการพรีเทรนมีมากกว่า 32T token; ตัวอัปเดตของตัวเพิ่มประสิทธิภาพ (optimizer) เปลี่ยนเป็น Muon
ตามรายงานทางเทคนิคของ DeepSeek V4 การอัปเดตหลักของการฝึกหลังการฝึก (post-training) ของ V4 อยู่ที่การแทนที่ขั้นตอนการผสมการเรียนรู้แบบเสริมแรง (mixed RL) ของ V3.2 อย่างสิ้นเชิงด้วยการสอนแบบออน-พอลิซี่สตรีม (On-Policy Distillation, OPD) กระบวนการใหม่แบ่งเป็น 2 ขั้นตอน: ขั้นแรก ฝึกผู้เชี่ยวชาญรายโดเมนแยกกันสำหรับสาขาต่างๆ เช่น คณิตศาสตร์ โค้ด Agent และการติดตามคำสั่ง ฯลฯ (SFT + GRPO การเรียนรู้แบบเสริมแรง); จากนั้น ใช้ OPD จากครูหลายคน (multi-teacher) เพื่อกลั่นความสามารถของผู้เชี่ยวชาญมากกว่า 10 คนให้เป็นโมเดลเดียว โดยใช้การจัดแนวด้วย logit เพื่อหลีกเลี่ยงความขัดแย้งของความสามารถที่พบบ่อยในวิธีการแบบดั้งเดิม
รายงานยังได้แนะนำโมเดลรางวัลแบบสร้าง (Generative Reward Model, GRM) เพื่อจัดการงานที่ยากต่อการตรวจสอบด้วยกฎ โดยใช้ข้อมูลการติดฉลากจากมนุษย์ที่มีจำนวนเล็กน้อยและหลากหลายในการฝึก เพื่อให้โมเดลสามารถรับทั้งบทบาทในการสร้างและการประเมิน
ตามรายงานทางเทคนิคของ DeepSeek V4 ผลการเปรียบเทียบของ V4-Pro-Max กับ Opus 4.6 Max, GPT-5.4 xHigh และ Gemini 3.1 Pro High (ไม่รวม GPT-5.5 และ Opus 4.7 ที่เปิดตัวเมื่อไม่นานมานี้):
Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ สูงสุดในทั้งสนาม
LiveCodeBench:93.5 → สูงสุดในทั้งสนาม
SWE Verified:80.6 โดยตามหลัง Opus 4.6 ที่ 80.8 อยู่ 0.2 จุดเปอร์เซ็นต์
GPQA Diamond:90.1 โดยตามหลัง Gemini 3.1 Pro ที่ 94.3
SimpleQA-Verified:57.9 โดยตามหลัง Gemini 3.1 Pro ที่ 75.6
HLE:37.7 โดยตามหลัง Gemini 3.1 Pro ที่ 44.4
รายงานทางเทคนิคยังชี้ด้วยว่า การเปรียบเทียบข้างต้นไม่รวม GPT-5.5 และ Opus 4.7 ที่เปิดตัวล่าสุด และความแตกต่างระหว่าง V4 กับโมเดลปิดซอร์สเจนเนอเรชันล่าสุด ยังต้องรอการตรวจสอบด้วยการประเมินจากบุคคลที่สาม
ตามประกาศอย่างเป็นทางการของ DeepSeek วันที่ 24 เมษายน V4 ถูกเปิดซอร์สภายใต้สัญญาอนุญาต MIT โดยน้ำหนักโมเดลได้ขึ้นให้ใช้งานแล้วบน Hugging Face และ ModelScope เหมาะสำหรับทั้งการใช้งานเชิงพาณิชย์และเชิงวิชาการ
ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro มีพารามิเตอร์รวม 1.6T ต่อ 1 โทเค็นเปิดใช้งาน 49B; V4-Flash มีพารามิเตอร์รวม 284B ต่อ 1 โทเค็นเปิดใช้งาน 13B โมเดลทั้งสองรองรับบริบท 1M token
ตามรายงานทางเทคนิคของ DeepSeek V4 V4-Pro-Max ทำผลงานเหนือ GPT-5.4 และ Gemini 3.1 Pro ในเกณฑ์มาตรฐาน Codeforces (3206 คะแนน) และ LiveCodeBench (93.5) แต่ยังตามหลัง Gemini 3.1 Pro ในเกณฑ์มาตรฐานที่เน้นความหนาแน่นของความรู้ (GPQA Diamond, SimpleQA-Verified, HLE); ชุดการเปรียบเทียบไม่รวม GPT-5.5 และ Opus 4.7
news.related.news
Tencent เปิดซอร์ส Hy3 เวอร์ชันพรีวิว โดยการทดสอบเกณฑ์มาตรฐานของโค้ดทำได้ดีขึ้น 40% เมื่อเทียบกับรุ่นก่อนหน้า
OpenAI เปิดตัว GPT-5.5: บริบท 12M, ดัชนี AA ขึ้นอันดับหนึ่ง, และ Terminal-Bench 82.7% ปรับปรุงมาตรฐานพร็อกซีใหม่
Google Jules เปิดรายชื่อผู้สมัครเวอร์ชันใหม่ที่เปิดตัวอีกครั้ง และปรับตำแหน่งใหม่ให้เป็นแพลตฟอร์มสำหรับการพัฒนาผลิตภัณฑ์แบบครบวงจรจากต้นทางถึงปลายทาง
เปิด OpenAI สำหรับ ChatGPT Workspace Agents: ขับเคลื่อนด้วย Codex, แชร์ร่วมกันในทีม, บูรณาการกับ Slack
DeepSeek อยู่ระหว่างการเจรจาการระดมทุนรอบแรกจากนักลงทุนภายนอก มูลค่า 20 พันล้านดอลลาร์สหรัฐ: การประเมินมูลค่า AI ของจีนทำสถิติสูงสุดใหม่