ข้อความ Gate News, 24 เมษายน — รายงานทางเทคนิคของ DeepSeek V4 เปิดเผยว่า V4-Flash และ V4-Pro ถูกพรีเทรนบนโทเค็น 32T และ 33T ตามลำดับ ซึ่งเพิ่มเป็นสองเท่าของประมาณ 15T โทเค็นที่ใช้สำหรับ V3 รายงานยอมรับว่าพบ “ความท้าทายด้านความไม่เสถียรอย่างมีนัยสำคัญ” ระหว่างการฝึก โดยการสูญเสียมีการพุ่งขึ้นซ้ำแล้วซ้ำเล่าเนื่องจากความผิดปกติในชั้น Mixture-of-Experts (MoE); กลไกการเราท์ติ้งเองยิ่งเพิ่มความรุนแรงของความผิดปกติเหล่านี้ และการย้อนกลับอย่างง่ายไม่สามารถแก้ไขปัญหาได้.

DeepSeek ใช้โซลูชัน 2 แบบซึ่งนำไปใช้งานในการฝึกจริงแล้ว ได้แก่ การเราท์ติ้งเชิงคาดการณ์ (Anticipatory Routing) ซึ่งแยกการคำนวณดัชนีการเราท์ติ้งออกจากการอัปเดตเครือข่ายแบ็กโบน และจะทริกเกอร์อัตโนมัติเฉพาะเมื่อพบการพุ่งขึ้นของค่า loss (เพิ่มภาระประมาณ 20%), และ การหนีบค่า SwiGLU (SwiGLU Clamping) ซึ่งระงับความผิดปกติโดยตรงด้วยการหนีบค่าการกระตุ้นให้อยู่ในช่วงค่าคงที่ รายงานระบุว่าแนวทางทั้งสองมีประสิทธิผล แต่ยอมรับว่า “ยังไม่เข้าใจหลักการพื้นฐานอย่างเพียงพอ”.

Susan Zhang นักวิจัยของ Google DeepMind ผู้เคยทำงานที่ Meta AI และ OpenAI ได้แสดงความคิดเห็นว่า ความไม่เสถียรที่เกิดจากการเพิ่มปริมาณข้อมูลการฝึกเป็นสองเท่า “อธิบายความล่าช้าได้” เธอเรียกโซลูชันทั้งสองว่า “แผ่นปะชั่วคราว” พร้อมยอมรับความโปร่งใสทางเทคนิคของ DeepSeek

news.view.source

news.article.disclaimer

news.related.news

04-24 03:04

DeepSeek เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ด้วยพารามิเตอร์ 1.6T และใบอนุญาต MIT

04-24 01:46

OpenAI เปิดตัว GPT-5.5 ออกแบบมาสำหรับงานเอเจนต์และเวิร์กโฟลว์ที่ซับซ้อน

04-23 20:42

การรั่วไหลด้านความปลอดภัยของ Vercel ขยายวงสู่ผู้ใช้หลายร้อยคน; นักพัฒนา AI เสี่ยงสูงขึ้น

04-23 13:14

Cluster Protocol ระดมทุน $5M ล้านดอลลาร์ โดย DAO5 เป็นผู้นำรอบ

04-23 09:45