ข้อมูลการฝึกของ DeepSeek V4 เพิ่มเป็นสองเท่าเป็น 33T กระตุ้นความไม่เสถียรที่ทำให้การปล่อยล่าช้า

ข้อความ Gate News, 24 เมษายน — รายงานทางเทคนิคของ DeepSeek V4 เปิดเผยว่า V4-Flash และ V4-Pro ถูกพรีเทรนบนโทเค็น 32T และ 33T ตามลำดับ ซึ่งเพิ่มเป็นสองเท่าของประมาณ 15T โทเค็นที่ใช้สำหรับ V3 รายงานยอมรับว่าพบ “ความท้าทายด้านความไม่เสถียรอย่างมีนัยสำคัญ” ระหว่างการฝึก โดยการสูญเสียมีการพุ่งขึ้นซ้ำแล้วซ้ำเล่าเนื่องจากความผิดปกติในชั้น Mixture-of-Experts (MoE); กลไกการเราท์ติ้งเองยิ่งเพิ่มความรุนแรงของความผิดปกติเหล่านี้ และการย้อนกลับอย่างง่ายไม่สามารถแก้ไขปัญหาได้.

DeepSeek ใช้โซลูชัน 2 แบบซึ่งนำไปใช้งานในการฝึกจริงแล้ว ได้แก่ การเราท์ติ้งเชิงคาดการณ์ (Anticipatory Routing) ซึ่งแยกการคำนวณดัชนีการเราท์ติ้งออกจากการอัปเดตเครือข่ายแบ็กโบน และจะทริกเกอร์อัตโนมัติเฉพาะเมื่อพบการพุ่งขึ้นของค่า loss (เพิ่มภาระประมาณ 20%), และ การหนีบค่า SwiGLU (SwiGLU Clamping) ซึ่งระงับความผิดปกติโดยตรงด้วยการหนีบค่าการกระตุ้นให้อยู่ในช่วงค่าคงที่ รายงานระบุว่าแนวทางทั้งสองมีประสิทธิผล แต่ยอมรับว่า “ยังไม่เข้าใจหลักการพื้นฐานอย่างเพียงพอ”.

Susan Zhang นักวิจัยของ Google DeepMind ผู้เคยทำงานที่ Meta AI และ OpenAI ได้แสดงความคิดเห็นว่า ความไม่เสถียรที่เกิดจากการเพิ่มปริมาณข้อมูลการฝึกเป็นสองเท่า “อธิบายความล่าช้าได้” เธอเรียกโซลูชันทั้งสองว่า “แผ่นปะชั่วคราว” พร้อมยอมรับความโปร่งใสทางเทคนิคของ DeepSeek

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น