Huawei's Ascend 910C เสร็จสิ้นการฝึกหลังการฝึก (post-training) ของโมเดล 1.6 ล้านล้านพารามิเตอร์ของ DeepSeek ด้วย GPU มากกว่า 1,000 ตัว

ตามรายงานของ Beating ทีมร่วมจาก Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei และ Deepcity AI ประกาศความสำเร็จในการทำ post-training แบบเต็มพารามิเตอร์สำหรับ DeepSeek-V4-Pro ซึ่งเป็นโมเดล 1.6 ล้านล้านพารามิเตอร์ บนโครงสร้างพื้นฐาน AI ภายในประเทศ นับเป็นครั้งแรกที่องค์กรบุคคลที่สามได้ดำเนินการ post-training แบบเต็มพารามิเตอร์สำหรับโมเดลระดับขนาดนี้บนฮาร์ดแวร์ของจีน

ทีมใช้คลัสเตอร์ที่ประกอบด้วยชิป Huawei Ascend 910C มากกว่า 1,000 ตัว เพื่อรับมือกับคอขวดด้านการสื่อสารด้วยการปรับแต่งการกระจายโหลดแบบกระจายศูนย์อย่างเหมาะสม ในระหว่างกระบวนการฝึก 1,500 สเต็ป ระบบทำงานต่อเนื่องโดยไม่หยุดชะงัก บรรลุอัตราการใช้ประโยชน์ FLOPs ของโมเดล (MFU) ที่สูงกว่า 30% และยกระดับประสิทธิภาพของโอเปอเรเตอร์หลักขึ้น 14% เข้าได้ตามมาตรฐานสมรรถนะระดับอุตสาหกรรม

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น