ตามรายงานของ Beating ทีมร่วมจาก Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei และ Deepcity AI ประกาศความสำเร็จในการทำ post-training แบบเต็มพารามิเตอร์สำหรับ DeepSeek-V4-Pro ซึ่งเป็นโมเดล 1.6 ล้านล้านพารามิเตอร์ บนโครงสร้างพื้นฐาน AI ภายในประเทศ นับเป็นครั้งแรกที่องค์กรบุคคลที่สามได้ดำเนินการ post-training แบบเต็มพารามิเตอร์สำหรับโมเดลระดับขนาดนี้บนฮาร์ดแวร์ของจีน
ทีมใช้คลัสเตอร์ที่ประกอบด้วยชิป Huawei Ascend 910C มากกว่า 1,000 ตัว เพื่อรับมือกับคอขวดด้านการสื่อสารด้วยการปรับแต่งการกระจายโหลดแบบกระจายศูนย์อย่างเหมาะสม ในระหว่างกระบวนการฝึก 1,500 สเต็ป ระบบทำงานต่อเนื่องโดยไม่หยุดชะงัก บรรลุอัตราการใช้ประโยชน์ FLOPs ของโมเดล (MFU) ที่สูงกว่า 30% และยกระดับประสิทธิภาพของโอเปอเรเตอร์หลักขึ้น 14% เข้าได้ตามมาตรฐานสมรรถนะระดับอุตสาหกรรม