DeepSeek เปิดซอร์ส TileKernels ไขลบรารีเคอร์เนล GPU สำหรับการฝึกและการอนุมานของโมเดลขนาดใหญ่

ข้อความข่าวจาก Gate วันที่ 23 เมษายน — DeepSeek ได้เปิดซอร์ส TileKernels ภายใต้สัญญาอนุญาต MIT ซึ่งเป็นไลบรารีเคอร์เนลสำหรับ GPU ที่เขียนด้วย TileLang สำหรับการฝึกและการอนุมานของโมเดลภาษาขนาดใหญ่ TileLang เป็นภาษาเฉพาะทางที่ทีม tile-ai พัฒนาขึ้น เพื่อใช้ในการแสดงเคอร์เนล GPU ประสิทธิภาพสูงใน Python DeepSeek ระบุว่าเคอร์เนลส่วนใหญ่ในไลบรารีได้เข้าใกล้ขีดจำกัดด้านประสิทธิภาพของฮาร์ดแวร์แล้ว ทั้งในความหนาแน่นในการคำนวณและแบนด์วิดท์หน่วยความจำ โดยบางส่วนได้ถูกนำไปใช้งานแล้วในกระบวนการฝึกและการอนุมานภายใน

ไลบรารีประกอบด้วยเคอร์เนลหกหมวดหมู่: MoE (การผสมผู้เชี่ยวชาญ) สำหรับการแบ่งเกตและการกำหนดเส้นทาง รวมถึงการเลือก Top-k ของผู้เชี่ยวชาญ การแมปโทเคนต่อผู้เชี่ยวชาญ และการขยาย/ลดขนาดแบบรวม (fused) พร้อมการทำ normalization ของค่าน้ำหนัก; การทำควอนไทซ์ที่รองรับรูปแบบ FP8, FP4 และ E5M6 พร้อมการควอนไทซ์แบบต่อโทเคน ต่อบล็อก และต่อช่องทาง (channel) รวมถึงการทำงานแบบรวมสำหรับ SwiGLU+quantization; การ transpose แบบเป็นชุด (batch transpose); Engram gating พร้อมการส่งผ่านต่อไป/ย้อนกลับของ RMSNorm แบบรวมและการลดทอนเกรเดียนต์น้ำหนัก; Manifold HyperConnection พร้อมการทำ normalization แบบ Sinkhorn และการ split/apply แบบผสม; และอินเทอร์เฟซ autograd ระดับสูงที่ห่อเคอร์เนลระดับต่ำให้อยู่ในเลเยอร์ที่ฝึกได้

Engram และ Manifold HyperConnection เป็นองค์ประกอบที่เป็นกรรมสิทธิ์ของสถาปัตยกรรมโมเดลของ DeepSeek โดยรายละเอียดการใช้งานถูกเปิดเผยต่อสาธารณะเป็นครั้งแรก ไลบรารีต้องใช้ GPU สถาปัตยกรรม NVIDIA SM90 หรือ SM100 (H100/H200 หรือกลุ่ม Blackwell), CUDA Toolkit 13.1 หรือสูงกว่า และ PyTorch 2.10 หรือสูงกว่า

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น