รายงานระบุว่า นักวิจัยจาก NVIDIA และ MIT ได้เปิดตัว Lightning OPD (Offline On-Policy Distillation) ซึ่งเป็นกรอบงานหลังการฝึก (post-training) สำหรับโมเดลภาษาขนาดใหญ่ ที่ช่วยขจัดความจำเป็นต้องคงรันโมเดลครู (teacher model) ระหว่างการฝึก โดยการคำนวณค่าความน่าจะเป็นแบบล็อก (log-probabilities) ของโมเดลครูล่วงหน้าแบบออฟไลน์ กรอบงานดังกล่าวช่วยเพิ่มประสิทธิภาพการฝึกได้ 4x ขณะเดียวกันก็ปลดปล่อยทรัพยากร GPU ทั้งหมดสำหรับการฝึกโมเดลนักเรียน (student model)
ในการทดสอบบน GPU NVIDIA H100 จำนวน 8 ตัว Lightning OPD สามารถกลั่น (distill) Qwen3-30B-A3B-Base ได้สำเร็จ (โมเดล MoE ที่มีพารามิเตอร์ 30 พันล้านพารามิเตอร์) และทำคะแนนได้ 71.0 บนเกณฑ์มาตรฐาน AIME 2024 ขณะที่ OPD แบบมาตรฐานกลับหน่วยความจำไม่พอ (out of memory) บนฮาร์ดแวร์ชุดเดียวกัน สำหรับโมเดล Qwen3-8B ที่เล็กกว่า กรอบงานนี้ใช้เวลาเพียง 30 ชั่วโมง GPU เพื่อไปถึง 69.9 คะแนน
news.related.news
Thinking Machines สตาร์ทอัพมูลค่า “หลายหมื่นล้าน” เปิดตัวโมเดล AI แบบโต้ตอบแบบเรียลไทม์ โดยเน้นแนวคิด “พูดไป ฟังไป แล้วทำงานไป”
Google: มีการใช้โมเดลภาษาขนาดใหญ่เพื่อโจมตีในโลกจริง และ AI สามารถหลีกเลี่ยงมาตรการความปลอดภัยแบบยืนยันตัวตนสองชั้นได้
Anthropic: การฝึกข้อความแนววิทยาศาสตร์เพื่ออนาคตทำให้ Claude Opus 4 มีอัตราการถูกเรียกค่าไถ่ 96%