ข่าวประจำประตู ประจำวันที่ 24 เมษายน — วิศวกรของ OpenAI ชื่อ Clive Chan ได้ยื่นคัดค้านอย่างละเอียดต่อบทแนะนำด้านฮาร์ดแวร์ในรายงานทางเทคนิค V4 โดยกล่าวว่าเมื่อเทียบกับเวอร์ชัน V3 ที่ได้รับคำชม มันเป็น "ค่อนข้างห่วยและเสี่ยงต่อข้อผิดพลาดอย่างน่าประหลาดใจ" คำแนะนำด้านฮาร์ดแวร์ของ V3 ซึ่งมีเซสชัน Q&A ที่กลายเป็นหัวข้อการถกเถียงที่ได้รับความนิยมสูงสุดในการประชุมวิชาการ ISCA ได้นำเสนอคำแนะนำที่เฉพาะเจาะจงซึ่งสอดคล้องกับมาตรฐานการเชื่อมต่อระหว่างอุตสาหกรรม ในทางตรงกันข้าม V4 มีความคลุมเครือมากกว่าอย่างมาก

Chan โต้แย้งอย่างเป็นระบบต่อคำแนะนำสำคัญ 3 ข้อ ในเรื่องการใช้พลังงาน รายงานระบุว่าการเพิ่มประสิทธิภาพด้วยซอฟต์แวร์ทำให้ชิปสามารถรันการประมวลผล การจัดเก็บ และการสื่อสารได้เต็มความจุพร้อมกัน และแนะนำให้ผู้ผลิตชิปสำรองช่องว่างพลังงานเพิ่มเติม Chan โต้แย้งว่าสิ่งนี้กลับเป็นผลเสีย: กำลังไฟรวมของชิปถูกจำกัดด้วยข้อจำกัดของกระบวนการผลิตทางกายภาพ ดังนั้นการสำรองมาร์จิ้นพลังงานเพิ่มจึงลดความถี่ในการทำงานลงเท่านั้น ซึ่งสุดท้ายจะทำให้ประสิทธิภาพการคำนวณลดลง เกี่ยวกับการถ่ายโอนข้อมูลจาก GPU สู่ GPU รายงานเสนอโมเดลแบบดึง—ที่ GPU เป็นฝ่ายดึงข้อมูลอย่างแข็งขัน—เหนือโมเดลแบบผลัก โดยอ้างถึงภาระงานจากการแจ้งเตือนที่สูงในปฏิบัติการแบบผลัก Chan โต้แย้งเรื่องนี้ โดยยืนยันว่าการดึงกลับช้ากว่า และความสามารถของอะแดปเตอร์เครือข่ายที่ดีขึ้นน่าจะดีกว่า อย่างไรก็ตาม ทั้งสองอาจกำลังพูดถึงคนละเลเยอร์ของปัญหา: รายงานกล่าวถึงความล้ำของกลไกการแจ้งเตือน ขณะที่ Chan หมายถึงความหน่วงในการส่งสัญญาณโดยตรง

ในเรื่องฟังก์ชันการกระตุ้น รายงานแนะนำให้แทนที่ SwiGLU ด้วยฟังก์ชันที่เรียบง่ายกว่าเพื่อลดภาระการคำนวณ Chan ไม่เห็นด้วยและมองว่าไม่มีข้อดี โดยระบุว่า Sonic MoE ได้พิสูจน์แล้วว่าประสิทธิภาพที่เหมาะสมทำได้ด้วยการใช้ SwiGLU Chan สงสัยว่า DeepSeek อาจได้ "ทำให้อ่อนลงส่วนนี้โดยเจตนา"

news.view.source

news.article.disclaimer

news.related.news

04-24 04:29

V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5

04-24 03:21

ข้อมูลการฝึกของ DeepSeek V4 เพิ่มเป็นสองเท่าเป็น 33T กระตุ้นความไม่เสถียรที่ทำให้การปล่อยล่าช้า

04-24 03:04

DeepSeek เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ด้วยพารามิเตอร์ 1.6T และใบอนุญาต MIT

04-24 01:46

OpenAI เปิดตัว GPT-5.5 ออกแบบมาสำหรับงานเอเจนต์และเวิร์กโฟลว์ที่ซับซ้อน

04-23 20:42