ข่าวประจำประตู ประจำวันที่ 24 เมษายน — วิศวกรของ OpenAI ชื่อ Clive Chan ได้ยื่นคัดค้านอย่างละเอียดต่อบทแนะนำด้านฮาร์ดแวร์ในรายงานทางเทคนิค V4 โดยกล่าวว่าเมื่อเทียบกับเวอร์ชัน V3 ที่ได้รับคำชม มันเป็น “ค่อนข้างห่วยและเสี่ยงต่อข้อผิดพลาดอย่างน่าประหลาดใจ” คำแนะนำด้านฮาร์ดแวร์ของ V3 ซึ่งมีเซสชัน Q&A ที่กลายเป็นหัวข้อการถกเถียงที่ได้รับความนิยมสูงสุดในการประชุมวิชาการ ISCA ได้นำเสนอคำแนะนำที่เฉพาะเจาะจงซึ่งสอดคล้องกับมาตรฐานการเชื่อมต่อระหว่างอุตสาหกรรม ในทางตรงกันข้าม V4 มีความคลุมเครือมากกว่าอย่างมาก
Chan โต้แย้งอย่างเป็นระบบต่อคำแนะนำสำคัญ 3 ข้อ ในเรื่องการใช้พลังงาน รายงานระบุว่าการเพิ่มประสิทธิภาพด้วยซอฟต์แวร์ทำให้ชิปสามารถรันการประมวลผล การจัดเก็บ และการสื่อสารได้เต็มความจุพร้อมกัน และแนะนำให้ผู้ผลิตชิปสำรองช่องว่างพลังงานเพิ่มเติม Chan โต้แย้งว่าสิ่งนี้กลับเป็นผลเสีย: กำลังไฟรวมของชิปถูกจำกัดด้วยข้อจำกัดของกระบวนการผลิตทางกายภาพ ดังนั้นการสำรองมาร์จิ้นพลังงานเพิ่มจึงลดความถี่ในการทำงานลงเท่านั้น ซึ่งสุดท้ายจะทำให้ประสิทธิภาพการคำนวณลดลง เกี่ยวกับการถ่ายโอนข้อมูลจาก GPU สู่ GPU รายงานเสนอโมเดลแบบดึง—ที่ GPU เป็นฝ่ายดึงข้อมูลอย่างแข็งขัน—เหนือโมเดลแบบผลัก โดยอ้างถึงภาระงานจากการแจ้งเตือนที่สูงในปฏิบัติการแบบผลัก Chan โต้แย้งเรื่องนี้ โดยยืนยันว่าการดึงกลับช้ากว่า และความสามารถของอะแดปเตอร์เครือข่ายที่ดีขึ้นน่าจะดีกว่า อย่างไรก็ตาม ทั้งสองอาจกำลังพูดถึงคนละเลเยอร์ของปัญหา: รายงานกล่าวถึงความล้ำของกลไกการแจ้งเตือน ขณะที่ Chan หมายถึงความหน่วงในการส่งสัญญาณโดยตรง
ในเรื่องฟังก์ชันการกระตุ้น รายงานแนะนำให้แทนที่ SwiGLU ด้วยฟังก์ชันที่เรียบง่ายกว่าเพื่อลดภาระการคำนวณ Chan ไม่เห็นด้วยและมองว่าไม่มีข้อดี โดยระบุว่า Sonic MoE ได้พิสูจน์แล้วว่าประสิทธิภาพที่เหมาะสมทำได้ด้วยการใช้ SwiGLU Chan สงสัยว่า DeepSeek อาจได้ “ทำให้อ่อนลงส่วนนี้โดยเจตนา”
news.related.news
DeepSeek เปิดตัว V4 เวอร์ชันตัวอย่างแบบโอเพนซอร์ส โดยได้คะแนนด้านเทคนิค 3206 ซึ่งเหนือกว่า GPT-5.4
OpenAI เปิดตัว GPT-5.5: บริบท 12M, ดัชนี AA ขึ้นอันดับหนึ่ง, และ Terminal-Bench 82.7% ปรับปรุงมาตรฐานพร็อกซีใหม่
Anthropic เผยแพร่ปัญหาโค้ดของ Claude Code ซ้อนบั๊กสามชั้น: ความสามารถในการให้เหตุผลลดลง, ลืมค่าแคช, คำสั่ง 25 ตัวอักษรย้อนกลับเล่นงาน