GPT-5.5 กลับมาล้ำหน้าในการเขียนโค้ด แต่ OpenAI เปลี่ยนเกณฑ์มาตรฐานหลังแพ้ Opus 4.7

ข่าวประจำเกต 27 เมษายน — SemiAnalysis บริษัทวิเคราะห์เซมิคอนดักเตอร์และ AI ได้เผยแพร่มาตรฐานเปรียบเทียบเชิงเปรียบเทียบของผู้ช่วยการเขียนโค้ด รวมถึง GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ผลค้นหาที่สำคัญ: GPT-5.5 แสดงถึงการกลับสู่ขอบล้ำในการพัฒนาโมเดลการเขียนโค้ดของ OpenAI เป็นครั้งแรกในรอบหกเดือน โดยวิศวกรของ SemiAnalysis ตอนนี้สลับไปมาระหว่าง Codex และ Claude Code หลังจากก่อนหน้านี้พึ่งพา Claude เกือบทั้งหมด GPT-5.5 อ้างอิงจากแนวทางการพรีเทรนแบบใหม่ที่มีชื่อรหัสว่า “Spud” และถือเป็นการขยายขนาดการพรีเทรนครั้งแรกของ OpenAI นับตั้งแต่ GPT-4.5.

ในการทดสอบเชิงปฏิบัติที่ชัดเจน ได้แยกบทบาทออกมาอย่างชัดเจน Claude จัดการการวางแผนโครงการใหม่และการตั้งค่าเริ่มต้น ในขณะที่ Codex โดดเด่นสำหรับการแก้บั๊กที่ต้องใช้การให้เหตุผลหนักๆ Codex แสดงความเข้าใจโครงสร้างข้อมูลและการให้เหตุผลเชิงตรรกะที่แข็งแกร่งกว่า แต่กลับมีปัญหาในการคาดเดาความตั้งใจของผู้ใช้ที่ไม่ชัดเจน ในงานที่คล้ายกันบนแดชบอร์ดเดียว Claude คัดลอกเค้าโครงหน้าจากตัวอย่างได้โดยอัตโนมัติแต่ได้สร้างข้อมูลจำนวนมากขึ้นมา ในขณะที่ Codex ข้ามเรื่องเค้าโครงแต่ให้ข้อมูลที่แม่นยำกว่ามาก

การวิเคราะห์เผยรายละเอียดเกี่ยวกับการปรับแต่งเกณฑ์มาตรฐาน: โพสต์บล็อกของ OpenAI ในเดือนกุมภาพันธ์ได้เรียกร้องให้วงการนำ SWE-bench Pro มาเป็นมาตรฐานใหม่สำหรับการประเมินเกณฑ์การเขียนโค้ด อย่างไรก็ตาม การประกาศของ GPT-5.5 ได้เปลี่ยนไปใช้เกณฑ์มาตรฐานใหม่ที่ชื่อ “Expert-SWE” เหตุผล—ซ่อนอยู่ในส่วนปลีกย่อย—คือ GPT-5.5 ถูก Opus 4.7 แซงบน SWE-bench Pro และทำผลงานได้ต่ำกว่ามากเมื่อเทียบกับ Mythos ที่ยังไม่เผยแพร่ของ Anthropic (77.8%).

สำหรับ Opus 4.7 Anthropic เผยแพร่การวิเคราะห์สรุปหลังเหตุการณ์ (postmortem) หนึ่งสัปดาห์หลังการเปิดตัว โดยยอมรับบั๊กสามจุดใน Claude Code ที่ยังคงอยู่ต่อเนื่องเป็นเวลาหลายสัปดาห์ตั้งแต่เดือนมีนาคมถึงเมษายน ส่งผลกระทบต่อผู้ใช้งานเกือบทั้งหมด วิศวกรหลายคนเคยรายงานว่าประสิทธิภาพลดลงในเวอร์ชัน 4.6 มาก่อน แต่ถูกมองว่าเป็นข้อสังเกตเชิงอัตวิสัย นอกจากนี้ โทเคไนเซอร์ใหม่ของ Opus 4.7 เพิ่มการใช้งานโทเคนได้สูงถึง 35% ซึ่ง Anthropic ยอมรับอย่างตรงไปตรงมา—ซึ่งเท่ากับเป็นการขึ้นราคาที่ซ่อนอยู่โดยปริยาย

DeepSeek V4 ถูกประเมินว่า “ตามทันความก้าวหน้าในระดับแนวหน้าแต่ไม่ได้เป็นผู้นำ” โดยวางตำแหน่งตัวเองเป็นทางเลือกที่มีต้นทุนต่ำที่สุดในบรรดาโมเดลที่ปิดซอร์ส การวิเคราะห์ยังระบุว่า “Claude ยังคงทำผลงานได้ดีกว่า DeepSeek V4 Pro ในงานเขียนภาษาจีนที่มีความยากสูง” โดยแสดงความคิดเห็นว่า “Claude ชนะโมเดลภาษาจีนในภาษาเดียวกับที่มันใช้”

บทความนำเสนอแนวคิดสำคัญว่า ควรประเมินราคาของโมเดลด้วย “ต้นทุนต่อหนึ่งงาน” แทนที่จะเป็น “ต้นทุนต่อหนึ่งโทเคน” ราคาของ GPT-5.5 เป็นสองเท่าของ GPT-5.4 (input $5, output $30 per million tokens) แต่ทำงานเดียวกันได้โดยใช้โทเคนน้อยกว่า ดังนั้นต้นทุนที่แท้จริงจึงไม่ได้จำเป็นต้องสูงขึ้น ข้อมูลเบื้องต้นจาก SemiAnalysis แสดงว่าอัตราส่วนอินพุตต่อเอาต์พุตของ Codex อยู่ที่ 80:1 ต่ำกว่าของ Claude Code ที่ 100:1.

news.article.disclaimer

btc.bar.articles

Google ทดลองการสอบคัดเลือกที่เปิดโอกาสให้วิศวกรใช้เครื่องมือ AI

ตามรายงานของ The Chosun Daily กูเกิลกำลังทดลองใช้การสอบคัดเลือกงานที่อนุญาตให้ผู้สมัครวิศวกรซอฟต์แวร์ชาวสหรัฐใช้เครื่องมือ AI ได้ในตำแหน่งงานระดับเริ่มต้นและระดับกลางที่คัดเลือกมา แบบทดสอบนี้รวมถึงงานด้านความเข้าใจโค้ด โดยให้ผู้สมัครตรวจสอบโค้ดที่มีอยู่ แก้ไขบั๊ก และปรับปรุงประสิทธิภาพ ผู้สัมภาษณ์จะประเมินว่าผู้สมัคร “พรอมป์” ให้ AI อย่างไร ตรวจสอบผลลัพธ์ที่ได้ แก้ไขผลลัพธ์ และดีบักโค้ด โดยไม่ใช่ประเมินเพียงความสามารถในการเขียนโค้ดตั้งแต่เริ่มต้นเท่านั้น

GateNews3 นาที ที่แล้ว

OpenAI ยุติ API การปรับแต่งโมเดล (Fine-tuning) ตั้งแต่มีผลทันที ผู้ใช้งานเดิมยังเข้าถึงได้จนถึงวันที่ 6 มกราคม 2027

ตามประกาศอย่างเป็นทางการของ OpenAI ที่ Beating เฝ้าติดตาม บริษัทจะยุติการให้บริการ Fine-tuning API แบบให้ผู้พัฒนาดำเนินการเอง (self-serve) ตั้งแต่ทันที ผู้ใช้รายใหม่ไม่สามารถสร้างงาน Fine-tuning ได้อีก ขณะที่ผู้ใช้งานที่ใช้งานอยู่แล้วสามารถเข้าถึงบริการได้จนถึงวันที่ 6 มกราคม 2027 โมเดลที่ถูก Fine-tuning แล้วจะมีบริการการอินเฟอเรนซ์ผูกกับวงจรชีวิตของโมเดลพื้นฐาน และจะยุติเมื่อโมเดลพื้นฐานถูกปลดออก OpenAI ระบุว่าโมเดลพื้นฐานรุ่นใหม่ เช่น GPT-5.5 ตอนนี้มีพลังเพียงพอในการปฏิบัติตามคำสั่งและรูปแบบ (

GateNews39 นาที ที่แล้ว

Sakana AI และ Nvidia ทำได้เร็วกว่าการอินเฟอเรนซ์ H100 ถึง 30% ด้วยการข้ามการคำนวณที่ไม่ถูกต้อง 80%

Sakana AI และ Nvidia ได้เปิดซอร์ส TwELL ซึ่งเป็นรูปแบบข้อมูลแบบเบาบางที่ช่วยให้ GPU H100 ข้ามการคำนวณที่ไม่ถูกต้องไปถึง 80% ในโมเดลภาษาขนาดใหญ่โดยไม่ลดทอนความแม่นยำ โซลูชันนี้ช่วยให้การอนุมานเร็วขึ้นได้ถึง 30% และการฝึกเร็วขึ้น 24% บน H100 พร้อมทั้งลดการใช้หน่วยความจำสูงสุด ระหว่างการทดสอบกับโมเดลพารามิเตอร์ 1.5 พันล้าน วิธีดังกล่าวทำให้จำนวนประสาทที่ทำงานอยู่ลดลงต่ำกว่า 2% ด้วยการทำให้สม่ำเสมอแบบเบา (lightweight regularization) ระหว่างการฝึก โดยไม่พบการเสื่อมของประสิทธิภาพในงานปลายน้ำ 7 งาน

GateNews1 ชั่วโมง ที่แล้ว

Microsoft เปิดซอร์สโมเดล Phi-Ground 4B เฟรมเวิร์ก เพิ่มประสิทธิภาพเหนือ OpenAI Operator และ Claude ในความแม่นยำการคลิกหน้าจอ

ตาม Beating ไมโครซอฟต์ได้เปิดซอร์สตระกูลโมเดล Phi-Ground เมื่อไม่นานมานี้ ซึ่งออกแบบมาเพื่อแก้ปัญหาว่า AI ควร “คลิก” ตรงไหนบนหน้าจอคอมพิวเตอร์ รุ่นที่มีพารามิเตอร์ 4 พันล้าน พ่วงกับโมเดลภาษาขนาดใหญ่สำหรับการวางแผนตามคำสั่ง ทำสถิติความแม่นยำในการคลิกได้เกิน OpenAI Operator และ Claude Computer Use ในเกณฑ์ Showdown และติดอันดับ 1 ในบรรดาโมเดลทั้งหมดที่มีพารามิเตอร์ต่ำกว่า 100 พันล้าน ใน 5 การประเมิน รวมถึง ScreenSpot-Pro ทีมงานฝึกด้วยข้อมูลตัวอย่างมากกว่า 40 ล้านรายการ และพบว่าเทคนิคการฝึก 3 แบบที่

GateNews2 ชั่วโมง ที่แล้ว

Tilde Research พบว่า Muon Optimizer ทำให้เซลล์ประสาทตาย 25%; Aurora Alternative ให้ประสิทธิภาพการใช้ข้อมูลเพิ่มขึ้น 100 เท่า

ตามรายงานของ Tilde Research ตัวเพิ่มประสิทธิภาพ (optimizer) Muon ที่นำมาใช้โดยโมเดล AI ชั้นนำ รวมถึง DeepSeek V4 และ Kimi K2.5 มีข้อบกพร่องแอบแฝง: ทำให้เซลล์ประสาท (neurons) ในเลเยอร์ MLP มากกว่า 25% ตายถาวรในช่วงการฝึกระยะเริ่มต้น ทีมได้ออกแบบ Aurora ซึ่งเป็น optimizer ทางเลือก และเผยแพร่เป็นโอเพนซอร์ส โมเดลพารามิเตอร์ 1.1B ที่ฝึกด้วยเพียง 100B tokens ให้ผลเทียบเท่ากับ Qwen3-1.7B ที่ฝึกบน 36T tokens ในเกณฑ์ทดสอบความเข้าใจภาษาอย่าง HellaSwag และ Winogrande แสดงให้เห็นการปรับปรุงประสิทธิภาพด้านข้

GateNews2 ชั่วโมง ที่แล้ว

Nvidia ทุ่มเงินลงทุนด้าน AI มากกว่า 40 พันล้านดอลลาร์ในช่วงต้นปี 2026 รวมถึง 30 พันล้านดอลลาร์ให้กับ OpenAI

ตามรายงานของ TechCrunch ระบุว่า Nvidia ทุ่มมากกว่า 40 พันล้านดอลลาร์สหรัฐให้กับการลงทุนในตราสารทุนของบริษัท AI ในช่วงไม่กี่เดือนแรกของปี 2026 โดยการลงทุน 30 พันล้านดอลลาร์สหรัฐใน OpenAI ถือเป็นคำมั่นครั้งเดียวที่ใหญ่ที่สุด ผู้ผลิตชิปดังกล่าวยังให้คำมั่นว่าจะลงทุนได้สูงสุด 3.2 พันล้านดอลลาร์สหรัฐใน Corning ผู้ผลิตกระจก และมากถึง 2.1 พันล้านดอลลาร์สหรัฐให้กับ IREN ผู้ให้บริการศูนย์ข้อมูล ซึ่งรวมถึงใบสำคัญแสดงสิทธิ 5 ปี และสัญญาแยกต่างหากมูลค่า 3.4 พันล้านดอลลาร์สหรัฐสำหรับบริการคลาวด์ GPU แบบบริหา

GateNews5 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น