ข่าวประจำเกต 27 เมษายน — SemiAnalysis บริษัทวิเคราะห์เซมิคอนดักเตอร์และ AI ได้เผยแพร่มาตรฐานเปรียบเทียบเชิงเปรียบเทียบของผู้ช่วยการเขียนโค้ด รวมถึง GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ผลค้นหาที่สำคัญ: GPT-5.5 แสดงถึงการกลับสู่ขอบล้ำในการพัฒนาโมเดลการเขียนโค้ดของ OpenAI เป็นครั้งแรกในรอบหกเดือน โดยวิศวกรของ SemiAnalysis ตอนนี้สลับไปมาระหว่าง Codex และ Claude Code หลังจากก่อนหน้านี้พึ่งพา Claude เกือบทั้งหมด GPT-5.5 อ้างอิงจากแนวทางการพรีเทรนแบบใหม่ที่มีชื่อรหัสว่า “Spud” และถือเป็นการขยายขนาดการพรีเทรนครั้งแรกของ OpenAI นับตั้งแต่ GPT-4.5.

ในการทดสอบเชิงปฏิบัติที่ชัดเจน ได้แยกบทบาทออกมาอย่างชัดเจน Claude จัดการการวางแผนโครงการใหม่และการตั้งค่าเริ่มต้น ในขณะที่ Codex โดดเด่นสำหรับการแก้บั๊กที่ต้องใช้การให้เหตุผลหนักๆ Codex แสดงความเข้าใจโครงสร้างข้อมูลและการให้เหตุผลเชิงตรรกะที่แข็งแกร่งกว่า แต่กลับมีปัญหาในการคาดเดาความตั้งใจของผู้ใช้ที่ไม่ชัดเจน ในงานที่คล้ายกันบนแดชบอร์ดเดียว Claude คัดลอกเค้าโครงหน้าจากตัวอย่างได้โดยอัตโนมัติแต่ได้สร้างข้อมูลจำนวนมากขึ้นมา ในขณะที่ Codex ข้ามเรื่องเค้าโครงแต่ให้ข้อมูลที่แม่นยำกว่ามาก

การวิเคราะห์เผยรายละเอียดเกี่ยวกับการปรับแต่งเกณฑ์มาตรฐาน: โพสต์บล็อกของ OpenAI ในเดือนกุมภาพันธ์ได้เรียกร้องให้วงการนำ SWE-bench Pro มาเป็นมาตรฐานใหม่สำหรับการประเมินเกณฑ์การเขียนโค้ด อย่างไรก็ตาม การประกาศของ GPT-5.5 ได้เปลี่ยนไปใช้เกณฑ์มาตรฐานใหม่ที่ชื่อ “Expert-SWE” เหตุผล—ซ่อนอยู่ในส่วนปลีกย่อย—คือ GPT-5.5 ถูก Opus 4.7 แซงบน SWE-bench Pro และทำผลงานได้ต่ำกว่ามากเมื่อเทียบกับ Mythos ที่ยังไม่เผยแพร่ของ Anthropic (77.8%).

สำหรับ Opus 4.7 Anthropic เผยแพร่การวิเคราะห์สรุปหลังเหตุการณ์ (postmortem) หนึ่งสัปดาห์หลังการเปิดตัว โดยยอมรับบั๊กสามจุดใน Claude Code ที่ยังคงอยู่ต่อเนื่องเป็นเวลาหลายสัปดาห์ตั้งแต่เดือนมีนาคมถึงเมษายน ส่งผลกระทบต่อผู้ใช้งานเกือบทั้งหมด วิศวกรหลายคนเคยรายงานว่าประสิทธิภาพลดลงในเวอร์ชัน 4.6 มาก่อน แต่ถูกมองว่าเป็นข้อสังเกตเชิงอัตวิสัย นอกจากนี้ โทเคไนเซอร์ใหม่ของ Opus 4.7 เพิ่มการใช้งานโทเคนได้สูงถึง 35% ซึ่ง Anthropic ยอมรับอย่างตรงไปตรงมา—ซึ่งเท่ากับเป็นการขึ้นราคาที่ซ่อนอยู่โดยปริยาย

DeepSeek V4 ถูกประเมินว่า “ตามทันความก้าวหน้าในระดับแนวหน้าแต่ไม่ได้เป็นผู้นำ” โดยวางตำแหน่งตัวเองเป็นทางเลือกที่มีต้นทุนต่ำที่สุดในบรรดาโมเดลที่ปิดซอร์ส การวิเคราะห์ยังระบุว่า “Claude ยังคงทำผลงานได้ดีกว่า DeepSeek V4 Pro ในงานเขียนภาษาจีนที่มีความยากสูง” โดยแสดงความคิดเห็นว่า “Claude ชนะโมเดลภาษาจีนในภาษาเดียวกับที่มันใช้”

บทความนำเสนอแนวคิดสำคัญว่า ควรประเมินราคาของโมเดลด้วย “ต้นทุนต่อหนึ่งงาน” แทนที่จะเป็น “ต้นทุนต่อหนึ่งโทเคน” ราคาของ GPT-5.5 เป็นสองเท่าของ GPT-5.4 (input $5, output $30 per million tokens) แต่ทำงานเดียวกันได้โดยใช้โทเคนน้อยกว่า ดังนั้นต้นทุนที่แท้จริงจึงไม่ได้จำเป็นต้องสูงขึ้น ข้อมูลเบื้องต้นจาก SemiAnalysis แสดงว่าอัตราส่วนอินพุตต่อเอาต์พุตของ Codex อยู่ที่ 80:1 ต่ำกว่าของ Claude Code ที่ 100:1.

news.view.source

news.article.disclaimer

btc.bar.articles

Google ทดลองการสอบคัดเลือกที่เปิดโอกาสให้วิศวกรใช้เครื่องมือ AI

AI Industry News

ตามรายงานของ The Chosun Daily กูเกิลกำลังทดลองใช้การสอบคัดเลือกงานที่อนุญาตให้ผู้สมัครวิศวกรซอฟต์แวร์ชาวสหรัฐใช้เครื่องมือ AI ได้ในตำแหน่งงานระดับเริ่มต้นและระดับกลางที่คัดเลือกมา แบบทดสอบนี้รวมถึงงานด้านความเข้าใจโค้ด โดยให้ผู้สมัครตรวจสอบโค้ดที่มีอยู่ แก้ไขบั๊ก และปรับปรุงประสิทธิภาพ ผู้สัมภาษณ์จะประเมินว่าผู้สมัคร “พรอมป์” ให้ AI อย่างไร ตรวจสอบผลลัพธ์ที่ได้ แก้ไขผลลัพธ์ และดีบักโค้ด โดยไม่ใช่ประเมินเพียงความสามารถในการเขียนโค้ดตั้งแต่เริ่มต้นเท่านั้น

GateNews3 นาที ที่แล้ว

OpenAI ยุติ API การปรับแต่งโมเดล (Fine-tuning) ตั้งแต่มีผลทันที ผู้ใช้งานเดิมยังเข้าถึงได้จนถึงวันที่ 6 มกราคม 2027

AI Industry News

ตามประกาศอย่างเป็นทางการของ OpenAI ที่ Beating เฝ้าติดตาม บริษัทจะยุติการให้บริการ Fine-tuning API แบบให้ผู้พัฒนาดำเนินการเอง (self-serve) ตั้งแต่ทันที ผู้ใช้รายใหม่ไม่สามารถสร้างงาน Fine-tuning ได้อีก ขณะที่ผู้ใช้งานที่ใช้งานอยู่แล้วสามารถเข้าถึงบริการได้จนถึงวันที่ 6 มกราคม 2027 โมเดลที่ถูก Fine-tuning แล้วจะมีบริการการอินเฟอเรนซ์ผูกกับวงจรชีวิตของโมเดลพื้นฐาน และจะยุติเมื่อโมเดลพื้นฐานถูกปลดออก OpenAI ระบุว่าโมเดลพื้นฐานรุ่นใหม่ เช่น GPT-5.5 ตอนนี้มีพลังเพียงพอในการปฏิบัติตามคำสั่งและรูปแบบ (

GateNews39 นาที ที่แล้ว

Sakana AI และ Nvidia ทำได้เร็วกว่าการอินเฟอเรนซ์ H100 ถึง 30% ด้วยการข้ามการคำนวณที่ไม่ถูกต้อง 80%

AI Industry News

Sakana AI และ Nvidia ได้เปิดซอร์ส TwELL ซึ่งเป็นรูปแบบข้อมูลแบบเบาบางที่ช่วยให้ GPU H100 ข้ามการคำนวณที่ไม่ถูกต้องไปถึง 80% ในโมเดลภาษาขนาดใหญ่โดยไม่ลดทอนความแม่นยำ โซลูชันนี้ช่วยให้การอนุมานเร็วขึ้นได้ถึง 30% และการฝึกเร็วขึ้น 24% บน H100 พร้อมทั้งลดการใช้หน่วยความจำสูงสุด ระหว่างการทดสอบกับโมเดลพารามิเตอร์ 1.5 พันล้าน วิธีดังกล่าวทำให้จำนวนประสาทที่ทำงานอยู่ลดลงต่ำกว่า 2% ด้วยการทำให้สม่ำเสมอแบบเบา (lightweight regularization) ระหว่างการฝึก โดยไม่พบการเสื่อมของประสิทธิภาพในงานปลายน้ำ 7 งาน

GateNews1 ชั่วโมง ที่แล้ว

Microsoft เปิดซอร์สโมเดล Phi-Ground 4B เฟรมเวิร์ก เพิ่มประสิทธิภาพเหนือ OpenAI Operator และ Claude ในความแม่นยำการคลิกหน้าจอ

AI Industry News

ตาม Beating ไมโครซอฟต์ได้เปิดซอร์สตระกูลโมเดล Phi-Ground เมื่อไม่นานมานี้ ซึ่งออกแบบมาเพื่อแก้ปัญหาว่า AI ควร “คลิก” ตรงไหนบนหน้าจอคอมพิวเตอร์ รุ่นที่มีพารามิเตอร์ 4 พันล้าน พ่วงกับโมเดลภาษาขนาดใหญ่สำหรับการวางแผนตามคำสั่ง ทำสถิติความแม่นยำในการคลิกได้เกิน OpenAI Operator และ Claude Computer Use ในเกณฑ์ Showdown และติดอันดับ 1 ในบรรดาโมเดลทั้งหมดที่มีพารามิเตอร์ต่ำกว่า 100 พันล้าน ใน 5 การประเมิน รวมถึง ScreenSpot-Pro ทีมงานฝึกด้วยข้อมูลตัวอย่างมากกว่า 40 ล้านรายการ และพบว่าเทคนิคการฝึก 3 แบบที่

GateNews2 ชั่วโมง ที่แล้ว

Tilde Research พบว่า Muon Optimizer ทำให้เซลล์ประสาทตาย 25%; Aurora Alternative ให้ประสิทธิภาพการใช้ข้อมูลเพิ่มขึ้น 100 เท่า

AI Industry News

ตามรายงานของ Tilde Research ตัวเพิ่มประสิทธิภาพ (optimizer) Muon ที่นำมาใช้โดยโมเดล AI ชั้นนำ รวมถึง DeepSeek V4 และ Kimi K2.5 มีข้อบกพร่องแอบแฝง: ทำให้เซลล์ประสาท (neurons) ในเลเยอร์ MLP มากกว่า 25% ตายถาวรในช่วงการฝึกระยะเริ่มต้น ทีมได้ออกแบบ Aurora ซึ่งเป็น optimizer ทางเลือก และเผยแพร่เป็นโอเพนซอร์ส โมเดลพารามิเตอร์ 1.1B ที่ฝึกด้วยเพียง 100B tokens ให้ผลเทียบเท่ากับ Qwen3-1.7B ที่ฝึกบน 36T tokens ในเกณฑ์ทดสอบความเข้าใจภาษาอย่าง HellaSwag และ Winogrande แสดงให้เห็นการปรับปรุงประสิทธิภาพด้านข้

GateNews2 ชั่วโมง ที่แล้ว

Nvidia ทุ่มเงินลงทุนด้าน AI มากกว่า 40 พันล้านดอลลาร์ในช่วงต้นปี 2026 รวมถึง 30 พันล้านดอลลาร์ให้กับ OpenAI

AI Industry News

ตามรายงานของ TechCrunch ระบุว่า Nvidia ทุ่มมากกว่า 40 พันล้านดอลลาร์สหรัฐให้กับการลงทุนในตราสารทุนของบริษัท AI ในช่วงไม่กี่เดือนแรกของปี 2026 โดยการลงทุน 30 พันล้านดอลลาร์สหรัฐใน OpenAI ถือเป็นคำมั่นครั้งเดียวที่ใหญ่ที่สุด ผู้ผลิตชิปดังกล่าวยังให้คำมั่นว่าจะลงทุนได้สูงสุด 3.2 พันล้านดอลลาร์สหรัฐใน Corning ผู้ผลิตกระจก และมากถึง 2.1 พันล้านดอลลาร์สหรัฐให้กับ IREN ผู้ให้บริการศูนย์ข้อมูล ซึ่งรวมถึงใบสำคัญแสดงสิทธิ 5 ปี และสัญญาแยกต่างหากมูลค่า 3.4 พันล้านดอลลาร์สหรัฐสำหรับบริการคลาวด์ GPU แบบบริหา

GateNews5 ชั่วโมง ที่แล้ว

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น