งานวิจัยล่าสุด: โมเดล 9B อัปเดตทักษะได้เองเพื่อให้เทียบเคียงประสิทธิภาพของ Claude Opus 4.6

จากเอกสารฉบับล่าสุดของ Penn State, UCSC และ Amazon ที่มีชื่อว่า “Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents” นักวิจัยพบว่า ความสามารถในการอัปเดตอุปกรณ์ของบรรดาตัวแทน AI แสดงรูปแบบ “แบนราบ (flattening)” ในบรรดารุ่นต่างๆ การทดสอบข้ามรุ่นพบว่า การอัปเดตอุปกรณ์ของโมเดลที่แตกต่างกันให้ผลการทำงานที่ต่างกันเพียง 3.1% เท่านั้น แม้กระทั่งโมเดล Qwen3.5-9B ขนาด 9B ก็ยังสร้างการอัปเดตที่มีโครงสร้างเทียบเท่ากับ Claude Opus 4.6 รุ่นเรือธง

อย่างไรก็ตาม ความสามารถของเอเจนต์ในการได้รับประโยชน์จากอุปกรณ์ที่อัปเดตกลับมีแนวโน้มแบบไม่ต่อเนื่อง (non-monotonic) โมเดลที่อ่อนแออย่าง Qwen3-32B ต้องเผชิญความล้มเหลวสำคัญ 2 รูปแบบ ได้แก่ “equipment activation failure” ซึ่งมีอัตราการโหลดทักษะเพียง 25.1% เทียบกับ 96% ของโมเดลที่แข็งแรงกว่า และ “equipment compliance failure” ที่การยึดตามคำสั่งลดลงอย่างรวดเร็วจาก 0.52 เหลือ 0.13 ระหว่างการรันต่อเนื่องเป็นเวลานาน นักวิจัยด้าน AI Elvis Sar ระบุว่าพบรูปแบบลักษณะเดียวกันจากการทดลองเอเจนต์เขียนโค้ดของเขา ซึ่งชี้ว่าควรจัดลำดับความสำคัญงบประมาณการคำนวณให้กับเอเจนต์ที่เน้นการรัน (execution agents) มากกว่าเครื่องยนต์ด้านวิวัฒนาการ (evolution engines)

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น