จากเอกสารฉบับล่าสุดของ Penn State, UCSC และ Amazon ที่มีชื่อว่า “Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents” นักวิจัยพบว่า ความสามารถในการอัปเดตอุปกรณ์ของบรรดาตัวแทน AI แสดงรูปแบบ “แบนราบ (flattening)” ในบรรดารุ่นต่างๆ การทดสอบข้ามรุ่นพบว่า การอัปเดตอุปกรณ์ของโมเดลที่แตกต่างกันให้ผลการทำงานที่ต่างกันเพียง 3.1% เท่านั้น แม้กระทั่งโมเดล Qwen3.5-9B ขนาด 9B ก็ยังสร้างการอัปเดตที่มีโครงสร้างเทียบเท่ากับ Claude Opus 4.6 รุ่นเรือธง

อย่างไรก็ตาม ความสามารถของเอเจนต์ในการได้รับประโยชน์จากอุปกรณ์ที่อัปเดตกลับมีแนวโน้มแบบไม่ต่อเนื่อง (non-monotonic) โมเดลที่อ่อนแออย่าง Qwen3-32B ต้องเผชิญความล้มเหลวสำคัญ 2 รูปแบบ ได้แก่ “equipment activation failure” ซึ่งมีอัตราการโหลดทักษะเพียง 25.1% เทียบกับ 96% ของโมเดลที่แข็งแรงกว่า และ “equipment compliance failure” ที่การยึดตามคำสั่งลดลงอย่างรวดเร็วจาก 0.52 เหลือ 0.13 ระหว่างการรันต่อเนื่องเป็นเวลานาน นักวิจัยด้าน AI Elvis Sar ระบุว่าพบรูปแบบลักษณะเดียวกันจากการทดลองเอเจนต์เขียนโค้ดของเขา ซึ่งชี้ว่าควรจัดลำดับความสำคัญงบประมาณการคำนวณให้กับเอเจนต์ที่เน้นการรัน (execution agents) มากกว่าเครื่องยนต์ด้านวิวัฒนาการ (evolution engines)

news.view.source

news.article.disclaimer

news.related.news

06-02 07:19

หุ้น Tencent พุ่งขึ้น 8% หลังรายงานการพัฒนา AI Agent บน WeChat

06-02 06:17

Tencent ทดสอบเอเจนต์ AI ใน WeChat ในเดือนมิถุนายน เปิดใช้งานข้ามมินิโปรแกรม

06-02 00:03

Alphabet วางแผนระดมทุนตราสารทุน 80 พันล้านดอลลาร์สำหรับโครงสร้างพื้นฐานด้าน AI ในวันที่ 2 มิถุนายน

06-01 12:55

OpenAI สาธิตระบบปฏิบัติการโทรศัพท์ที่ขับเคลื่อนด้วย AI โดยไม่ต้องใช้แอปแบบดั้งเดิม ในงาน Voice Hack Night

06-01 03:21