Perplexity เปิดเผย Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4

ปิดข่าว Gate ประจำวันที่ 23 เมษายน — ทีมวิจัยของ Perplexity เผยแพร่บทความทางเทคนิคที่อธิบายระเบียบวิธีหลังการฝึกอบรมสำหรับตัวแทนค้นหาเว็บ แนวทางดังกล่าวใช้โมเดลเปิดซอร์ส Qwen3.5 จำนวน 2 ตัว (Qwen3.5-122B-A10B และ Qwen3.5-397B-A17B) และใช้ไปป์ไลน์แบบ 2 ขั้นตอน ได้แก่ การฝึกแบบมีผู้สอน (SFT) เพื่อสร้างความสามารถในการทำตามคำสั่งและความสอดคล้องด้านภาษา จากนั้นตามด้วยการเรียนรู้แบบเสริมแรงออนไลน์ (RL) เพื่อเพิ่มประสิทธิภาพด้านความถูกต้องของการค้นหาและประสิทธิภาพการใช้เครื่องมือ

ขั้น RL ใช้ทั้งอัลกอริทึม GRPO และแหล่งข้อมูล 2 แหล่ง: ชุดข้อมูลคำถาม-คำตอบแบบหลายขั้นตอนที่ตรวจสอบได้ซึ่งเป็นกรรมสิทธิ์ โดยสร้างจากคำถามเริ่มต้นภายในที่ต้องใช้การให้เหตุผล 2–4 ช่วง และมีการยืนยันด้วยตัวแก้หลายตัว และข้อมูลการสนทนาทั่วไปที่อิงตามเกณฑ์การให้คะแนน ซึ่งจะแปลงข้อกำหนดการนำไปใช้งานให้เป็นเงื่อนไขย่อยที่ตรวจสอบได้อย่างเป็นรูปธรรม เพื่อป้องกันการเสื่อมพฤติกรรมจาก SFT

การออกแบบรางวัลใช้การรวมแบบมีประตูควบคุม—คะแนนความพึงพอใจจะมีส่วนร่วมก็ต่อเมื่อได้ความถูกต้องตามเกณฑ์พื้นฐาน (การจับคู่คำถาม-คำตอบ หรือบรรลุเกณฑ์ทั้งหมดตามรูบริก) เพื่อป้องกันสัญญาณความพึงพอใจที่สูงไม่ให้บดบังความผิดพลาดด้านข้อเท็จจริง การลงโทษด้านประสิทธิภาพใช้การยึดตามกลุ่มภายใน โดยใช้การลงโทษแบบเรียบต่อการเรียกใช้เครื่องมือและความยาวการสร้างที่เกินกว่าค่าพื้นฐานของคำตอบที่ถูกต้องในกลุ่มเดียวกัน

การประเมินแสดงว่า Qwen3.5-397B-SFT-RL ให้ประสิทธิภาพระดับดีที่สุดในกลุ่มเมื่อเทียบกันในชุดการทดสอบการค้นหา ใน FRAMES ทำได้ 57.3% ของความถูกต้องเมื่อเรียกเครื่องมือเพียงครั้งเดียว ซึ่งเหนือกว่า GPT-5.4 ด้วยส่วนต่าง 5.7 จุดเปอร์เซ็นต์ และเหนือกว่า Claude Sonnet 4.6 ด้วยส่วนต่าง 4.7 จุดเปอร์เซ็นต์ ภายใต้งบประมาณปานกลาง (การเรียกเครื่องมือสี่ครั้ง) จะได้ความถูกต้อง 73.9% ที่ $0.02 ต่อคำถาม เทียบกับ GPT-5.4 ที่ได้ 67.8% ที่ $0.085 ต่อคำถาม และ Sonnet 4.6 ที่ได้ 62.4% ที่ $0.153 ต่อคำถาม ตัวเลขต้นทุนอ้างอิงจากราคาต่อสาธารณะของแต่ละผู้ให้บริการ และไม่รวมการปรับปรุงด้านการแคช

news.article.disclaimer

btc.bar.articles

Trust Wallet และ Mesh เปิดตัวความสามารถของ AI Agent ที่ Consensus Miami

ตามรายงานของ CoinDesk Trust Wallet และ Mesh ได้ประกาศอัปเดตสถาปัตยกรรมวอลเล็ตเมื่อวันที่ 9 พฤษภาคม ที่งาน Consensus Miami เพื่อรองรับเอเจนต์ AI โดย Mesh เปิดตัว Smart Funding ซึ่งจะกำหนดเส้นทางการชำระเงินอัตโนมัติข้ามเชนและรองรับทั้งผู้ใช้งานและเอเจนต์ AI Trust Wallet เปิดตัวฟีเจอร์ AI co-pilot ในวอลเล็ตสำหรับผู้บริโภค พร้อมคงการดูแลกุญแจของผู้ใช้ไว้ และได้ปล่อย Agent Kit สำหรับนักพัฒนาเพื่อให้เอเจนต์สามารถดำเนินการธุรกรรมได้อย่างอิสระ นอกจากนี้ Trust Wallet ยังได้นำ EIP-8004 มาใช้เพื่อสร้างตัวต

GateNews7 ชั่วโมง ที่แล้ว

Google DeepMind AI ร่วมเป็นโค-นักคณิตศาสตร์ ทำคะแนน 47.9% บน FrontierMath Tier 4 เอาชนะ GPT-5.5 Pro และแก้ปัญหาที่เคยแก้ไม่ได้มาก่อน 3 ข้อ

Google DeepMind เปิดตัวผู้ช่วยโค-นักคณิตศาสตร์ด้วย AI ซึ่งเป็นผู้ช่วยวิจัยคณิตศาสตร์แบบหลายเอเจนต์ ทำผลความแม่นยำ 47.9% บนเกณฑ์ FrontierMath Tier 4 แซงหน้าสถิติก่อนหน้าของ GPT-5.5 Pro ที่ 39.6% เมื่อวันที่ 9 พฤษภาคม ระบบสามารถแก้ได้ 23 จาก 48 โจทย์ รวมถึง 3 ข้อที่โมเดลก่อนหน้านี้ทั้งหมดแก้ไม่ได้ สร้างบน Gemini 3.1 Pro สถาปัตยกรรมใช้การออกแบบแบบลำดับชั้น โดยมีเอเจนต์ประสานงานโครงการเป็นผู้แจกจ่ายงานให้กับเอเจนต์ย่อยที่รับผิดชอบการค้นคืนวรรณกรรม การเขียนโค้ด และการให้เหตุผล พร้อมด้วยเอเจนต์ผู้ทบทว

GateNews10 ชั่วโมง ที่แล้ว

OpenAI เผยคะแนน CoT ส่งผลกระทบโดยไม่คาดคิด: การคงการตรวจสอบสายโซ่ความคิด (CoT) คือแนวป้องกันสำคัญในการทำให้ AI Agent ตรงแนว

เมื่อวันที่ 8 พฤษภาคม OpenAI เผยแพร่การศึกษารูปแบบใหม่ โดยเปิดเผยว่าระหว่างกระบวนการฝึกการเรียนรู้เชิงเสริมแรง (RL) บริษัทได้ “ให้คะแนนอย่างไม่ตั้งใจ” ต่อ chain of thought (CoT) ของบางโมเดล ซึ่งอาจส่งผลต่อความสามารถในการตรวจสอบการจัดแนวของ AI Agent (alignment) ทีมงาน OpenAI Alignment รายงานว่า การคงไว้ซึ่งความสามารถในการตรวจสอบ CoT เป็นด่านป้องกันสำคัญในปัจจุบันต่อการรับมือกับความล้มเหลวของการจัดแนวของ AI Agent ในการออกแบบการฝึก RL ของ OpenAI นั้น ตั้งใจหลีกเลี่ยงการลงโทษ “การให้เหตุผลที่จัดแนวล

ChainNewsAbmedia14 ชั่วโมง ที่แล้ว

หน่วยงานรัฐบาลจีน 3 แผนก ออกแนวทางเพื่อพัฒนาอินเทอร์เน็ตอัจฉริยะในวันที่ 8 พฤษภาคม

ตามที่ Gelonghui ระบุว่า หน่วยงานกำกับดูแลไซเบอร์สเปซของจีน คณะกรรมการพัฒนาและปฏิรูปแห่งชาติ และกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศ ได้ออกคำแนะนำ “ความเห็นการนำไปปฏิบัติเกี่ยวกับการประยุกต์ใช้อย่างเป็นมาตรฐานและการพัฒนาอย่างสร้างสรรค์ของตัวแทนทางปัญญา” ร่วมกันเมื่อวันที่ 8 พฤษภาคม นโยบาย

GateNews16 ชั่วโมง ที่แล้ว

Hermes Agent ขึ้นแท่นอันดับการใช้งานบน OpenRouter ในวันนี้ ด้วย 271 พันล้านโทเค็น แซงหน้า OpenClaw

ตามรายงานของ Nous Research วันนี้ Hermes Agent ขึ้นอันดับ 1 ในการจัดอันดับการใช้งานโทเคนแอปพลิเคชันทั่วโลกของ OpenRouter ด้วย 271 พันล้านโทเคน แซงหน้า OpenClaw ที่อยู่อันดับ 2 ด้วย 245 พันล้านโทเคน Kilo Code (149 พันล้าน) และ Claude Code (79 พันล้าน) ตามมาเป็นอันดับ 3 และ 4 อันดับ 4 อันดับแรกถูกครอบงำโดยเครื่องมือสำหรับการเขียนโค้ดทั้งแบบเอเจนต์และ CLI สะท้อนถึงความต้องการของนักพัฒนาอย่างแข็งแกร่งสำหรับการทำให้กระบวนการอัตโนมัติด้วยโค้ดและเครื่องมือ AI agent Descript ซึ่งเป็นเครื่องมือตัดต่อเสีย

GateNews16 ชั่วโมง ที่แล้ว

SwarmBase ผสานรวมเอเจนต์ AIDEN ของ IQ AI เมื่อวันที่ 7 พฤษภาคม

จากประกาศอย่างเป็นทางการของ IQ AI เมื่อวันที่ 7 พฤษภาคม SwarmBase ได้บูรณาการเอเจนต์ AIDEN AI เข้ากับโครงสร้างพื้นฐานชุมชนแบบกระจายอำนาจ เพื่อยกระดับการเข้าถึงความรู้เกี่ยวกับบล็อกเชน AIDEN ทำหน้าที่เป็นผู้ช่วยอัจฉริยะที่ช่วยให้ผู้ใช้ตีความศัพท์เทคนิคบล็อกเชนที่ซับซ้อนได้

GateNews05-08 14:41
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น