การวิจัย Mind Lab LoRA: การเพิ่มพารามิเตอร์เพียง 0.12% ช่วยยกระดับความจำของ AI ได้ 1.31 เท่า

Mind Lab AI研究

เครื่อง Je xīn 于 6 月 2 日 รายงานว่า Mindverse ในเครือ Mindverse ได้เผยแพร่ผลการวิจัยด้านการปรับแต่งประสิทธิภาพสูงแบบ LoRA และ PEFT ต่อเนื่องกันล่าสุด δ-mem ตัวชี้วัดสำคัญคือ ด้วยการเพิ่มพารามิเตอร์เพียงต่ำถึง 0.12% สามารถสร้างความสามารถในการทำงานเพิ่มขึ้น 1.31 เท่าและ 1.20 เท่า ในการทดสอบเกณฑ์มาตรฐานสำหรับ Memory Agent Bench และ LoCoMo แบบเน้นด้านความจำอย่างหนัก

δ-mem:ยืนยันกลไกทางเทคนิคและตัวเลขจากการทดสอบเกณฑ์มาตรฐาน

δ-mem เป็นสถาปัตยกรรมความสนใจแบบเชิงเส้นผสมขนานที่ออกแบบเฉพาะสำหรับคุณลักษณะของ LoRA ในการอนุมาน KV cache ของ Transformer แบบดั้งเดิมจะถูกตรึงแคชไว้และไม่สามารถอัปเดตได้เอง δ-mem จึงนำ “Online State of Associative Memory” เข้ามาดูแลเมทริกซ์ 8×8 ซึ่งในระหว่างการป้อน token จะอัปเดตอย่างต่อเนื่องด้วยกฎเชิงส่วนเพิ่ม (delta-rule learning) และในระหว่างการสร้างข้อความ จะทำ low-rank corrections กับ Attention Query และ Output ของโครงข่ายหลัก

อ้างอิงตัวเลขทางการของ Mind Lab

การเพิ่มพารามิเตอร์:ต่ำถึง 0.12%

Memory Agent Bench เพิ่มขึ้น:1.31 เท่า

LoCoMo เพิ่มขึ้น:1.20 เท่า

แม้จะลบบริบทประวัติที่ชัดเจนออก:ยังสามารถกู้คืนข้อมูลที่เกี่ยวข้องจำนวนมากได้

MinT:ตัวชี้วัดประสิทธิภาพที่ยืนยันสำหรับโครงสร้างพื้นฐานการฝึก LoRA ระดับล้าน

MinT เป็นระบบโครงสร้างพื้นฐานแบบโฮสต์ที่ออกแบบมาสำหรับการฝึก LoRA และบริการออนไลน์ แก่นของการออกแบบคือโมเดลพื้นฐานคงอยู่ในหน่วยความจำระยะยาวสำหรับทั้งการฝึกและบริการการอนุมาน หลังจากการฝึกแต่ละครั้งจะส่งออกสิ่งที่เบากว่าอย่าง LoRA Adapter (เมื่อกำหนดค่า Rank-1 จะต่ำได้ถึงประมาณ 0.1% ของโมเดลพื้นฐาน) เมื่ออัปกลยุทธ์ใหม่ ไม่จำเป็นต้องรวมโมเดลเต็มหรือโหลดซ้ำอีกครั้ง

อ้างอิงตัวเลขทางการของ Mind Lab

เวลาส่งต่อจากการฝึกเสร็จไปยังพร้อมใช้งานในบริการอนุมานลดลง:มากสุด 18.3 เท่า

ความเร็วในการโหลดแบบทันทีของเอนจิ้นเพิ่มขึ้น(โดยการแพ็กเทนเซอร์ MoE LoRA):8.5 ถึง 8.7 เท่า

ภายใต้กลไก rollout แบบสองขั้นตอน:ทำให้ LoRA ที่ผู้ใช้มองเห็นได้มีค่า p95 ของการโหลดลดลงเหลือ 0

ลดค่า TTFT p95 ครั้งแรก:2.3 เท่า

บทความเรื่องกฎการขยายตัวของ LoRA《On the Scaling of PEFT》เสนอแกนการขยายสามด้าน Scale up(แก้ปัญหาที่กลไกการทำซ้ำการเรพรอบการกำหนดเส้นทางบน T 稀疏 MoE ใช้งานไม่ได้)、Scale down(OLoRA-tail initialization ใช้วิวัฒนาการเวกเตอร์เอกฐานที่รองลงมาเพื่อเพิ่มเสถียรภาพของ Rank-1 โดยไม่ต้องเพิ่มพารามิเตอร์)、Scale out(LoRA as Memory แนวคิด เมื่อมีการลงคะแนนจากหลายโมเดล ความแม่นยำจะเติบโตตามกฎแบบลอการิทม์เมื่อจำนวนโมเดลเพิ่มขึ้นตาม k)

Macaron-A2UI:ยืนยันผลการทดสอบเกณฑ์มาตรฐาน

Macaron-A2UI ใช้แพลตฟอร์ม MinT และบนฐานโมเดลภาษาขนาด 30B, 235B และ 754B จะทำการใช้การฝึกแบบ SFT ด้วย LoRA และการฝึกแบบเสริมด้วยการเรียนรู้แบบเสริมแรง GRPO ตามลำดับ โมเดลสามารถสร้าง A2UI ที่เป็นการกระทำซึ่งเป็นโครงสร้างได้ นอกเหนือจากการสร้างเอาต์พุตเป็นข้อความ (เช่น กรอบเลือกหลายรายการ สไลด์เดอร์ การ์ดยืนยัน ฯลฯ)

ตามตัวเลขทางการของ Mind Lab:Macaron-A2UI-Venti ได้ 75.6 คะแนนบน A2UI-Bench และในกรณีที่ใช้เพียงการแจ้งเตือน (prompt) แบบ Schema น้ำหนักเบาเท่านั้น ก็ยังเกินกว่าฐานโมเดลแนวหน้าที่ดีที่สุดที่ใช้ Schema แบบเต็มและยาวมาก (ความยาวประมาณ 27 เท่า)

คำถามที่พบบ่อย

การเพิ่มพารามิเตอร์เพียง 0.12% ของ δ-mem ทำให้ยกระดับสมรรถนะด้านความจำได้ในต้นทุนน้อยขนาดนี้ได้อย่างไร?

δ-mem นำเมทริกซ์ Online State of Associative Memory ขนาด 8×8 มาใช้ (ไม่ใช่ static KV cache แบบดั้งเดิม) เพื่ออัปเดตอย่างต่อเนื่องด้วยกฎเชิงส่วนเพิ่ม และในระหว่างการสร้างข้อความจะใช้ low-rank corrections กับ Transformer ส่วนหลัก การออกแบบนี้ทำให้โมเดลสามารถกู้คืนข้อมูลที่เกี่ยวข้องได้โดยไม่ต้องพึ่งพาบริบทประวัติที่ชัดเจน และเพียงใช้การเพิ่มพารามิเตอร์ 0.12% ก็สามารถทำให้ความสามารถด้านความจำดีขึ้น 1.31 เท่า

MinT จัดการ LoRA จำนวนหลักล้านได้อย่างไรโดยไม่ต้องโหลดโมเดลทั้งระบบซ้ำ?

MinT ทำให้โมเดลพื้นฐานคงอยู่ระยะยาวในบริการฝึกและบริการอนุมาน โดยการอัปเดตแต่ละครั้งจะขยับและโหลดเฉพาะ LoRA Adapter ที่มีขนาดเล็ก โดยทั่วไปมักมีขนาดน้อยกว่า 1% ของโมเดลพื้นฐาน การแพ็กเทนเซอร์ MoE LoRA ช่วยแก้ปัญหาคอขวดด้านการอ่าน/เขียนของวัตถุขนาดเล็กจำนวนมาก และกลไก rollout แบบสองขั้นตอนจะทำให้ LoRA เสร็จสิ้นการพรีฮีตภายใต้การควบคุม admission ก่อนที่การโหลดจะมองเห็นได้สำหรับทราฟฟิกผู้ใช้ ส่งผลให้ความหน่วงการโหลด p95 ลดลงเหลือ 0

Macaron-A2UI แตกต่างจากผู้ช่วย AI แบบข้อความล้วนดั้งเดิมอย่างไรในเชิงสาระ?

Macaron-A2UI นอกเหนือจากการแสดงผลเป็นข้อความ ยังสามารถสร้าง A2UI แบบการกระทำที่เป็นโครงสร้างได้ระหว่างการโต้ตอบแบบเรียลไทม์ (เช่น กรอบเลือกหลายรายการ สไลด์เดอร์ การ์ดยืนยัน ฯลฯ) โดยมีเป้าหมายเพื่อลดภาระการรับรู้ของผู้ใช้ต่อภารกิจที่ซับซ้อน และเรียนรู้ต่อเนื่องตามความชอบที่เฉพาะบุคคลของผู้ใช้

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น