เครื่อง Je xīn 于 6 月 2 日 รายงานว่า Mindverse ในเครือ Mindverse ได้เผยแพร่ผลการวิจัยด้านการปรับแต่งประสิทธิภาพสูงแบบ LoRA และ PEFT ต่อเนื่องกันล่าสุด δ-mem ตัวชี้วัดสำคัญคือ ด้วยการเพิ่มพารามิเตอร์เพียงต่ำถึง 0.12% สามารถสร้างความสามารถในการทำงานเพิ่มขึ้น 1.31 เท่าและ 1.20 เท่า ในการทดสอบเกณฑ์มาตรฐานสำหรับ Memory Agent Bench และ LoCoMo แบบเน้นด้านความจำอย่างหนัก

δ-mem：ยืนยันกลไกทางเทคนิคและตัวเลขจากการทดสอบเกณฑ์มาตรฐาน

δ-mem เป็นสถาปัตยกรรมความสนใจแบบเชิงเส้นผสมขนานที่ออกแบบเฉพาะสำหรับคุณลักษณะของ LoRA ในการอนุมาน KV cache ของ Transformer แบบดั้งเดิมจะถูกตรึงแคชไว้และไม่สามารถอัปเดตได้เอง δ-mem จึงนำ “Online State of Associative Memory” เข้ามาดูแลเมทริกซ์ 8×8 ซึ่งในระหว่างการป้อน token จะอัปเดตอย่างต่อเนื่องด้วยกฎเชิงส่วนเพิ่ม (delta-rule learning) และในระหว่างการสร้างข้อความ จะทำ low-rank corrections กับ Attention Query และ Output ของโครงข่ายหลัก

อ้างอิงตัวเลขทางการของ Mind Lab：

การเพิ่มพารามิเตอร์：ต่ำถึง 0.12%

Memory Agent Bench เพิ่มขึ้น：1.31 เท่า

LoCoMo เพิ่มขึ้น：1.20 เท่า

แม้จะลบบริบทประวัติที่ชัดเจนออก：ยังสามารถกู้คืนข้อมูลที่เกี่ยวข้องจำนวนมากได้

MinT：ตัวชี้วัดประสิทธิภาพที่ยืนยันสำหรับโครงสร้างพื้นฐานการฝึก LoRA ระดับล้าน

MinT เป็นระบบโครงสร้างพื้นฐานแบบโฮสต์ที่ออกแบบมาสำหรับการฝึก LoRA และบริการออนไลน์ แก่นของการออกแบบคือโมเดลพื้นฐานคงอยู่ในหน่วยความจำระยะยาวสำหรับทั้งการฝึกและบริการการอนุมาน หลังจากการฝึกแต่ละครั้งจะส่งออกสิ่งที่เบากว่าอย่าง LoRA Adapter (เมื่อกำหนดค่า Rank-1 จะต่ำได้ถึงประมาณ 0.1% ของโมเดลพื้นฐาน) เมื่ออัปกลยุทธ์ใหม่ ไม่จำเป็นต้องรวมโมเดลเต็มหรือโหลดซ้ำอีกครั้ง

อ้างอิงตัวเลขทางการของ Mind Lab：

เวลาส่งต่อจากการฝึกเสร็จไปยังพร้อมใช้งานในบริการอนุมานลดลง：มากสุด 18.3 เท่า

ความเร็วในการโหลดแบบทันทีของเอนจิ้นเพิ่มขึ้น（โดยการแพ็กเทนเซอร์ MoE LoRA）：8.5 ถึง 8.7 เท่า

ภายใต้กลไก rollout แบบสองขั้นตอน：ทำให้ LoRA ที่ผู้ใช้มองเห็นได้มีค่า p95 ของการโหลดลดลงเหลือ 0

ลดค่า TTFT p95 ครั้งแรก：2.3 เท่า

บทความเรื่องกฎการขยายตัวของ LoRA《On the Scaling of PEFT》เสนอแกนการขยายสามด้าน Scale up（แก้ปัญหาที่กลไกการทำซ้ำการเรพรอบการกำหนดเส้นทางบน T 稀疏 MoE ใช้งานไม่ได้）、Scale down（OLoRA-tail initialization ใช้วิวัฒนาการเวกเตอร์เอกฐานที่รองลงมาเพื่อเพิ่มเสถียรภาพของ Rank-1 โดยไม่ต้องเพิ่มพารามิเตอร์）、Scale out（LoRA as Memory แนวคิด เมื่อมีการลงคะแนนจากหลายโมเดล ความแม่นยำจะเติบโตตามกฎแบบลอการิทม์เมื่อจำนวนโมเดลเพิ่มขึ้นตาม k）

Macaron-A2UI：ยืนยันผลการทดสอบเกณฑ์มาตรฐาน

Macaron-A2UI ใช้แพลตฟอร์ม MinT และบนฐานโมเดลภาษาขนาด 30B, 235B และ 754B จะทำการใช้การฝึกแบบ SFT ด้วย LoRA และการฝึกแบบเสริมด้วยการเรียนรู้แบบเสริมแรง GRPO ตามลำดับ โมเดลสามารถสร้าง A2UI ที่เป็นการกระทำซึ่งเป็นโครงสร้างได้ นอกเหนือจากการสร้างเอาต์พุตเป็นข้อความ (เช่น กรอบเลือกหลายรายการ สไลด์เดอร์ การ์ดยืนยัน ฯลฯ)

ตามตัวเลขทางการของ Mind Lab：Macaron-A2UI-Venti ได้ 75.6 คะแนนบน A2UI-Bench และในกรณีที่ใช้เพียงการแจ้งเตือน (prompt) แบบ Schema น้ำหนักเบาเท่านั้น ก็ยังเกินกว่าฐานโมเดลแนวหน้าที่ดีที่สุดที่ใช้ Schema แบบเต็มและยาวมาก (ความยาวประมาณ 27 เท่า)

คำถามที่พบบ่อย

การเพิ่มพารามิเตอร์เพียง 0.12% ของ δ-mem ทำให้ยกระดับสมรรถนะด้านความจำได้ในต้นทุนน้อยขนาดนี้ได้อย่างไร？

δ-mem นำเมทริกซ์ Online State of Associative Memory ขนาด 8×8 มาใช้ (ไม่ใช่ static KV cache แบบดั้งเดิม) เพื่ออัปเดตอย่างต่อเนื่องด้วยกฎเชิงส่วนเพิ่ม และในระหว่างการสร้างข้อความจะใช้ low-rank corrections กับ Transformer ส่วนหลัก การออกแบบนี้ทำให้โมเดลสามารถกู้คืนข้อมูลที่เกี่ยวข้องได้โดยไม่ต้องพึ่งพาบริบทประวัติที่ชัดเจน และเพียงใช้การเพิ่มพารามิเตอร์ 0.12% ก็สามารถทำให้ความสามารถด้านความจำดีขึ้น 1.31 เท่า

MinT จัดการ LoRA จำนวนหลักล้านได้อย่างไรโดยไม่ต้องโหลดโมเดลทั้งระบบซ้ำ？

MinT ทำให้โมเดลพื้นฐานคงอยู่ระยะยาวในบริการฝึกและบริการอนุมาน โดยการอัปเดตแต่ละครั้งจะขยับและโหลดเฉพาะ LoRA Adapter ที่มีขนาดเล็ก โดยทั่วไปมักมีขนาดน้อยกว่า 1% ของโมเดลพื้นฐาน การแพ็กเทนเซอร์ MoE LoRA ช่วยแก้ปัญหาคอขวดด้านการอ่าน/เขียนของวัตถุขนาดเล็กจำนวนมาก และกลไก rollout แบบสองขั้นตอนจะทำให้ LoRA เสร็จสิ้นการพรีฮีตภายใต้การควบคุม admission ก่อนที่การโหลดจะมองเห็นได้สำหรับทราฟฟิกผู้ใช้ ส่งผลให้ความหน่วงการโหลด p95 ลดลงเหลือ 0

Macaron-A2UI แตกต่างจากผู้ช่วย AI แบบข้อความล้วนดั้งเดิมอย่างไรในเชิงสาระ？

Macaron-A2UI นอกเหนือจากการแสดงผลเป็นข้อความ ยังสามารถสร้าง A2UI แบบการกระทำที่เป็นโครงสร้างได้ระหว่างการโต้ตอบแบบเรียลไทม์ (เช่น กรอบเลือกหลายรายการ สไลด์เดอร์ การ์ดยืนยัน ฯลฯ) โดยมีเป้าหมายเพื่อลดภาระการรับรู้ของผู้ใช้ต่อภารกิจที่ซับซ้อน และเรียนรู้ต่อเนื่องตามความชอบที่เฉพาะบุคคลของผู้ใช้

news.article.disclaimer

news.related.news

19 ชั่วโมง ที่แล้ว

Google เปิดตัวโมเดล Gemma 4 ขนาด 12B ที่ออกแบบมาเพื่อแล็ปท็อป 16GB

06-03 17:37

Mysten Labs เปิดตัว Walrus Memory ซึ่งเป็นเลเยอร์หน่วยความจำสำหรับเอเจนต์ AI แบบพกพา ผสานรวม Claude และ ChatGPT

06-03 07:18

Meta ยุติการเก็บข้อมูล MCI หลังการยื่นคำร้องโดยพนักงานมากกว่า 1,500 คนในเดือนพฤษภาคม

btc.bar.articles

แพลตฟอร์มคลาวด์ AI กลายเป็นฉันทามติใหม่ระหว่าง NVIDIA และหน้าใหม่จากวอลล์สตรีท: เจาะลึกตรรกะการลงทุนใน CRWV, NBIS, IREN

Gate Instant Trends06-03 13:48

ไมโครซอฟต์ Build เผยแพร่โมเดล AI จำนวน 7 รุ่น โดยใช้โทเคนน้อยกว่าคู่แข่ง 60%