NVIDIA เปิดตัว Nemotron 3 Nano Omni แบบโอเพนซอร์สสำหรับมัลติโหมด

ChainNewsAbmedia

ตามประกาศของบล็อกทางการของ NVIDIA วันที่ 28 เมษายน (ผู้เขียน Kari Briski) NVIDIA ได้เปิดตัว Nemotron 3 Nano Omni — โมเดลมัลติโหมดแบบโอเพนซอร์ส โดยผสานความสามารถด้านการมองเห็น เสียง และภาษาเข้าไว้ในโมเดลเดียว เป้าหมายคือเพื่อเป็น “เลเยอร์การรับรู้” ที่มีความหน่วงต่ำและประหยัดต้นทุนมากขึ้นสำหรับระบบ AI agent

สเปกหลัก: 30B-A3B MoE, context 256K, อัตราการประมวลผล 9 เท่า, ขึ้นอันดับ 1 ใน 6 รายการ

สถาปัตยกรรมหลัก:

30B-A3B hybrid mixture-of-experts (พารามิเตอร์รวม 30B, เปิดใช้งาน 3B)

ผสาน Conv3D และ EVS encoding

ความยาว context 256K

อินพุต: ข้อความ, ภาพ, เสียง, วิดีโอ, เอกสาร, แผนภูมิ, หน้าจอ GUI

เอาต์พุต: ข้อความ

สัญญาณด้านประสิทธิภาพ: อัตราการประมวลผล 9 เท่าในการตอบสนองความสามารถใกล้เคียงกับโมเดลโอเพนซอร์ส omni อื่น ๆ ภายใต้ความสามารถในการโต้ตอบระดับเดียวกัน; ในหมวดเกณฑ์มาตรฐาน 3 กลุ่มใหญ่ ได้แก่ ความฉลาดด้านเอกสาร การทำความเข้าใจวิดีโอ และความเข้าใจเสียง รวม 6 รายการ ได้อันดับ 1 (NVIDIA ไม่ได้ระบุคะแนนเฉพาะ รายละเอียดถูกชี้นำให้ผู้ติดตามไปดูที่บล็อกสำหรับนักพัฒนา)

NVIDIA วางตำแหน่ง Nemotron 3 Nano Omni เป็น “ตาและหู” สำหรับระบบ agent สามารถทำงานร่วมกับโมเดลตระกูลเดียวกันอย่าง Nemotron 3 Super (รันความถี่สูง) และ Nemotron 3 Ultra (การวางแผนที่ซับซ้อน) อีกทั้งยังทำงานร่วมกับโมเดลคลาวด์ของบุคคลที่สามได้ สถานการณ์การใช้งาน agent แบบตัวอย่าง 3 ประเภท:

Computer Use Agent: การอนุมานด้วยการมองเห็นที่ความละเอียดดั้งเดิม 1920×1080

ความฉลาดด้านเอกสาร: การอนุมานจากอินพุตแบบผสม ทั้งข้ามรูป ตาราง ภาพหน้าจอ และสื่อผสม

ความเข้าใจเสียง/วิดีโอ: ผสานคำพูด ภาพ และบันทึกเข้ากับสตริงการอนุมานเดียว

รายชื่อองค์กรที่เข้าร่วม: Foxconn, Palantir เข้าร่วม, H Company CEO ออกแถลงการณ์แบบมีชื่อ

ในการประกาศ NVIDIA แยกชัดเจนระหว่าง “การนำไปใช้งานจริง” กับ “กำลังประเมิน”:

นำไปใช้งานจริงแล้ว: Aible, Applied Scientific Intelligence(ASI), Eka Care, 鸿海(Foxconn), H Company, Palantir, Pyler

กำลังประเมิน: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr ฯลฯ

Gautier Cloix ซีอีโอของ H Company ออกแถลงการณ์แบบมีชื่อในประกาศว่า: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” แปล: “การสร้าง agent ที่มีประโยชน์นั้น คุณไม่สามารถรอให้โมเดลใช้เวลาระดับวินาทีเพื่อแปลความหมายหน้าจอได้ เมื่อสร้างบน Nemotron 3 Nano Omni เราให้ agent ของเราสามารถตีความบันทึกหน้าจอแบบ Full HD ได้อย่างรวดเร็ว — ซึ่งก่อนหน้านี้ไม่สามารถทำได้อย่างเป็นทางปฏิบัติ”

กลยุทธ์โอเพนซอร์สและการดีพลอย: weights / datasets / วิธีการฝึกอบรม เปิดเผยทั้งหมด

ในวันเดียวกับการเปิดตัว NVIDIA ได้เปิดเผย:

น้ำหนักโมเดล

ชุดข้อมูลการฝึกอบรม

เทคนิค/แนวทางการฝึกอบรม

ไปป์ไลน์การดีพลอยครอบคลุม 3 ชั้น:

เวิร์กสเตชันภายในองค์กร: NVIDIA DGX Spark, DGX Station

NIM microservices: build.nvidia.com

แพลตฟอร์มของบุคคลที่สาม: Hugging Face, OpenRouter และผ่าน NVIDIA Cloud Partners มากกว่า 25 ราย รวมถึงแพลตฟอร์มสำหรับการอนุมานและผู้ให้บริการบริการคลาวด์

เครื่องมือแบบปรับแต่งเองใช้ NVIDIA NeMo แฟมิลี Nemotron 3 (Nano/Super/Ultra) ในช่วงปีที่ผ่านมา มีการสะสมการดาวน์โหลดบน Hugging Face มากกว่า 50 ล้านครั้ง ในครั้งนี้ Omni ได้ขยายความสามารถของแฟมิลีนั้นไปสู่ขอบเขตมัลติโหมดและสาย agentic

บทความนี้เกี่ยวกับที่ NVIDIA เผยแพร่ Nemotron 3 Nano Omni แบบโอเพนซอร์สมัลติโหมด ปรากฏเป็นครั้งแรกที่ 鏈新聞 ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น