ตามประกาศของบล็อกทางการของ NVIDIA วันที่ 28 เมษายน (ผู้เขียน Kari Briski) NVIDIA ได้เปิดตัว Nemotron 3 Nano Omni — โมเดลมัลติโหมดแบบโอเพนซอร์ส โดยผสานความสามารถด้านการมองเห็น เสียง และภาษาเข้าไว้ในโมเดลเดียว เป้าหมายคือเพื่อเป็น “เลเยอร์การรับรู้” ที่มีความหน่วงต่ำและประหยัดต้นทุนมากขึ้นสำหรับระบบ AI agent
สเปกหลัก: 30B-A3B MoE, context 256K, อัตราการประมวลผล 9 เท่า, ขึ้นอันดับ 1 ใน 6 รายการ
สถาปัตยกรรมหลัก:
30B-A3B hybrid mixture-of-experts (พารามิเตอร์รวม 30B, เปิดใช้งาน 3B)
ผสาน Conv3D และ EVS encoding
ความยาว context 256K
อินพุต: ข้อความ, ภาพ, เสียง, วิดีโอ, เอกสาร, แผนภูมิ, หน้าจอ GUI
เอาต์พุต: ข้อความ
สัญญาณด้านประสิทธิภาพ: อัตราการประมวลผล 9 เท่าในการตอบสนองความสามารถใกล้เคียงกับโมเดลโอเพนซอร์ส omni อื่น ๆ ภายใต้ความสามารถในการโต้ตอบระดับเดียวกัน; ในหมวดเกณฑ์มาตรฐาน 3 กลุ่มใหญ่ ได้แก่ ความฉลาดด้านเอกสาร การทำความเข้าใจวิดีโอ และความเข้าใจเสียง รวม 6 รายการ ได้อันดับ 1 (NVIDIA ไม่ได้ระบุคะแนนเฉพาะ รายละเอียดถูกชี้นำให้ผู้ติดตามไปดูที่บล็อกสำหรับนักพัฒนา)
NVIDIA วางตำแหน่ง Nemotron 3 Nano Omni เป็น “ตาและหู” สำหรับระบบ agent สามารถทำงานร่วมกับโมเดลตระกูลเดียวกันอย่าง Nemotron 3 Super (รันความถี่สูง) และ Nemotron 3 Ultra (การวางแผนที่ซับซ้อน) อีกทั้งยังทำงานร่วมกับโมเดลคลาวด์ของบุคคลที่สามได้ สถานการณ์การใช้งาน agent แบบตัวอย่าง 3 ประเภท:
Computer Use Agent: การอนุมานด้วยการมองเห็นที่ความละเอียดดั้งเดิม 1920×1080
ความฉลาดด้านเอกสาร: การอนุมานจากอินพุตแบบผสม ทั้งข้ามรูป ตาราง ภาพหน้าจอ และสื่อผสม
ความเข้าใจเสียง/วิดีโอ: ผสานคำพูด ภาพ และบันทึกเข้ากับสตริงการอนุมานเดียว
รายชื่อองค์กรที่เข้าร่วม: Foxconn, Palantir เข้าร่วม, H Company CEO ออกแถลงการณ์แบบมีชื่อ
ในการประกาศ NVIDIA แยกชัดเจนระหว่าง “การนำไปใช้งานจริง” กับ “กำลังประเมิน”:
นำไปใช้งานจริงแล้ว: Aible, Applied Scientific Intelligence(ASI), Eka Care, 鸿海(Foxconn), H Company, Palantir, Pyler
กำลังประเมิน: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr ฯลฯ
Gautier Cloix ซีอีโอของ H Company ออกแถลงการณ์แบบมีชื่อในประกาศว่า: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” แปล: “การสร้าง agent ที่มีประโยชน์นั้น คุณไม่สามารถรอให้โมเดลใช้เวลาระดับวินาทีเพื่อแปลความหมายหน้าจอได้ เมื่อสร้างบน Nemotron 3 Nano Omni เราให้ agent ของเราสามารถตีความบันทึกหน้าจอแบบ Full HD ได้อย่างรวดเร็ว — ซึ่งก่อนหน้านี้ไม่สามารถทำได้อย่างเป็นทางปฏิบัติ”
กลยุทธ์โอเพนซอร์สและการดีพลอย: weights / datasets / วิธีการฝึกอบรม เปิดเผยทั้งหมด
ในวันเดียวกับการเปิดตัว NVIDIA ได้เปิดเผย:
น้ำหนักโมเดล
ชุดข้อมูลการฝึกอบรม
เทคนิค/แนวทางการฝึกอบรม
ไปป์ไลน์การดีพลอยครอบคลุม 3 ชั้น:
เวิร์กสเตชันภายในองค์กร: NVIDIA DGX Spark, DGX Station
NIM microservices: build.nvidia.com
แพลตฟอร์มของบุคคลที่สาม: Hugging Face, OpenRouter และผ่าน NVIDIA Cloud Partners มากกว่า 25 ราย รวมถึงแพลตฟอร์มสำหรับการอนุมานและผู้ให้บริการบริการคลาวด์
เครื่องมือแบบปรับแต่งเองใช้ NVIDIA NeMo แฟมิลี Nemotron 3 (Nano/Super/Ultra) ในช่วงปีที่ผ่านมา มีการสะสมการดาวน์โหลดบน Hugging Face มากกว่า 50 ล้านครั้ง ในครั้งนี้ Omni ได้ขยายความสามารถของแฟมิลีนั้นไปสู่ขอบเขตมัลติโหมดและสาย agentic
บทความนี้เกี่ยวกับที่ NVIDIA เผยแพร่ Nemotron 3 Nano Omni แบบโอเพนซอร์สมัลติโหมด ปรากฏเป็นครั้งแรกที่ 鏈新聞 ABMedia
news.related.news
Intel ขึ้นราคา 2 ครั้ง, ส่งมอบล่าช้า, MediaTek และ Supermicro ฉวยโอกาสแย่งส่วนแบ่งการตลาด CPU
Microsoft และ OpenAI ลงนามสัญญาฉบับใหม่อีกครั้ง: ยกเลิกข้อผูกขาด ลบเงื่อนไข AGI
กัวหมิงชี่: OpenAI ร่วมพัฒนาโมบายล์กับ MediaTek, Qualcomm และ Luxshare Precision คาดว่าจะเริ่มการผลิตจำนวนมากในปี 2028
Cerebras ได้ข้อตกลงมูลค่า 20,000 ล้านดอลลาร์กับ OpenAI โดยประเมินมูลค่าเป้าหมายสำหรับ IPO ที่ 35,000 ล้าน
การทดสอบรันโมเดลขนาดใหญ่บน Mac Studio: การคาดการณ์ M3 Ultra, โซลูชันแบบคลัสเตอร์ และ M5 Ultra