Vision Banana ของ Google: โมเดลวิสัยทัศน์แบบรวมศูนย์ที่ทำได้ดีกว่าโมเดลเฉพาะงานในการแบ่งส่วนและเรขาคณิต 3D

ข้อความ Gate News ประจำวันที่ 23 เมษายน — นักวิจัยของ Google รวมถึง He Kaiming และ Xie Saining ได้เผยแพร่บทความที่นำเสนอ Vision Banana ซึ่งเป็นโมเดลความเข้าใจด้านภาพอเนกประสงค์ที่สร้างขึ้นผ่านการปรับจูนคำสั่งแบบน้ำหนักเบาของโมเดลสร้างภาพ Nano Banana Pro (Gemini 3 Pro Image) ของบริษัท นวัตกรรมหลักคือการรวมผลลัพธ์ของงานวิชันทั้งหมดให้เป็นภาพ RGB ทำให้สามารถทำการแบ่งส่วน การประมาณความลึก และการคาดการณ์เวกเตอร์ปกผิวได้ผ่านการสร้างภาพ โดยไม่ต้องใช้สถาปัตยกรรมหรือฟังก์ชันการสูญเสียที่เฉพาะเจาะจง

ในการแบ่งส่วนเชิงความหมาย Vision Banana ทำได้ดีกว่าโมเดลเฉพาะทาง SAM 3 ด้วยคะแนนที่มากกว่า 4.7 จุดเปอร์เซ็นต์บน Cityscapes; ในการแบ่งส่วนด้วยการอ้างอิง (referring expression segmentation) มันทำได้เหนือกว่า SAM 3 Agent อย่างไรก็ตาม มันยังตามหลัง SAM 3 ในการแบ่งส่วนแบบแยกเป็นอินสแตนซ์ สำหรับงาน 3D การประมาณความลึกแบบเมตริกทำได้ค่าเฉลี่ยความแม่นยำ 0.929 จากชุดข้อมูลมาตรฐาน 4 ชุด และสูงกว่า Depth Anything V3 ที่ 0.918 โดยใช้เพียงข้อมูลสังเคราะห์โดยไม่มีข้อมูลความลึกจริงหรือพารามิเตอร์ของกล้องในระหว่างการอนุมาน การประมาณค่าเวกเตอร์ปกผิวทำผลงานล้ำสมัยบนเกณฑ์ทดสอบในร่ม 3 รายการ

การปรับจูนทำโดยนำข้อมูลงานด้านภาพเพียงเล็กน้อยมาผสมกับการฝึกการสร้างภาพดั้งเดิม โดยรักษาความสามารถในการสร้างของโมเดลไว้—ผลการทดสอบด้านคุณภาพการสร้างเทียบเคียงกับ Nano Banana Pro รุ่นเดิม บทความเสนอว่า pretraining สำหรับการสร้างภาพในด้านภาพนั้นเทียบได้กับ pretraining สำหรับการสร้างข้อความในภาษา: โมเดลเรียนรู้การแทนภายในที่จำเป็นสำหรับความเข้าใจภาพระหว่างการสร้าง โดยการปรับจูนคำสั่งเพียงแค่ปลดล็อกความสามารถนี้ออกมาเท่านั้น

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น