ข้อความ Gate News ประจำวันที่ 23 เมษายน — นักวิจัยของ Google รวมถึง He Kaiming และ Xie Saining ได้เผยแพร่บทความที่นำเสนอ Vision Banana ซึ่งเป็นโมเดลความเข้าใจด้านภาพอเนกประสงค์ที่สร้างขึ้นผ่านการปรับจูนคำสั่งแบบน้ำหนักเบาของโมเดลสร้างภาพ Nano Banana Pro (Gemini 3 Pro Image) ของบริษัท นวัตกรรมหลักคือการรวมผลลัพธ์ของงานวิชันทั้งหมดให้เป็นภาพ RGB ทำให้สามารถทำการแบ่งส่วน การประมาณความลึก และการคาดการณ์เวกเตอร์ปกผิวได้ผ่านการสร้างภาพ โดยไม่ต้องใช้สถาปัตยกรรมหรือฟังก์ชันการสูญเสียที่เฉพาะเจาะจง

ในการแบ่งส่วนเชิงความหมาย Vision Banana ทำได้ดีกว่าโมเดลเฉพาะทาง SAM 3 ด้วยคะแนนที่มากกว่า 4.7 จุดเปอร์เซ็นต์บน Cityscapes; ในการแบ่งส่วนด้วยการอ้างอิง (referring expression segmentation) มันทำได้เหนือกว่า SAM 3 Agent อย่างไรก็ตาม มันยังตามหลัง SAM 3 ในการแบ่งส่วนแบบแยกเป็นอินสแตนซ์ สำหรับงาน 3D การประมาณความลึกแบบเมตริกทำได้ค่าเฉลี่ยความแม่นยำ 0.929 จากชุดข้อมูลมาตรฐาน 4 ชุด และสูงกว่า Depth Anything V3 ที่ 0.918 โดยใช้เพียงข้อมูลสังเคราะห์โดยไม่มีข้อมูลความลึกจริงหรือพารามิเตอร์ของกล้องในระหว่างการอนุมาน การประมาณค่าเวกเตอร์ปกผิวทำผลงานล้ำสมัยบนเกณฑ์ทดสอบในร่ม 3 รายการ

การปรับจูนทำโดยนำข้อมูลงานด้านภาพเพียงเล็กน้อยมาผสมกับการฝึกการสร้างภาพดั้งเดิม โดยรักษาความสามารถในการสร้างของโมเดลไว้—ผลการทดสอบด้านคุณภาพการสร้างเทียบเคียงกับ Nano Banana Pro รุ่นเดิม บทความเสนอว่า pretraining สำหรับการสร้างภาพในด้านภาพนั้นเทียบได้กับ pretraining สำหรับการสร้างข้อความในภาษา: โมเดลเรียนรู้การแทนภายในที่จำเป็นสำหรับความเข้าใจภาพระหว่างการสร้าง โดยการปรับจูนคำสั่งเพียงแค่ปลดล็อกความสามารถนี้ออกมาเท่านั้น

news.view.source

news.article.disclaimer

news.related.news

04-23 04:54

Perplexity เปิดเผย Web 搜索代理的后训练方法；基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4

04-23 02:02

Google เปิดตัวชิป AI แยกสำหรับการฝึกและการอินเฟอเรนซ์ เพิ่มประสิทธิภาพ 2.8 เท่า

04-23 00:52

Google Cloud ลงทุน $750M ในการผลักดันที่ปรึกษาด้าน AI ร่วมกับ McKinsey, Accenture และ Deloitte

04-22 16:29

ซีอีโอ Google Cloud: Gemini จะขับเคลื่อนการเปิดตัว Siri แบบเฉพาะบุคคลของ Apple ในปี 2026

04-22 14:05