Google เปิดตัว Gemini Robotics ER 1.6: โมเดลหุ่นยนต์ SOTA ที่เชี่ยวชาญด้านการรับรู้ด้วยภาพและการให้เหตุผลเชิงพื้นที่

ChainNewsAbmedia

Google DeepMind ได้นำเสนอโมเดลพื้นฐานสำหรับหุ่นยนต์รุ่นใหม่อย่าง Gemini Robotics ER 1.6 ซึ่ง ER ย่อมาจาก Embodied Reasoning (การให้เหตุผลแบบมีร่างกาย) โมเดลนี้ทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ และได้เปิดให้ใช้งานผ่าน Gemini API แล้ว หัวหน้าฝ่ายความสัมพันธ์กับนักพัฒนา AI ของ Google อย่าง Logan Kilpatrick ได้ประกาศข่าวนี้บนโซเชียลมีเดีย (ที่มา)

อะไรคือ Embodied Reasoning?

Embodied Reasoning หมายถึงความสามารถของโมเดล AI ในการทำความเข้าใจและให้เหตุผลเกี่ยวกับโลกทางกายภาพ ต่างจากโมเดลภาษาทั่วไป โมเดลที่ให้เหตุผลแบบมีร่างกายจำเป็นต้องจัดการกับตำแหน่ง วัตถุในมิติสาม มิติ รูปร่าง วัสดุ และความสัมพันธ์ในการโต้ตอบเชิงฟิสิกส์ โมเดล Gemini Robotics ER 1.6 ได้รับการปรับให้เหมาะสมโดยเฉพาะสำหรับงานประเภทนี้ เพื่อให้หุ่นยนต์สามารถเข้าใจสภาพแวดล้อมรอบตัวได้แม่นยำยิ่งขึ้นและตัดสินใจเลือกการกระทำได้อย่างเหมาะสม

ความสามารถหลัก

ข้อได้เปรียบหลักของ Gemini Robotics ER 1.6 กระจุกตัวอยู่ที่สองด้าน:

ความสามารถ คำอธิบาย การให้เหตุผลเชิงการมองเห็น สามารถระบุวัตถุจากภาพและวิดีโอ เข้าใจโครงสร้างของฉาก และตัดสินใจตามนั้น การให้เหตุผลเชิงพื้นที่ เข้าใจตำแหน่งสัมพันธ์ ระยะทาง และทิศทางของวัตถุในพื้นที่มิติสาม สนับสนุนการวางแผนการปฏิบัติการที่ซับซ้อน

การผสานความสามารถทั้งสองนี้ทำให้หุ่นยนต์สามารถรับมือกับงานในโลกแห่งความเป็นจริงที่ซับซ้อนได้มากขึ้น ตัวอย่างเช่น ในสภาพแวดล้อมคลังสินค้า หุ่นยนต์จำเป็นต้องระบุวัตถุที่มีรูปร่างต่างกันพร้อมกัน และคำนวณมุมการหยิบจับและตำแหน่งการวางที่เหมาะที่สุด — นี่คือสถานการณ์ที่ Gemini Robotics ER 1.6 ทำได้ดีเป็นพิเศษ

การใช้งานผ่าน Gemini API

ต่างจากโมเดลหุ่นยนต์จำนวนมากในอดีตที่ยังคงอยู่ในขั้นของงานวิจัย Gemini Robotics ER 1.6 ได้ให้การเข้าถึงผ่าน Gemini API แล้ว นั่นหมายความว่านักพัฒนาและผู้ผลิตฮาร์ดแวร์สามารถนำโมเดลนี้ไปผสานเข้ากับระบบหุ่นยนต์ของตนได้โดยตรง โดยไม่จำเป็นต้องฝึกโมเดลตั้งแต่เริ่มต้น

การเปิด API ยังช่วยลดเกณฑ์ในการพัฒนา AI สำหรับหุ่นยนต์ ในอดีต การพัฒนาระบบหุ่นยนต์ที่มีความสามารถด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ต้องอาศัยการเก็บรวบรวมข้อมูลจำนวนมากและงานฝึกโมเดล ปัจจุบัน นักพัฒนาสามารถโฟกัสกับการพัฒนาด้านการออกแบบฮาร์ดแวร์และการใช้งานในสถานการณ์จริง โดยปล่อยความสามารถด้านการให้เหตุผลระดับล่างให้ Gemini Robotics ER 1.6 เป็นผู้จัดการ

แผนผัง AI หุ่นยนต์ของ Google

Gemini Robotics ER 1.6 คือผลงานล่าสุดของ Google DeepMind ในด้านหุ่นยนต์ ตั้งแต่ RT-2 ในช่วงแรกจนถึงปัจจุบันที่เป็นตระกูล Gemini Robotics Google ยังคงขยายขีดความสามารถของโมเดลภาษาขนาดใหญ่มาสู่การโต้ตอบกับโลกทางกายภาพ เวอร์ชัน ER 1.6 ยกระดับความแม่นยำในการให้เหตุผลจากเวอร์ชันก่อนหน้าให้ดียิ่งขึ้น โดยเฉพาะในสถานการณ์ที่ต้องใช้การปฏิบัติอย่างละเอียด ซึ่งทำได้โดดเด่นมาก

เมื่ออุตสาหกรรมหุ่นยนต์เข้าสู่ช่วงเติบโตระลอกใหม่ โมเดลพื้นฐานที่มีความสามารถด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่อย่างแข็งแกร่งจะกลายเป็นโครงสร้างพื้นฐานสำคัญ หากต้องการดูข้อมูลเพิ่มเติมเกี่ยวกับการพัฒนาของระบบนิเวศ Gemini สามารถดูได้จากคู่มือฉบับสมบูรณ์ของ Gemini

บทความนี้ Google เปิดตัว Gemini Robotics ER 1.6:โมเดลหุ่นยนต์ SOTA เชี่ยวชาญด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ ปรากฏครั้งแรกบน 鏈新聞 ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น