Zhiyuan GE-Sim 2.0: Используя World Model для создания мира, конкурент Yushu продвигает человекоподобных роботов к самосовершенствованию

Воплощённый интеллект (Embodied AI) сейчас переживает ключевой переломный момент. В последнее время китайская компания Zhirun Robotics выпустила Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), пытаясь продвинуть World Model (модель мира) из инструмента, просто понимающего среду, в симулятор мира (World Simulator), который может напрямую запускать, обучать и оптимизировать роботов.

Если вы пока не понимаете, насколько это важно, сначала взгляните на фундаментальные недостатки архитектуры LLM: с точки зрения обучения существующие LLM просто предсказывают контекст по большим массивам данных; они могут знать, что эти слова «яблоко упало» часто встречаются вместе, но не понимают причинно-следственные связи гравитации или физического мира по-настоящему.

Именно поэтому такие учёные, как Ян Лекун и Ли Фэй-Лэй, вкладываются в направление World Model: когда у ИИ появятся способности понимать 3D-среду и делать физические прогнозы, эта технология станет цифровым «мозгом» для автономных роботов, беспилотного вождения и интеллектуального производства — так называемого «реального ИИ» (Physical AI). Поэтому в дорожной карте World Model утверждается, что робот будет крайне важным носителем. Сегодня в игру вошли производители гуманоидных роботов в масштабе «роста человека», в лице Zhirun Robotics, что символизирует авангард Китая в контратаке с упором на железо.

Ранее председатель совета директоров TSMC Вэй Чжэцзя говорил: если смотреть на материковый Китай, там постоянно «делают роботов, которые прыгают туда-сюда». Это не имеет смысла — просто красиво. Он указал, что ключ в том, чтобы мозг робота мог работать, и чей это мозг: Nvidia (Nvidia), AMD (AMD) и множество американских компаний, но 95% «мозга» производит TSMC. Боттлнек в развитии GE-Sim 2.0 всё ещё сохраняется и тесно связан с развитием моделей в Китае.

В дорожной карте World Model утверждается, что робот — ключ

Нынешние основные LLM опираются на огромные массивы данных и статистические взаимосвязи, чтобы понимать контекст, и предсказывать следующее слово. Она может знать, что слова «яблоко упало» часто встречаются вместе, но не понимает причинно-следственные связи гравитации или физического мира по-настоящему.

Такая схема отлично работает в задачах генерации текста, программной поддержки или вопрос-ответ, но в сценариях, где нужно понимать структуру реального мира, рассуждать о причинно-следственных связях и строить долгосрочные планы, остаются фундаментальные ограничения. Большее же проблема в том, что источники данных постепенно иссякают. Обучение LLM очень зависит от высококачественных человеческих данных, а в последние годы индустрия начала предупреждать, что доступные человеческие текстовые данные могут быть исчерпаны в ближайшие несколько лет. Тогда это будет как при близкородственном скрещивании: наследственные дефекты в конечном итоге приведут к тому, что модель всё больше отдалится от реальности и начнёт деградировать по производительности.

(Глубокий разбор: у LLM есть недостатки? Почему Ян Лекун делает ставку на AMI по направлению World Model)

Вот почему в последние годы два тяжеловеса в научном сообществе ИИ — Ян Лекун и Ли Фэй-Лэй (Fei-Fei Li), которую называют «крёстной матерью ИИ», — выбрали ставку на новое поколение AI-архитектуры, известной как World Model (модель мира).

Тогда автор писал: если посмотреть дальше, после того как у ИИ появятся способности понимать 3D-среду и делать физические предсказания, эта технология станет цифровым мозгом для автономных роботов, беспилотного вождения и интеллектуального производства — «реального ИИ» (Physical AI). Поэтому в дорожной карте World Model утверждается, что робот будет крайне важным носителем. Сегодня, когда производитель гуманоидных роботов Zhirun Robotics выходит на сцену, это символизирует авангард Китая в контратаке с упором на железо.

Ранее председатель TSMC Вэй Чжэцзя, говоря о развитии роботов и полупроводников, прямо заявил: если смотреть на материковый Китай, там роботы «прыгают туда-сюда, подпрыгивают». Это не нужно — просто «витрина». Он указал, что ключ в том, чтобы мозг робота мог работать, а мозг делает: Nvidia (Nvidia), AMD (AMD) и множество американских компаний, но 95% мозга производится TSMC.

(Вэй Чжэцзя (TSMC) язвит: китайские роботы прыгают туда-сюда — это просто «витрина», толку нет! Ключ всё равно в Nvidia)

Эволюция World Model: от понимания мира к обучению в мире

В последние несколько лет World Model постоянно рассматривали как ключевую технологию для ИИ, чтобы понимать реальность. За счёт изображений, языка и данных сенсоров модель может предсказывать изменения в среде, давая роботам базовые способности к принятию решений.

Но главной прорывной особенностью GE-Sim 2.0 является то, что это не просто понимание мира: система обучения и действий встроена прямо в «мир, сгенерированный моделью». Переменная для Action (действия) включается в основу, а переход происходит от традиционного прогнозирования состояния к полноценному циклу:

State

Action

State Evolution

Это означает, что робот больше не просто наблюдает и реагирует, а может активно пробовать в симуляционной среде, автономно оптимизировать и постоянно обучаться. Этот сдвиг переводит World Model от «когнитивной модели» к «инфраструктуре для обучения».

GE-Sim 2.0: «эволюция» роботов в виртуальном мире

GE-Sim 2.0 определяется как набор «симуляторов воплощённого мира». Основная цель — решить три ключевых узких места реального обучения: слишком высокая стоимость, недостаток данных и сложность масштабирования. За счёт генерации среды моделью система может массово обучать роботов без зависимости от реального мира.

Технически GE-Sim 2.0 интегрирует три ключевые способности. Во-первых, это «движение-ориентированная генерация видео»: модель может генерировать соответствующие будущие изображения в зависимости от действий робота, сохраняя согласованность по нескольким ракурсам, включая ракурс головы и ракурсы управления левыми и правыми руками.

Во-вторых, это моделирование проприоцепции (proprioception): она не только имитирует внешние видеокадры, но и может предсказывать собственные состояния суставов и действий робота, делая принятие решений ближе к реальному физическому миру.

В-третьих, это «автоматическая оценка задач»: с помощью встроенной reward model (модели вознаграждения) система может автоматически определять, выполнена ли задача. Например, «поместить синий объект в красный ящик», и выдавать обратную связь, которая напрямую используется для обучения с подкреплением. Это позволяет роботу завершать полный замкнутый цикл в симуляционной среде:

GE-Sim 2.0 уже умеет обеспечивать «минутную» стабильную генерацию видео

По сравнению с ранними моделями, которые могли генерировать лишь короткие фрагменты, GE-Sim 2.0 уже может обеспечивать «минутную» стабильную генерацию видео и поддерживать симуляцию задач на протяжении длительного времени. При этом за счёт обучения на масштабных реальных данных (данных дистанционного управления, развертывания и взаимодействия) модель демонстрирует более сильные возможности обобщения между разными сценами и задачами. Это особенно важно для гуманоидных роботов: потому что операции в реальном мире сильно различаются, и нельзя полагаться только на обучение в фиксированных сценах.

Появление World Simulator означает, что роботы могут «бесконечно тренироваться» в виртуальном мире. Это приведёт к двум структурным изменениям: первое — стоимость обучения существенно снизится. Второе — скорость итерации возможностей вырастет на порядки по экспоненте.

Zhirun Robotics: новая сила китайских гуманоидных роботов

Zhirun Robotics была основана в 2023 году Пэн Чжи-хуэй (одним из «гениев» Huawei), который учредил компанию. Она фокусируется на области воплощённого интеллекта, где объединяются AI и робототехника.

Ключевые продукты компании включают:

гуманоидных роботов серии «Юаньчжэн» (远征)

роботизированную систему «Линси» (灵犀)

универсальную крупномасштабную модель GO-1

На данный момент компания завершила несколько раундов финансирования и получила инвестиции от таких организаций, как Sequoia China и Hillhouse Capital, и рассматривается как важный игрок в сфере китайских гуманоидных роботов, образуя конкурентную конфигурацию вместе с компанией Unitree Robotics.

Эта статья Zhirun Robotics GE-Sim 2.0: с помощью World Model генерируют мир, соперник Unitree в лице стремительных гуманоидных роботов продвигает их к самосовершенствованию впервые появилась в Lianxin ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев