Данные как маховик или повторяющиеся образцы? Physical AI должен попрощаться с «культом часов».

TL;DR
· Робототехник Анимеш Гарг подвергает сомнению использование количества часов телеоперации как показателя возможностей моделей в индустрии.
· Затраты на сбор данных для роботов высоки, развернутые данные часто поступают из узких сценариев, а повторяющиеся образцы быстро дорожают.
· Более ценными могут быть долгохвостые сбои, охват задач и новые образцы, а не общее время работы.

Анимеш Гарг, робототехник, ранее работавший в Университете Торонто, а ныне в Технологическом институте Джорджии, в своей статье под названием «Moneyball for Physical AI» сравнивает гонку за данными в области воплощенного интеллекта с моментом «Moneyball» в истории бейсбола.

Он хочет оспорить все более распространенное повествование о финансировании: компаниям по производству роботов достаточно наращивать объемы телеоперации, больше реальных развертываний и больше рабочих часов, чтобы сформировать цикл данных. Для инвесторов это не академические дебаты. Структура затрат, скорость коммерциализации и модельные барьеры компаний, занимающихся воплощенным интеллектом, часто упаковываются в четыре слова «замкнутый цикл данных». Если суммарное количество часов не равно эффективному прогрессу модели, рынку необходимо пересмотреть активы данных этих компаний.

«Часы данных» могут быть суеверием в отношении среднего показателя отбивания в индустрии робототехники

Гарг использует классическую аналогию из «Moneyball». В 2002 году команда «Окленд Атлетикс» выиграла 103 игры с одним из самых низких зарплатных ведомостей в лиге. Ключом была не покупка более дорогих игроков, а обнаружение того, что рынок неправильно оценивал ценность игроков. Традиционные скауты обращали внимание на средний показатель отбивания, украденные базы и стойку, но показателем, который лучше объяснял результативность команды, был процент занятых баз.

По его мнению, Physical AI может находиться на аналогичном этапе. Индустрия признает, что данные необходимы для создания универсальной модели робота, но легко путает самый демонстрируемый показатель с самым важным: совокупное количество часов телеоперации, количество демонстрационных траекторий, количество развернутых роботов, время работы в производственных сценариях.

Способ поставки данных для роботов отличается от текстовых данных. Модели больших языков могут получать огромные объемы недорогого текста из интернета, репозиториев кода, книг и веб-страниц; узким местом чаще являются вычислительные мощности, очистка и эффективность обучения. Моделям роботов требуются данные, включающие физическое взаимодействие, обратную связь по действиям и изменения в окружающей среде. Каждый час полезных данных должен быть создан в реальности, что влечет за собой затраты на оборудование, человеческие ресурсы, место, датчики, обработку сбоев и безопасность.

Робототехник Кен Голдберг ранее использовал термин «разрыв данных в 100 000 лет», чтобы описать разницу между данными для роботов и данными в масштабе интернета для ИИ. Точнее, текстовые и визуальные данные, использованные при обучении современных больших визуально-языковых моделей, если пересчитать на время чтения или просмотра человеком, эквивалентны примерно 100 000 лет, в то время как у роботов отсутствуют реальные интерактивные данные такого же масштаба. Это утверждение не устанавливает точный порог для моделей роботов, а скорее напоминает индустрии: реальные интерактивные данные нельзя добывать так же дешево, как веб-текст.

Именно поэтому Гарг против нарратива о «телеоперации на потогонной фабрике». Большое количество ручной телеоперации действительно дает плотные по действиям обучающие образцы, но если компания оценивает данные только по общему количеству часов, средства могут быть направлены на повторяющиеся, малосложные и низкоинформативные образцы, а не на сценарии, которые максимально снижают частоту отказов.

Три типа данных покупают разные вещи

В классификации Гарга данные Physical AI делятся на три основных типа: данные наблюдений, данные вмешательств и данные развертывания. Все они могут быть полезны, но сильно различаются по стоимости, ограничениям и плотности информации.

Первый тип — данные наблюдений, например, видео от первого или третьего лица. Их преимущество — низкая стоимость и широкий охват, что помогает моделям понимать объекты, пространство, результаты действий и распределение среды. Недостаток очевиден: модель может видеть, что происходит с человеком или объектом, но не обязательно знает, какие действия должен выполнить робот в данном состоянии.

Второй тип — данные вмешательств, то есть траектории от состояния к действию, создаваемые телеоперацией, демонстрацией и ручным вмешательством. Такие данные более непосредственно полезны для обучения роботов, поскольку содержат цепочку «вижу что, как двигаюсь, что происходит после движения». Цена в том, что каждая качественная траектория требует затрат; затраты на человеческий труд и оборудование не могут быстро снижаться, как данные в программном обеспечении.

Третий тип — данные развертывания, то есть телеметрические данные, генерируемые при работе роботов в реальных коммерческих сценариях. Это звучит как самый близкий к коммерческому циклу: робот работает, зарабатывает деньги и одновременно генерирует данные для обучения. Но здесь есть статистическая ловушка.

Сценарии, где роботы развертываются сегодня в первую очередь, как правило, имеют наименьшее количество изменений, наиболее фиксированные процессы и наименьший риск, например, высокоструктурированные склады, заводы или среды с единственной задачей. Количество таких производственных данных может быть большим, но распределение узкое, а повторяемость высокая. Как только модель выучит локальные закономерности, каждый дополнительный час работы будет приносить все меньше новой информации.

Данные развертывания не бесполезны. По-настоящему ценными часто оказываются не стандартные фрагменты «успешного выполнения задачи», а сбои, застревания, аномальные объекты, граничные условия и редкие возмущения. Проблема в том, что эти длиннохвостые образцы не появляются стабильно в желаемом компанией темпе, а их обнаружение, фильтрация и анализ требуют больших затрат.

Больше данных полезно, но повторяющиеся образцы быстро дорожают

Гарг осторожен в заимствовании законов масштабирования языковых моделей: увеличение данных обычно приводит к снижению потерь модели, но с убывающей отдачей. Если образцы повторяются, почти повторяются или происходят из одного узкого распределения, помощь от новых данных уменьшается быстрее.

В области робототехники эта проблема более интуитивна. Если робот учится захватывать стандартную коробку с фиксированной полки, первые тысячи демонстраций, сбоев и исправлений могут быть очень ценными. Как только действия, объекты, освещение и траектории неоднократно собраны, новые данные больше напоминают копирование уже изученного локального опыта.

В обучении языковых моделей уже есть аналогичный опыт: повторяющиеся и почти повторяющиеся данные тратят тренировочный бюджет, а чрезмерное повторение может даже навредить обобщению. Гарг не переносит эти выводы напрямую на обучение роботов, а использует их для иллюстрации направления: оценка ценности данных не должна ограничиваться количеством, нужно учитывать, насколько образцы различаются между собой.

Для Physical AI разнообразие имеет как минимум два значения. Первое — дать модели увидеть больше объектов, пространств, материалов, освещения, затенений и способов манипуляции. Второе — избежать ситуации, когда модель хорошо работает в слишком простом распределении задач, но выходит из строя при малейшем изменении сценария.

Длиннохвостые сбои становятся ключевыми. Реальный физический мир не однороден; низкочастотные аномалии часто определяют коммерческую пригодность: объект расположен немного иначе, деформация упаковки, отражение поверхности, проскальзывание захвата, внезапное вмешательство человека, пропуск датчика, изменение трения пола. Как бы хорошо модель ни работала на стандартных образцах, если она не может обработать эти хвостовые события, развертывание все равно будет сдерживаться несколькими отказами.

Для создания цикла развертывания нужно, чтобы ранние сценарии были достаточно «новыми»

Статья бросает вызов распространенному коммерческому пути компаний в области воплощенного интеллекта: сначала развернуть роботов в узком сценарии, обеспечить работоспособность с помощью удаленного управления человеком, одновременно собирая производственные данные, а затем использовать эти данные для обучения более сильной модели, открывая новые сценарии.

Гарг называет такой подход «neo-integrator». Он пытается обойти затраты на чистый сбор данных, помещая роботов в коммерческое производство, чтобы операционные доходы компенсировали затраты на данные. По сравнению со строительством фабрики телеоперации, этот путь звучит более эффективно.

Но для работы цикла есть предпосылка: данные, генерируемые в ранних коммерческих сценариях, должны быть достаточно новыми и разнообразными, чтобы помочь модели переноситься на большее количество задач. Если сценарий развертывания — это просто низкоизменчивая, низкоэнтропийная, сильно инженерно адаптированная узкая задача, данные быстро насытятся. Компания может получить не цикл универсальных возможностей, а набор кастомизированных проектов, требующих постоянной интеграции, обслуживания и обработки аномалий.

Это приводит к двум видам затрат. Первый: при каждом входе в новый сценарий требуются вложения в адаптацию среды, настройку процессов, обработку сбоев и механизмы безопасности. Второй: если развертывание еще не достигло точки безубыточности, расширение масштаба не обязательно означает дешевый сбор данных; это может быть получение большого количества низконовизненных образцов за счет убытков.

Таким образом, раннее развертывание не бесполезно, но требует более детального рассмотрения: сколько новых задач оно покрывает, сколько сбоев и аномальных образцов генерирует, можно ли их перенести на другие сценарии, а после вычета затрат на оборудование, персонал, обслуживание и интеграцию — сколько улучшения модели дает каждый потраченный доллар.

Оценка стоимости не должна сводиться к вопросу «сколько часов накоплено»

Гарг не предлагает прекратить сбор данных, а изменить критерии оценки. Совокупное количество часов работы, часов телеоперации и количество траекторий могут быть операционными метриками, но их не следует напрямую приравнивать к прогрессу модели.

Более информативные вопросы включают: когда данные по одной задаче насыщаются, сколько инженерных затрат на интеграцию требуется для добавления новой задачи, сколько различных сценариев и кластеров действий покрывают данные, сколько в производственных данных приходится на истинные сдвиги распределения и аномалии, сколько стандартных успешных фрагментов следует отфильтровать из потока данных, а не продолжать подавать в модель.

Применительно к трем типам данных распределение капитала также будет разным. Данные наблюдений должны в первую очередь стремиться к низкой стоимости, разнообразию и широкому охвату, чтобы расширять границы базовых возможностей. Дорогостоящие данные телеоперации и демонстраций после достижения насыщения по одной задаче должны перенаправлять бюджет на большее количество задач, а не продолжать повторять одно и то же действие. Данные развертывания следует фильтровать, акцентируя внимание на сбоях, граничных условиях и образцах вне распределения, отбрасывая множество записей с низкой информационной плотностью.

Этот взгляд имеет практическое значение для оценки стоимости Physical AI. Компания, имеющая больше роботов, большее время работы, более крупную команду телеоперации, не автоматически означает более сильный модельный барьер. Более сложную для копирования способность может представлять постоянное нахождение ценных длиннохвостых данных, определение момента насыщения определенного типа данных и покрытие большего количества распределений задач с меньшими затратами.

Однако это все еще взгляд с точки зрения распределения капитала, а не отраслевой консенсус. Будут ли модели роботов демонстрировать такой же эффект масштаба, как языковые модели, смогут ли данные развертывания в некоторых высокоразмерных сценариях непрерывно генерировать новую информацию, насколько эффективен перенос между разными задачами — все это требует большего количества эмпирических результатов для ответа.

Предостережение Гарга сводится к более конкретному вопросу: «показателем Moneyball» для Physical AI, возможно, является не количество часов данных, а количество новых образцов на каждый потраченный доллар. Для компаний, которые все еще рассказывают историю о цикле данных, рынку в конечном итоге, возможно, придется смотреть не на то, как долго они работают, а на то, сколько новой информации было получено за это время.

Нажмите, чтобы узнать о вакансиях в BlockBeats

Добро пожаловать в официальное сообщество BlockBeats:

Telegram-подписка: https://t.me/theblockbeats

Telegram-чат: https://t.me/BlockBeats_App

Официальный Twitter: https://twitter.com/BlockBeatsAsia

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено