Команда Oppo Multi-X опублікувала X-OmniClaw — фреймворк для Android AI-агентів із відкритим кодом, який зберігає основну логіку на пристрої, викликаючи хмарні мовні моделі лише для складних задач міркувань. На відміну від більшості мобільних AI-систем, що працюють на хмарних серверах із віртуальними копіями Android, X-OmniClaw виконується безпосередньо на фізичному пристрої користувача, зберігаючи доступ до камери телефона, фото та локальних файлів.
X-OmniClaw працює через три взаємопов’язані компоненти, які утворюють один безперервний цикл, згідно з технічною документацією Oppo.
Omni Perception об’єднує камери, контент екрана та голосовий ввід в одну конвеєрну систему. Модель “візія-мова” інтерпретує сцену, перш ніж агент почне діяти. Наприклад, якщо користувач наводить камеру на товар і запитує його ціну, агент спершу визначає, що саме він бачить, а потім відкриває потрібний шопінг-додаток і починає пошук без ручного введення.
Omni Memory відрізняє X-OmniClaw від чатботів “один постріл”, зберігаючи контекст між задачами, перемиканнями застосунків і сесіями. Агент формує довгострокову семантичну пам’ять із фотогалереї користувача, перетворюючи сирі зображення на структуровані нотатки про об’єкти, сцени та події. Згідно зі звітом, “runtime continuity — це те, що дає X-OmniClaw працювати як тривалий пристроєвий агент, а не як система відповідей на один запит”.
Omni Action обробляє виконання, поєднуючи дані XML-інтерфейсу з візуальними моделями на пристрої та оптичним розпізнаванням символів (OCR), щоб визначити, саме куди натискати, навіть на захаращених екранах. Фреймворк включає функцію behavior cloning: користувач може один раз записати маршрут навігації, а потім миттєво відтворювати його в майбутніх сесіях за допомогою скорочень Android deeplink, обходячи багатокрокову навігацію між застосунками.
Oppo продемонструвала кілька практичних застосувань X-OmniClaw:
Ідентифікація продукту та ціни: агент визначає фізичний товар через камеру, відкриває Taobao, перегортає результати й повертає підсумок ціни без потреби вводити текст.
Освітня допомога: плаваючий супутник на екрані допомагає користувачам розв’язувати математичні вправи крок за кроком, автономно читаючи контент екрана, обробляючи кожне запитання та просуваючись далі після завершення.
Створення відео з галереї: коли система просить зібрати відео-дайджест із фото на тему папуг, вона сканує галерею, використовуючи семантичну пам’ять, щоб знайти відповідні зображення, відкриває відеоредактор CapCut через deeplink, пакетно обирає файли та генерує відео. У звіті зазначено, що цей процес, який раніше вимагав “кілька хвилин або більше”, скорочується до кількох автоматизованих кроків.
X-OmniClaw розширює архітектуру, започатковану OpenClaw — фреймворком для агентів із відкритим кодом, який набрав понад 373 000 зірок у GitHub і згодом був підтриманий OpenAI. Hermes Agent від Nous Research просунув цю ідею далі завдяки циклу навчання, що самовдосконалюється, який нарощує можливості з часом. Обидва проєкти працювали переважно на настільному обладнанні. X-OmniClaw адаптує цю архітектуру для смартфонів: вона спирається на базовий код HermesApp із відкритим кодом і використовує структуровану модель навичок OpenClaw як фундаментальне джерело натхнення, а потім налаштовує її під мультимодальність і “завжди увімкнений” характер мобільних пристроїв.
Код доступний на GitHub; Oppo зобов’язується випустити всі матеріали та продовжувати оновлювати проєкт, доки система розвивається.
Пов’язані новини
3 альткоїни, які варто купити для високих прибутків: ринкові добірки очікують зростання до 3x у короткостроковій перспективі
Оновлено Hermes Agent до v0.14.0: підписникам не потрібен API Key для виклику основних сервісів
Функція персонального фінансування ChatGPT запущена в США та дозволяє переглядати особисті банківські рахунки
X опублікував вихідний код рекомендаційного алгоритму «For You»: практичний гайд із використання алгоритмів для ведення аккаунтів у Twitter
Агентні гаманці TON перетворюють Telegram-боти на витратні суб’єкти