Oppo X-OmniClaw: el agente de IA para Android de código abierto se ejecuta localmente sin nube

OliverGrant

El equipo Multi-X de Oppo ha publicado X-OmniClaw, un marco de agentes de IA para Android de código abierto que mantiene la lógica central en el dispositivo y solo llama a modelos de lenguaje basados en la nube para tareas de razonamiento pesado. A diferencia de la mayoría de los sistemas de IA móvil que se ejecutan en servidores en la nube alojando copias virtuales de Android, X-OmniClaw se ejecuta directamente en el dispositivo físico del usuario, manteniendo acceso a la cámara del teléfono, las fotos y los archivos locales.

Arquitectura: Tres pilares de la inteligencia en el dispositivo

X-OmniClaw funciona mediante tres componentes interconectados que, según la documentación técnica de Oppo, actúan como un único bucle continuo.

Omni Perception combina feeds de cámara, contenido de pantalla y entrada de voz en una sola canalización. Un modelo de visión-lenguaje interpreta la escena antes de que el agente tome acción. Por ejemplo, si un usuario apunta la cámara a un producto y pregunta por su precio, el agente primero identifica qué está viendo y luego abre la aplicación de compras relevante y comienza a buscar sin necesidad de entrada manual.

Omni Memory distingue a X-OmniClaw de los chatbots de una sola respuesta al mantener el contexto entre tareas, cambios de aplicaciones y sesiones. El agente construye memoria semántica a largo plazo a partir de la galería de fotos del usuario, convirtiendo imágenes sin procesar en notas estructuradas sobre objetos, escenas y eventos. Según el informe, “la continuidad en tiempo de ejecución es lo que permite que X-OmniClaw opere como un agente continuo del dispositivo en lugar de un sistema de respuestas de un solo disparo”.

Omni Action gestiona la ejecución al combinar datos de interfaz XML con modelos visuales en el dispositivo y reconocimiento óptico de caracteres (OCR) para determinar exactamente qué tocar, incluso en pantallas desordenadas. El marco incluye una función de clonación de comportamiento que permite a los usuarios registrar una ruta de navegación una vez y luego reproducirla al instante mediante atajos de Android deeplink en futuras sesiones, evitando la navegación paso a paso por múltiples pantallas de la aplicación.

Ejemplos operativos

Oppo demostró varias aplicaciones prácticas de X-OmniClaw:

  • Identificación de productos y precios: el agente identifica un producto físico mediante la cámara, abre Taobao, se desplaza por los resultados y devuelve un resumen de precios sin requerir teclear.

  • Asistencia educativa: un acompañante flotante en pantalla ayuda a los usuarios a resolver ejercicios de matemáticas paso a paso, leyendo de forma autónoma el contenido de la pantalla, procesando cada pregunta y avanzando cuando está completa.

  • Creación de videos a partir de la galería: cuando se le pide que arme un video destacado con fotos con temática de loros, el sistema escanea la galería usando memoria semántica para encontrar imágenes coincidentes, abre el editor de video de CapCut vía deeplink, selecciona archivos en lote y genera el video. El informe indica que este proceso, que antes requería “unos minutos o más”, se reduce a un puñado de pasos automatizados.

Ubicación dentro del ecosistema de agentes de IA

X-OmniClaw amplía una arquitectura iniciada por OpenClaw, un marco de agentes de código abierto que alcanzó más de 373.000 estrellas en GitHub y que finalmente contó con el respaldo de OpenAI. Hermes Agent de Nous Research avanzó el concepto aún más con un bucle de aprendizaje de auto-mejora que acumula capacidades con el tiempo. Ambos proyectos se ejecutaron principalmente en hardware de escritorio. X-OmniClaw adapta esta arquitectura para teléfonos inteligentes al basarse en la base de código de código abierto HermesApp e incorporar el modelo de habilidades estructurado de OpenClaw como inspiración fundamental, y luego personalizarlo para la naturaleza multimodal y siempre activa de los dispositivos móviles.

El código está disponible en GitHub, y Oppo se compromete a lanzar todos los recursos y a continuar actualizando el proyecto a medida que el sistema evolucione.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios