
Google anunció el lanzamiento del primer producto de la serie Gemini Omni en Google I/O 2026: Gemini Omni Flash, el 19 de mayo, y publicó oficialmente la documentación técnica en el sitio web oficial el 22 de mayo. La integración inicial de plataformas incluye Gemini app, Google Flow y YouTube Shorts.
Funciones troncales confirmadas de Gemini Omni Flash
Edición de video conversacional: los usuarios editan videos mediante instrucciones en lenguaje natural; cada instrucción se ejecuta de forma acumulativa sobre la base de la anterior. El modelo mantiene la coherencia del personaje, efectos físicos fiables y memoria del escenario, y admite cambios de fondo, estilo, ángulo o detalles concretos, sin necesidad de regenerar el fragmento completo.
Simulación de motor físico avanzada: la comprensión intuitiva que Omni tiene de gravedad, dinámica de movimiento y dinámica de fluidos refuerza la realismo de la escena y permite crear efectos físicos más precisos, como escenas dinámicas con colisiones de objetos, flujo de líquidos y reacciones en cadena.
Generación con entradas multimodales: Omni puede procesar cualquier combinación de entradas (imágenes, texto, fragmentos de video, audio) como una sola instrucción para generar contenido de salida unificado. En la fase inicial, la entrada de audio admite referencias por voz; otros tipos de entradas de audio se lanzarán posteriormente.
Integración de conocimientos y visualización de conceptos: Omni se apoya en el conocimiento de Gemini sobre historia, ciencia y contexto cultural, y va más allá de la simple coincidencia de patrones. Puede generar contenido explicativo a partir de indicaciones breves, por ejemplo, explicar conceptos científicos complejos como el plegamiento de proteínas mediante animación con arcilla.
Función de imagen digital virtual (Avatar): los usuarios pueden crear una versión digital que incluye su propia voz y generar videos con apariencia y voz similares a las del propio usuario. Las funciones de edición de audio y voz siguen en fase de pruebas y aún no están disponibles para todos los usuarios.
Marca de agua SynthID: mecanismo confirmado de transparencia del contenido de IA
Todos los videos creados mediante Gemini Omni incorporan automáticamente una marca de agua digital invisible SynthID. Se trata de una tecnología de marcas de agua invisibles desarrollada por Google DeepMind que, una vez embebida, no afecta la calidad visual del video. Los usuarios pueden verificar si un video fue generado por Gemini Omni a través de tres canales confirmados: la Gemini app, Gemini en el navegador Chrome y Google Search. Google afirma que la herramienta de verificación de SynthID está diseñada para ayudar a los usuarios a entender cómo se crean y editan contenidos en la web, como parte de su política de desarrollo responsable de IA.
Canales de acceso confirmados y cronograma de lanzamiento
Disponible de inmediato: suscriptores pagos de Google AI Plus, Pro y Ultra, a través de Gemini app y Google Flow.
En la semana: usuarios de YouTube Shorts y de la app YouTube Create, con disponibilidad gratuita.
En las próximas semanas: desarrolladores y clientes empresariales, mediante Gemini API y Agent Platform API.
Preguntas frecuentes
¿En qué se diferencia a nivel técnico la “world model” de Gemini Omni Flash con respecto a los modelos de generación de video convencionales?
Google posiciona Gemini Omni como “world model”, lo que significa que el modelo no solo realiza una asignación generativa de entrada a salida, sino que también cuenta con la capacidad de realizar inferencias causales basadas en una base de conocimiento del mundo real (incluidas leyes físicas, contexto cultural, conocimientos históricos y científicos) entrenada con Gemini. Por ejemplo, puede predecir el siguiente comportamiento de los objetos en una escena, aplicar efectos de motor físico real y convertir descripciones del lenguaje en contenido visual con significado. Esto difiere a nivel de enfoque arquitectónico respecto a los modelos de difusión de video que se basan únicamente en la coincidencia de patrones.
¿Se puede eliminar o eludir la marca de agua SynthID?
La documentación oficial de Google confirma que la marca de agua SynthID es invisible (no afecta el contenido visual del video), y que se inserta en la estructura digital del video, pudiendo verificarse mediante las herramientas de verificación oficiales de Google. Google no divulgó en su documentación oficial el modo técnico específico de implementación de la marca de agua. Actualmente, no hay registros públicos de evaluaciones técnicas independientes sobre la fiabilidad y la resistencia a la manipulación de SynthID.
¿Qué formatos de entrada admite actualmente Gemini Omni Flash y qué tipos de salida se ampliarán en el futuro?
Entradas confirmadas: texto, imágenes estáticas, fragmentos de video, audio de voz (en fase inicial). En el blog oficial, Google confirma que otras categorías de entradas de audio se incluirán “pronto” como complemento. En cuanto a la salida, la versión actual de Omni Flash se centra en la salida de video. Google indica que en el futuro la serie Omni admitirá modos de salida de imagen y audio, pero el cronograma específico de lanzamiento aún no se ha confirmado en este anuncio.