OpenAI ha lanzado oficialmente Sora. ¿En qué se destaca su función de video generativo?

Fuente: Geek Park

Como se especuló, en el tercer día de la transmisión en vivo de 12 días, OpenAI lanzó oficialmente el producto de video Wensheng Sora.

A las 2 de la madrugada del 10 de diciembre, hora de Beijing, Sam Altman y varios empleados internos de OpenAI presentaron en vivo las funciones y casos de uso de Sora. Después de lanzar un video de muestra en febrero de este año, Sora provocó un frenesí en la comunidad global de inteligencia artificial, y desde entonces las empresas de inteligencia artificial tanto nacionales como extranjeras han lanzado productos de videos generados por IA. Como pionero en esta área, Sora finalmente ha revelado su misterio hoy.

En general, la serie de funciones de productos exhibidos por Sora demuestran que supera a los productos de video actuales de Wensi en calidad de generación de video, originalidad de funciones, complejidad tecnológica, etc.

Además de las funciones básicas de la creación de texto e imágenes, se han añadido funciones como el tablero de historias (similar a la creación de una historia a través de secuencias), ajuste del texto original del vídeo, fusión de vídeos de escenas diferentes (similar a la adición de efectos especiales directamente a los vídeos), parece que todo el diseño del producto está destinado a acercar el vídeo a la autoexpresión del creador y ayudarles a completar una historia ideal en la pantalla.

El 9 de diciembre por la noche, hora local, los usuarios de Estados Unidos y la mayoría de otros países pueden visitar el sitio web oficial para experimentar Sora. Se incluye en la suscripción de miembros de ChatGPT Plus y ChatGPT Pro, sin costo adicional. Entre ellos, Plus puede generar hasta 50 videos avanzados con una resolución de video de hasta 720p y una duración de 5 segundos, mientras que Pro puede generar hasta 500 videos avanzados con una resolución de hasta 1080p, una duración de 20 segundos y también puede eliminar la marca de agua.

Tres razones por las que Sam Altman presenta Sora:

Desde una perspectiva de utilidad, a OpenAI le gusta crear herramientas para los creadores, lo cual es muy importante para la cultura de la empresa;

Dos, desde la perspectiva de la interacción del usuario, los sistemas de inteligencia artificial no solo deben interactuar a través de texto, sino que también deben comprender y generar videos para ayudar a los humanos a utilizar la inteligencia artificial. Esto es similar a lo que las grandes empresas de modelos en China han mencionado, ‘Cada vez que el modelo expande una modalidad, la tasa de penetración del usuario Subir.’

En tercer lugar, desde el punto de vista técnico, esto es crucial para la hoja de ruta de AGI de OpenAI, la inteligencia artificial debe aprender más sobre las leyes del mundo, esto es lo que se llama el “modelo del mundo” que entiende las leyes físicas.

Tanto como cambiar el mundo con tecnología como fomentar la creatividad humana con productos es lo que Sora está haciendo.

01 Además de generar videos, también se pueden hacer cortes, agregar efectos especiales y tener una creatividad ilimitada

La funcionalidad más básica de Sora es la generación de videos de texto y videos de imágenes.

Al abrir la interfaz principal, los usuarios pueden ver y gestionar todo el contenido generado de videos, así como cambiar entre la vista de cuadrícula, vista de lista, crear carpetas y carpetas de favoritos, ver marcadores, etc. Los investigadores afirman que este diseño de la interfaz principal está diseñado para ayudar mejor a los usuarios a crear historias.

En la parte inferior central de la página principal se encuentran las funciones de video de Sora WenSheng y Sora TuSheng.

Por ejemplo, Sam Altman primero proporciona una entrada de texto, ‘un mamut lanudo caminando en el desierto, filmado con una lente gran angular’. Luego, debe seleccionar la relación de aspecto, la resolución, la duración (de 5 a 20 segundos) y la cantidad de videos generados (hasta cuatro segmentos para elegir) para obtener el video generado.

Finalmente, se puede ver que el resultado del video generado es muy realista y tiene una sensación de calidad, y sigue en gran medida las instrucciones de entrada. El excelente rendimiento de generación de video de Sora, quizás no sorprenda a la gente.

Después de ingresar el texto “un mamut lanudo caminando en el desierto, filmado con una lente de gran angular”, Sora generó cuatro videos | Fuente de la imagen: OpenAI

Pero esta vez, Sora también lanzó una serie de funciones exclusivas y avanzadas. En la opinión de Geek Park, estas funciones se centran principalmente en una expresión más precisa de los videos, es decir, permitiendo a las personas crear la historia que desean a través de la edición de escenas, efectos especiales, etc.

El primero es el guión gráfico, que los investigadores llaman una “nueva herramienta creativa”.

Desde el punto de vista del diseño del producto, es como cortar una historia (video) en varias tarjetas de historias (cuadros de video) de diferentes maneras a lo largo del eje de tiempo. Los usuarios solo necesitan diseñar y ajustar cada tarjeta de historia (cuadro de video), Sora automáticamente los une en una historia (video) fluida, muy similar a los fotogramas de una película o al guion gráfico de una animación; cuando el director completa los fotogramas, se hace una película, cuando un dibujante completa el guion gráfico, se hace una animación.

Un ejemplo de la primera imagen imaginada por los investigadores es ‘una hermosa grulla parada en un arroyo con una cola amarilla’. La segunda imagen es ‘la grulla mete la cabeza en el agua y saca un pez’. Lo que hace es crear dos tarjetas de historia (cuadros de video) y establecer una brecha de aproximadamente cinco segundos entre ellas. Este espacio es importante para Sora, ya que le brinda espacio para combinar los dos conjuntos de acciones.

Al final, obtuvo un plano completo de video, “Una hermosa grulla blanca está parada en el arroyo, con una cola amarilla. Luego la grulla mete la cabeza en el agua y atrapa un pez.”

Sora generó una historia completa (video) a partir de dos tarjetas de historia (fotogramas de video) | Fuente de la imagen: OpenAI

Más maravilloso aún, en este tablero de historias, los elementos creativos no solo son tarjetas de historias, sino también imágenes y videos directos. Es decir, se pueden arrastrar imágenes y videos de cualquier tipo al tablero de historias y combinarlos con las tarjetas de historias para crear.

Tomemos como ejemplo un video. Los investigadores cortaron el video de la grúa mencionada anteriormente y lo importaron en un storyboard donde lo recortaron, lo que dejó espacio para continuar la creación tanto al principio como al final del video.

La imaginación que esto trae es que la historia puede ser creada sin límites. Es decir, el video de 20 segundos generado por Sora puede ser creado, cortado, creado de nuevo… hasta que se obtenga la toma ideal en la mente. Este proceso es similar a un editor, director, que corta lentamente su propia película a través del diseño de la historia y la generación continua de material de toma.

A diferencia del mundo real, los materiales proporcionados por Sora son ilimitados. A diferencia de otros productos de video de Vida, los videos de Sora se pueden modificar y procesar. Esto asegura que los videos generados seguramente se ajustarán más a la imaginación y creatividad de los usuarios.

Esto parece ser el núcleo de la idea principal de los productos de Sora en esta ocasión: hacer todo lo posible para que los videos generados se ajusten a la creatividad que los usuarios desean.

Esto puede ayudar a comprender mejor otras funciones de Sora, como la capacidad de editar videos directamente con texto, fusionar sin problemas dos videos diferentes, cambiar el estilo visual de un video, etc. Es como agregar directamente efectos especiales al video. En cambio, los productos de video generados por texto convencionales pueden requerir ajustes constantes de palabras clave y regeneración continua de videos.

Los usuarios pueden ajustar directamente los videos | Fuente de la imagen: OpenAI

Sora puede combinar dos videos de dos segmentos en un clip sin costuras | Fuente de la imagen: OpenAI

En general, aparte de su excelente rendimiento en la generación de videos, Sora también ofrece características de creación de videos únicas, que son equivalentes a agregar tomas, edición y efectos especiales a los videos. Esto significa que todos tienen la oportunidad de expresarse como realmente desean, acercándose más a ser un director.

“Si entras en Sora con la expectativa de que puedas generar una película con solo presionar un botón, creo que tus expectativas son incorrectas”, dijo un investigador de OpenAI.

Sora, dijo, es una herramienta que permite a las personas probar múltiples ideas en múltiples lugares al mismo tiempo, probando cosas que antes eran completamente imposibles, “y en realidad creemos que es una extensión súper especial del creador”.

02 El servicio no solo es gratuito para el público en general, sino que también depende de la capacidad del modelo subyacente

Como pionero en la pista de video de WenSheng, el lanzamiento de Sora fue el más tardío. En este sentido, el equipo de investigación de OpenAI afirmó que, para implementar ampliamente Sora, era necesario encontrar formas de hacer que el modelo fuera más rápido y más económico. Para lograrlo, el equipo de investigación realizó una gran cantidad de trabajo.

En la transmisión en vivo, OpenAI anunció el lanzamiento de Sora turbo, que es una nueva versión de alta gama acelerada del modelo original Sora. Tiene todas las funciones mencionadas por OpenAI a principios de este año en el informe ‘Simulación Mundial’, además de capacidades adicionales como generación de video a partir de texto, imágenes animadas, videos híbridos, entre otras. Esta es la base tecnológica detrás de las características del producto Sora en esta ocasión.

Parece que el costo de razonamiento de video es más alto en comparación con el texto, pero esta vez OpenAI no cobra extra por Sora. Tanto los miembros de ChatGPT Plus por 20 dólares al mes como los miembros de ChatGPT Pro por 200 dólares al mes pueden usar Sora.

Los derechos del primero incluyen hasta 50 videos avanzados, con una resolución de hasta 720p y una duración de 5 segundos, mientras que los derechos del segundo incluyen hasta 500 videos avanzados, videos comunes ilimitados, con una resolución de hasta 1080p, una duración de 20 segundos y descargas sin marcas de agua.

Límites de uso de Sora para diferentes miembros | Fuente de la imagen: OpenAI

El significado de Sora para OpenAI no se limita a esto. El equipo descubrió que los modelos de video exhiben muchas nuevas habilidades interesantes durante el entrenamiento a gran escala, lo que permite que Sora simule ciertos aspectos de personas, animales y entornos del mundo real. “Nuestros resultados indican que la expansión de los modelos de generación de video es un camino prometedor para construir un simulador universal del mundo físico”.

Quizás por eso es tan importante que Sora se utilice rápidamente por el público, se utilice para entrenar modelos del mundo con datos para el sueño final de AGI de OpenAI.

En el camino de la tecnología iterativa, también ha impulsado la creatividad humana.

“Esta versión de Sora cometerá errores, no es perfecta, pero ha llegado a un punto en el que creemos que será muy útil para mejorar la creatividad humana. Estamos ansiosos por ver qué hará el mundo con ella.” Así lo dice OpenAI, el creador de Sora.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)