Sora es un modelo de IA para crear escenas realistas e imaginativas a partir de instrucciones de texto

Con el paso del tiempo, la Inteligencia Artificial está aprendiendo a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real.

Artículos
Tecnología

ESCRITO POR

Link Space

ACTUALIZADO

16 de febrero, 2024

Con el paso del tiempo, la Inteligencia Artificial está aprendiendo a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real.

Sora es el modelo presentado por Open AI de texto a video. Sora puede generar videos de hasta un minuto de duración, manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario.

Hoy en día, Sora está disponible para los miembros del equipo rojo para evaluar áreas críticas en busca de daños o riesgos. También otorga acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos.

Open AI comparte el progreso de su investigación desde el principio para comenzar a trabajar y recibir comentarios de personas ajenas y para brindarle al público una idea de las capacidades de IA que hay en el horizonte.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual.

El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco.

El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.

Seguridad

Se tomaron varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Por lo que se está trabajando con los equipos rojos — expertos en áreas como desinformación, contenido de odio y prejuicios — que probarán el modelo de manera adversaria.

También se están creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video. Planeamos incluir metadatos de C2PA en el futuro si implementamos el modelo en un producto OpenAI.

Además de desarrollar nuevas técnicas para preparar el despliegue, aprovechar los métodos de seguridad existentes que se crearon para sus productos que utilizan DALL·E 3, que también son aplicables a Sora.

Por ejemplo, una vez en un producto OpenAI, el clasificador de texto verificará y rechazará las solicitudes de ingreso de texto que infrinjan las políticas de uso, como aquellas que solicitan violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o la IP de otros. También se ha desarrollado clasificadores de imágenes sólidas que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que cumpla con las políticas de uso, antes de mostrarlo al usuario.

Se involucrará a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología. A pesar de investigaciones y pruebas exhaustivas, no se puede predecir todas las formas beneficiosas en que las personas utilizarán la tecnología, ni todas las formas en que abusarán de ella. Es por eso que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo.

Técnicas de investigación

Sora es un modelo de difusión que genera un vídeo comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos.

Sora es capaz de generar vídeos completos de una sola vez o ampliar los vídeos generados para hacerlos más largos. Al darle al modelo previsión de muchos fotogramas a la vez, se ha resuelto el difícil problema de garantizar que un sujeto permanezca igual, incluso cuando se pierde de vista temporalmente.

Al igual que los modelos GPT, Sora utiliza una arquitectura transformadora, lo que desbloquea un rendimiento de escalado superior.

Open AI representa videos e imágenes como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar la forma en que se representa los datos, se puede entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se basa en investigaciones anteriores sobre los modelos DALL·E y GPT. Utiliza la técnica de recaptioning de DALL·E 3, que implica generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.

Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención.

Open AI pasó a los pequeños detalles. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas faltantes. Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que será un hito importante para lograr AGI.