OpenAI presenta a Sora, un modelo de inteligencia artificial capaz de crear escenas realistas e imaginativas a partir de instrucciones de texto. Esta IA puede generar vídeos de hasta un minuto. Además, mantiene la calidad visual y la adherencia a la indicación del usuario.
Sam Altman, director ejecutivo de OpenAI, anunciaba la llegada de Sora por la red social X. Junto al anuncio se compartían demostraciones de las capacidades de esta inteligencia artificial.
Este nuevo modelo tiene profundos conocimientos del lenguaje y las instrucciones pueden ser muy detalladas. Por ello, interpreta con precisión las indicaciones y genera personajes convincentes que expresan emociones reales.
Uno de los ejemplos que aporta OpenAI es el siguiente:
“Una elegante mujer camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean”
Actualmente Sora está a disposición de los equipos rojos. Estos se encargan de evaluar las áreas críticas en busca de daños o riesgos. OpenAI está dando acceso a diseñadores, artistas visuales y cineastas para recibir sugerencias sobre cómo mejorar el modelo.
Los avances de estas investigaciones se publican con el objetivo de que personas ajenas a la empresa colaboren y proporcionen un feedback. Además, con esta estrategia dan a conocer Sora, demostrando sus capacidades.
El modelo actual cuenta con puntos débiles. La simulación de escenas es precisa pero puede dar fallos y no comprender en casos contratos la causa y efecto. Por ejemplo, una persona se come una tostada, pero el mordisco no aparece. El modelo también puede confundir detalles espaciales, como izquierda y derecha.
Seguridad en Sora:
Antes de que Sora esté en OpenAI la empresa tomará importantes medidas de seguridad. Los equipos rojos se encargarán de filtrar contenidos que inciten al odio. El clasificador de texto rechazará solicitudes que infrinjan las políticas de privacidad de su uso. Serán rechazadas la violencia extrema, los contenidos sexuales, las imágenes que inciten al odio, las imágenes de famosos o la propiedad intelectual de terceros. Se promoverá en todo momento la parcialidad.
La empresa está construyendo una herramienta para detectar contenido engañoso. Un clasificador para detectar cuando el video ha sido producido por Sora. Además, están desarrollando nuevas técnicas para preparar el despliegue.
Por otra parte, se ha desarrollado un robusto clasificador de imágenes para la revisión de los fotogramas de cada video generado. El objetivo es ayudar a garantizar una correcta política de uso.
Técnicas de investigación en Sora:
Al igual que los modelos GPT, Sora utiliza una arquitectura de transformadores, lo que proporciona un rendimiento de escalado superior.
Esta IA representa los videos y las imágenes como colecciones de unidades de datos más pequeñas denominadas “patches”, similares a un “token” en GPT. Al unificar la forma de representar los datos se entrena a los transformadores de difusión en una gama de datos visuales más amplia de lo que se conocía hasta entonces. Se abarcan diferentes duraciones, resoluciones y relaciones de aspecto.
Sora está basado en investigaciones anteriores sobre los modelos DALL-E y GPT. Utiliza la técnica de recapitulación de DALL-E 3, genera subtítulos descriptivos para los datos visuales de entrenamiento.
Además de generar un video a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija y generar un video a partir de ella. Sora también puede tomar un video existente y ampliarlo o rellenar los fotogramas que faltan.
Toda esta información ha sido extraída de la página oficial de OpenAI.
¿Te ha gustado este artículo? Recuerda, tenemos muchos más disponibles en nuestra página web.
Los comentarios están cerrados.