NYT / En abril, una empresa emergente neoyorquina llamada Runway AI presentó una tecnología que permitía a la gente generar videos, como una vaca en una fiesta de cumpleaños o un perro que habla por teléfono, simplemente escribiendo una frase en un recuadro de la pantalla de una computadora.
Los videos de cuatro segundos eran borrosos, entrecortados, distorsionados e inquietantes. Pero eran una señal clara de que las tecnologías de inteligencia artificial generarían videos cada vez más convincentes en los meses y años venideros.
Apenas diez meses después, la empresa emergente OpenAI de San Francisco ha presentado un sistema similar que crea videos que parecen sacados de una película de Hollywood. Una demostración incluía vídeos cortos —creados en minutos— de mamuts lanudos que trotan por un prado nevado, un monstruo que contempla una vela que se derrite y una escena callejera de Tokio al parecer filmada por una cámara que atraviesa la ciudad en picada.
OpenAI, la empresa que está detrás del chatbot ChatGPT y del generador de imágenes fijas DALL-E, es una de las muchas compañías que se apresuran a mejorar este tipo de generador de video instantáneo, entre ellas empresas emergentes como Runway y gigantes tecnológicos como Google y Meta, propietaria de Facebook e Instagram. La tecnología podría acelerar el trabajo de los cineastas experimentados y sustituir por completo a los artistas digitales con menos experiencia.
También podría convertirse en una forma rápida y barata de crear desinformación en línea, haciendo aún más difícil distinguir lo que es real en internet.
“Me aterra por completo que este tipo de cosas influyan en unas elecciones muy reñidas”, comentó Oren Etzioni, profesor de la Universidad de Washington especializado en IA. También es fundador de True Media, una organización sin fines de lucro que trabaja para identificar la desinformación en internet en las campañas políticas.
OpenAI llama a su nuevo sistema Sora, por la palabra japonesa que significa “cielo”. El equipo detrás de la tecnología, que incluye a los investigadores Tim Brooks y Bill Peebles, eligió el nombre porque “evoca la idea de un potencial creativo ilimitado”.
En una entrevista, también afirmaron que la empresa aún no liberaba Sora al público porque todavía estaba esforzándose por comprender los peligros del sistema. En su lugar, OpenAI está compartiendo la tecnología con un pequeño grupo de académicos y otros investigadores externos que la someterán a un “equipo rojo”, término con el que se conoce la búsqueda de posibles usos indebidos.
“La intención es ofrecer un anticipo de lo que se avecina, para que la gente pueda ver las posibilidades de esta tecnología y podamos recibir sus comentarios”, explicó Brooks.
OpenAI ya está etiquetando los videos producidos por el sistema con marcas de agua que los identifican como generados por IA. Pero la empresa reconoce que pueden eliminarse. También pueden ser difíciles de detectar. (The New York Times añadió marcas de agua que dicen “Generado por IA” a los videos de este reportaje).
El sistema es un ejemplo de IA generativa, que puede crear texto, imágenes y sonidos en instantes. Al igual que otras tecnologías de IA generativa, el sistema de OpenAI aprende analizando datos digitales, en este caso videos y subtítulos que describen su contenido.
OpenAI no ha querido precisar de cuántos videos ha aprendido el sistema ni de dónde proceden, salvo que el entrenamiento ha incluido tanto videos de acceso público como videos cedidos bajo licencia por titulares de derechos de autor. La empresa dice poco sobre los datos utilizados para entrenar sus tecnologías, quizá porque quiere mantener una ventaja sobre sus competidores y ha sido demandada varias veces por utilizar material protegido por derechos de autor.
Sora genera videos en respuesta a descripciones breves, como “un mundo de papel magníficamente representado de un arrecife de coral, plagado de peces de colores y criaturas marinas”. Aunque los videos pueden ser impresionantes, no siempre son perfectos y pueden incluir imágenes extrañas e ilógicas. Por ejemplo, el sistema generó hace poco un video de alguien comiéndose una galleta, pero la galleta nunca se hizo más pequeña.
DALL-E, Midjourney y otros generadores de imágenes fijas han mejorado tan rápidamente en los últimos años que ahora producen imágenes casi indistinguibles de las fotografías. Esto ha hecho más difícil identificar la desinformación en internet, y muchos artistas digitales se quejan de que les ha dificultado encontrar trabajo.
“Todos nos reímos en 2022 cuando salió Midjourney y dijimos: ‘Ah, qué bonito’”, relató Reid Southen, un artista conceptual de cine de Míchigan. “Ahora, la gente está perdiendo su trabajo por Midjourney”.