Créditos de la imagen: pista
En una entrevista reciente con Collider, Joe Russo, director de películas populares de Marvel como «Avengers: Endgame», predijo que dentro de dos años, la inteligencia artificial podría crear una película completa.
Él dirá que esta es una línea de tiempo bastante optimista. Pero nos estamos acercando.
Esta semana, la pasarela, A.J. apoyado por Google La startup de IA que ayudó a desarrollar el generador de imágenes de IA lanzó Stable Diffusion, Gen-2, un modelo que crea videos a partir de mensajes de texto o imágenes existentes. (Anteriormente, el Gen-2 estaba en acceso limitado y en lista de espera). Después del modelo Runway Gen-1 lanzado en febrero, el Gen-2 es uno de los primeros modelos de texto a video disponibles comercialmente.
«Disponible comercialmente» es una distinción importante. El texto a video, como la próxima frontera lógica en la IA generativa después de las imágenes y el texto, se ha convertido en un área de atención más amplia, en particular entre los gigantes tecnológicos, muchos de los cuales han demostrado modelos de texto a video durante el último año. Pero estos modelos aún se encuentran en las etapas de investigación y no son accesibles para todos, excepto para algunos científicos e ingenieros de datos.
Por supuesto, primero no es necesariamente mejor.
Por curiosidad personal y servicio a ustedes, queridos lectores, he ejecutado algunas indicaciones a través de Gen-2 para tener una idea de lo que el modelo puede y no puede lograr. (Runway actualmente ofrece alrededor de 100 segundos de creación de video gratis). No había muchas maneras de volverse loco, pero traté de capturar una variedad de ángulos, géneros y estilos que un director, un profesional o un sillón podrían querer. para ver en la pantalla plateada, o en una computadora portátil, según sea el caso.
Una limitación del Gen-2 que se hace evidente de inmediato es la velocidad de fotogramas de los videos de cuatro segundos que crea el modelo. Es tan discreto y notable, que es casi como una presentación de diapositivas en algunos lugares.
Lo que no está claro es si se trata de un problema tecnológico o de un intento de Runway de ahorrar en costes informáticos. En cualquier caso, hace que la segunda generación sea una propuesta poco atractiva para los editores que esperan evitar el trabajo de posproducción.
Fuera del problema de la velocidad de fotogramas, descubrí que los clips creados a partir de la segunda generación tienden a compartir cierto grano o borrosidad común, como si se hubiera aplicado algún tipo de filtro antiguo de Instagram. Otras distorsiones también ocurren en lugares, como los píxeles alrededor de los objetos cuando la cámara (a falta de una palabra mejor) se desplaza rápidamente o se acerca a ellos.
Al igual que con muchos modelos generativos, Gen-2 tampoco es particularmente consistente en términos de física o anatomía. Como algo evocado por un surrealista, los brazos y las piernas de las personas en los videos producidos por la segunda generación se mezclan y se desintegran nuevamente a medida que los objetos en el suelo se derriten y desaparecen, sus reflejos se deforman y distorsionan. Y, dependiendo del mensaje, las caras pueden parecer muñecas, con ojos brillantes y sin emociones y una piel pulida que evoca plástico barato.
Para acumular a un nivel superior, existe el problema del contenido. La segunda generación parece tener dificultades para comprender los matices, apegarse a ciertas recetas en las indicaciones mientras ignora otras, aparentemente al azar.
Probé un estímulo: “Un video de una utopía submarina, filmado con una cámara antigua, al estilo de una película de ‘metraje encontrado’, no produjo tal utopía, solo lo que parecía una inmersión submarina en primera persona en un arrecife desconocido. El Gen-2 también tuvo problemas con mis otras afirmaciones, ya que no pudo crear una toma de zoom para reclamar específicamente «zoom lento» y no acentuó la apariencia del astronauta promedio.
¿Podrían los problemas estar en el conjunto de datos de entrenamiento Gen-2? tal vez.
Gen-2, como Stable Diffusion, es un modelo de difusión, lo que significa que aprende a restar gradualmente el ruido de una imagen inicial hecha completamente de ruido para acercarla paso a paso al vector. Los modelos de difusión aprenden entrenándose en millones o miles de millones de ejemplos; en la academia papel Al detallar la arquitectura de segunda generación, Runway explica que el modelo se entrenó en un conjunto de datos interno que consta de 240 millones de imágenes y 6,4 millones de videos.
La variedad en los ejemplos es clave. Si el conjunto de datos no contiene mucho metraje de animación, por ejemplo, el modelo, que carece de puntos de referencia, no podrá generar animaciones de calidad razonable. (Por supuesto, la animación es un campo amplio, incluso si se trata de un conjunto de datos un acto contiene clips de dibujos animados o animaciones dibujadas a mano, la forma no necesariamente se generalizará bien todos tipos de animación).
En el lado positivo, Gen-2 pasa las pruebas de sesgo a nivel de superficie. Si bien se ha descubierto que los modelos generativos de IA como DALL-E 2 refuerzan los sesgos sociales y generan imágenes de posiciones de poder, como «CEO» o «gerente», que representan predominantemente a hombres blancos, Gen-2 era un poco más pequeño y más diverso en el contenido que generó, al menos en mis pruebas.
Gen-2 envió el video instantáneo «un video de un CEO entrando a una sala de conferencias», lo que generó un video de hombres y mujeres (aunque más hombres que mujeres) sentados alrededor de algo así como una mesa de conferencias. Mientras tanto, la salida del mensaje instantáneo «Video de un médico trabajando en una oficina», muestra a una misteriosa doctora de aspecto asiático detrás de un escritorio.
A pesar de esto, los resultados de cualquier reclamo que contenga la palabra «enfermera» han sido menos prometedores, mostrando consistentemente a mujeres blancas jóvenes. Lo mismo para «persona que atiende mesas». Claramente hay trabajo por hacer.
La conclusión de todo esto, para mí, es que Gen-2 es más una novedad o un juguete que una herramienta realmente útil en cualquier flujo de trabajo de video. ¿Se pueden modificar los resultados en algo más coherente? tal vez. Pero dependiendo del video, probablemente sea más trabajo que filmar las imágenes en primer lugar.
esto no debe ser también Tecnología desdeñosa. Es impresionante lo que Runway ha hecho aquí, derrotando efectivamente a los gigantes tecnológicos en el golpe de conversión de texto a video. Y estoy seguro de que algunos usuarios encontrarán usos para la segunda generación que no requieren fotorrealismo, ni mucha personalización. (Cristóbal Valenzuela, Director General, Runway recién Le dijo a Bloomberg que ve Gen-2 como una forma de proporcionar a los artistas y diseñadores una herramienta que pueda ayudarlos en sus procesos creativos).
Lo hice yo mismo. La segunda generación ya puede captar una combinación de estilos, como anime y barro, que son adecuados para velocidades de cuadro más bajas. Con un poco de retoques y edición, no sería imposible juntar algunos clips para crear una pieza narrativa.
Para que no te alarmes ante la posibilidad de deepfakes, Runway dice que utiliza una combinación de inteligencia artificial y moderación humana para evitar que los usuarios creen videos con pornografía, contenido violento o infracciones de derechos de autor. Puedo confirmar que hay un filtro de contenido, de hecho, un filtro excesivo. Pero, por supuesto, estos no son métodos infalibles, por lo que habrá que ver qué tan bien funcionan en la práctica.
Pero al menos por el momento, los cineastas, animadores, artistas CGI y especialistas en ética pueden estar tranquilos. Pasarán al menos dos iteraciones antes de que la tecnología de Runway se acerque a producir imágenes de calidad cinematográfica, suponiendo que llegue allí.
«Food ninja. Freelance pop culture fanatic. Wannabe zombie maven. Twitter aficionado.»
More Stories
La red social Butterflies AI añade una función que te convierte en un personaje de inteligencia artificial
Edición del vigésimo aniversario de Hautlence HLXX: redefiniendo el tiempo con minutos que retroceden y horas saltantes
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora