
N°20 / Mayo 25 de 2023

Cada vez está más cerca la posibilidad de generar vídeos, de manera masiva, desde un texto. Ya hemos pasado por el boom de las soluciones de texto a imagen (Midjourney, Dall-E, Stable Diffusion); por el de texto a texto, con Chat-GPT; el de texto a audio, y recientemente vemos avances muy interesantes en el modelo de texto a vídeo. Podemos ver animaciones, avatares, modelos de “live action” y modelos secuenciales, generados como expansiones de los modelos de texto a imagen. Este modelo es tal vez el más prometedor; sin embargo, es uno de los más complejos, por la cantidad de datos que se deben procesar y “corregir” en tiempo real para tener un vídeo con un buen nivel de calidad, que pueda generar un impacto en la industria de la producción audiovisual.
*Imagen generada con inteligencia artificial, en midjourney.com

Acercarse y ampliar esos futuros desde el presente, es un desafío. Te presentamos importantes temas que proponen futuros posibles.
¿Cómo usar la inteligencia artificial para crear un vídeo, usando solo texto?
Aquí encuentras un ejemplo de una herramienta usada para crear guiones y editar vídeos de manera rápida y sencilla. Dispone de un editor en línea, opciones de idioma, acento, y voz de inteligencia artificial, así como la posibilidad de generar subtítulos automáticamente y de personalizar el diseño con efectos y animaciones.

El tiempo es la moneda de juego en el futuro; por eso, te mostramos algunos caminos que te guiarán hacia nuevas experiencias.
Startups
A continuación, presentamos algunas startups que se destacan en la creación de vídeos a partir de texto.
Plask
Es una completa herramienta de captura de movimiento, para la realización de animaciones con inteligencia artificial.
Kaiber
Transforma ideas en historias visuales impresionantes, con un motor de generación de inteligencia artificial de última generación.
Wonder Dynamics
Plataforma que permitirá que, desde la Web, podamos crear personajes animados basados en nuestros movimientos. Computer-Generated Imagery (CGI) al alcance de todos.
Podcast
Zayi Olivera Podcast (español)
En este episodio del podcast de Zayi Olivera, descubriremos cómo la inteligencia artificial está cambiando nuestra vida diaria. Desde asistentes virtuales hasta contenido audiovisual, veremos cómo la inteligencia artificial simplifica nuestras tareas y hace realidad lo que antes parecía imposible.
El nuevo manager musical (español)
Este podcast es una reflexión del uso de la IA para la generación de vídeos a bajo costo. En él, Pol López Salich, cantante y guitarrista del grupo Cinco Tatuajes, menciona cómo se realizó su nuevo videoclip, usando solamente inteligencia artificial.

Interpretar futuros con enfoque, acompañándolos de datos e información, que sirvan para esclarecer las dudas y las incertidumbres del presente.
Reportes/ Expertos
Análisis del mercado de Texto-a-Vídeo
Uno de los principales impulsores del desarrollo de este mercado es su creciente demanda, para contenido de vídeo personalizado y dirigido, que se puede lograr mediante el uso de tecnología de inteligencia artificial; para crear contenido de vídeo personalizado automáticamente, en función de los intereses y la demografía de un usuario. Además, el auge de las plataformas de redes sociales y la creciente popularidad del contenido de vídeo, también han contribuido al crecimiento de este mercado. Es probable que la tendencia de texto a vídeo continúe evolucionando y expandiéndose, a medida que la tecnología de inteligencia artificial se vuelva más sofisticada y generalizada.
El informe también destaca los retos que tiene esta tendencia, entre los cuales se encuentran los dilemas éticos, todavía presentes, y los altos costos de procesamiento de datos.
Fuente: Markets and Markets, 2023.
Data Viz
El modelo Tune-A-Video
Para replicar el éxito de la generación de texto a imagen (T2I), los trabajos recientes emplean conjuntos de datos de vídeo a gran escala, para entrenar un generador de texto a vídeo (T2V). A pesar de sus prometedores resultados, este paradigma es computacionalmente caro. El modelo Tune-A-Video propone una nueva configuración de generación T2V: One-Shot Video Tuning, basado en modelos de difusión T2I de última generación, previamente entrenados en datos de imagen masivos.
Dato Curioso
Al igual que otros modelos de lenguaje de visión, los modelos de texto a vídeo suelen entrenarse en grandes conjuntos de datos emparejados, vídeos y descripciones de texto. Los vídeos de estos conjuntos de datos suelen dividirse en trozos cortos de longitud fija y, a menudo, se limitan a acciones aisladas con algunos objetos. Algunos de los más importantes son:
- WebVid: Es el conjunto de datos más utilizado y de gran escala; cuenta con vídeos con 10,7 millones de pares de videoclips o 52.000 horas de vídeo en total, igual que si grabaras 24 horas seguidas tus primeros 6 años.
- Howto100M: Es un conjunto de datos a gran escala, de vídeos narrados con énfasis en instructivos; cuenta con un total de 136 millones de videoclips, con subtítulos procedentes de 1.2 millones de vídeos de Youtube; equivale a 15 años de vídeo.
- El conjunto de datos de QuerYD se centra en la tarea de localización de eventos, de tal manera que los subtítulos de los vídeos describan la ubicación relativa de los objetos y las acciones en detalle. Los vídeos se obtienen de YouTube y las descripciones se proporcionan a través de las contribuciones en la página del proyecto YouDescribe.
- CelebV-Text es un conjunto de datos de texto y vídeo facial a gran escala, de más de 70.000 vídeos, para generar vídeos con caras, emociones y gestos realistas, con una duración total de alrededor de 279 horas. Cada vídeo va acompañado de 20 frases que describen 6 atributos diseñados, incluyendo 40 apariciones generales, 5 apariciones detalladas, 6 condiciones de luz, 37 acciones, 8 emociones y 6 direcciones de luz.
Especulaciones

Ilustración de James Marshall, Getty Images.
El futuro de la inteligencia artificial generativa, de texto a vídeo, es muy promisorio, convirtiendo el proceso más rápido, eficiente y con menor exigencia de esfuerzo para el usuario, gracias a desarrollos en la generación de avatars ,que puedan personalizarse y convertirse en la extensión del usuario; en locución y subtítulos, en la integración de plataformas con software de reconocimiento de imagen en inteligencia artificial. Sin embargo, es crucial considerar las implicaciones éticas de estos avances, abordar cualquier impacto negativo potencial en la fuerza laboral, y asegurarse de que el desarrollo y la implementación de estos algoritmos se realicen teniendo en cuenta la diversidad, equidad e inclusión. Fuente: Betty Bassett, en Medium, 2023.
Por otra parte, en este artículo, se analiza cómo, si bien Netflix irrumpió en la forma cómo y dónde vemos contenido actualmente, la inteligencia artificial podría irrumpir en la forma de creación de este contenido; pues se prevé cómo su papel en el cine podría evolucionar más allá del meme viral, permitiendo que la tecnología ayude a elegir el elenco de películas, modelar escenas antes de ser filmadas e incluso intercambiar actores en diferentes escenas. La tecnología está avanzando rápidamente, y probablemente pasarán años antes de que tales generadores puedan, por ejemplo, producir un cortometraje completo basado en indicaciones, a través de un solo generador o un bloque de construcción; pero, al combinar diferentes herramientas, se podría hacer posible; así que todos estos avances pueden llegar en semanas y todo dependería de la aceptación de las audiencias a estas nuevas creaciones. Fuente:Wired, 2023.