- Nuevo modelo de IA de código abierto de DAMO Vision Intelligence Lab, una división de investigación de Alibaba, crea videos a partir de indicaciones.
- La herramienta de difusión «text2video» de ModelScope fue entrenada mediante el análisis de millones de imágenes y miles de videos extraídos en conjuntos de datos.
- A medida que las herramientas de text2video se vuelven más realistas, es probable que se presenten problemas sociales y culturales.
En la última semana, ha habido controversias en torno a la regulación de la IA, temores sobre el fin del mundo y la interrupción del trabajo. Sin embargo, un video generado por IA de Will Smith comiendo espaguetis ha llamado la atención de la gente.
Este video, generado por computadora, consta de 10 segmentos de dos segundos unidos para mostrar a un Will Smith simulado comiendo espaguetis desde diferentes ángulos. El video fue creado por una nueva herramienta de IA de código abierto llamada ModelScope, lanzada recientemente por DAMO Vision Intelligence Lab, una división de investigación de Alibaba.
ModelScope: herramienta para generar vídeos por IA
ModelScope es un modelo de difusión «text2video» que ha sido entrenado para crear nuevos videos a partir de indicaciones mediante el análisis de millones de imágenes y miles de videos extraídos de conjuntos de datos como LAION5B, ImageNet y Webvid. La herramienta incluso utiliza videos de Shutterstock, como se puede ver en la marca de agua «Shutterstock» en la salida del video. Aunque ModelScope tiene una demostración en línea en la comunidad de IA HuggingFace, los usuarios deben tener una cuenta y pagar por el tiempo de cómputo para ejecutarlo.
El usuario de Reddit «chaindrop» creó el video de Will Smith comiendo espaguetis proporcionando el mensaje «Will Smith comiendo espaguetis» a ModelScope, y luego utilizó la herramienta de interpolación Flowframes para aumentar el FPS de 24 a 48 y luego lo redujo a la mitad de la velocidad. Desde entonces, Internet ha visto varios seguimientos de este video, incluyendo a Scarlett Johansson y Joe Biden comiendo espaguetis.
Aunque ModelScope no es la única herramienta text2video en el mercado, la popularidad del video de Will Smith ha llamado la atención sobre estas tecnologías. Sin embargo, una vez que los resultados de estas herramientas se vuelvan demasiado realistas, podríamos enfrentar problemas sociales y culturales. Por ahora, podemos disfrutar de la gloria imperfecta de ModelScope y sus videos generados por IA.