Se ha enriquecido la inteligencia artificial (IA) en la generación de contenido audiovisual con dos recientes propuestas de Google: el modelo Veo 2 para vídeos y la herramienta Whisky para imágenes. Estas tecnologías ofrecen posibilidades inéditas tanto para profesionales como para particulares.
IA Veo 2: Vídeos con alto nivel de detalle
Veo 2 es el modelo de IA que Google ha desarrollado para competir con Sora, la alternativa de OpenAI. Mientras Sora logra clips de hasta 20 segundos en 1080p, Veo 2 sube el listón al generar vídeos de varios minutos con calidad 4K.
Más allá de la resolución, asombra su habilidad para interpretar la «física del mundo real» y reproducir de forma natural movimientos y expresiones humanas, reduciendo los habituales errores visuales en modelos de esta naturaleza.
Durante algunas pruebas, Veo 2 parece ser menos propenso a inconsistencias como la aparición de dedos extra o la inclusión de objetos que no corresponden al contexto. Además, permite configurar detalles específicos como ángulos, géneros y efectos cinematográficos.
Por ahora, su disponibilidad es limitada, accesible si te inscribes en una lista de espera y con un despliegue gradual en VideoFX, YouTube y Vertex AI. Además, Google ha confirmado que Veo 2 llegará en 2025 a YouTube Shorts, incluyendo una marca de agua invisible SynthID para garantizar su trazabilidad.
Whisky
Whisky, por su parte, se centra en la creación de imágenes basadas en ideas y elementos combinados. Su principal atractivo es la capacidad de mezclar un tema, una escena y un estilo para generar un resultado único. Aunque no busca replicar fielmente una imagen de origen, sí captura su esencia y la transforma en algo nuevo, siendo ideal para conceptualizar ideas o crear rápidas representaciones.
La interfaz de Whisky es sencilla en su introducción, con opciones limitadas a estilos como pegatinas, pines esmaltados y peluches, pero incluye un editor donde el usuario puede introducir texto o imágenes para definir más detalles. No obstante, su precisión al trasladar elementos de la imagen original sigue siendo un área en desarrollo, ya que los resultados finales pueden diferir de las entradas proporcionadas.
Es interesante cómo Whisky utiliza la comprensión visual de Gemini e Imagen 3 para crear sus composiciones. En lugar de basarse directamente en los detalles de una imagen cargada, se genera un texto descriptivo que posteriormente alimenta el proceso creativo. Por ahora, la herramienta está disponible únicamente en Estados Unidos a través de Google Labs.