Veo 2: Nueva IA de DeepMind para videos 4K

25 de diciembre de 20241341 Views

Google DeepMind ha presentado Veo 2, un modelo de inteligencia artificial diseñado para generar videos con una calidad superior. Este nuevo desarrollo promete superar a su competidor OpenAI en capacidades técnicas, estableciendo un nuevo estándar en la creación de videos por IA. Veo 2 puede generar clips de más de dos minutos de duración con una resolución de hasta 4K (4096 x 2160 píxeles), cuadruplicando la resolución y sextuplicando la duración que actualmente ofrece Sora de OpenAI.

Capacidades de Veo 2

Aunque el potencial de Veo 2 es impresionante, sus capacidades están limitadas en la herramienta experimental VideoFX de Google, donde los videos generados están restringidos a una resolución de 720p y ocho segundos de duración. En comparación, Sora permite videos de hasta 1080p y 20 segundos. Según Eli Collins, vicepresidente de producto en DeepMind, el modelo será implementado en la plataforma Vertex AI de Google una vez que esté listo para un uso a gran escala.

Innovaciones en Veo 2

Veo 2 incorpora mejoras significativas respecto a su predecesor, incluyendo una mejor comprensión de la física, el manejo de cámaras virtuales y la representación de dinámicas de fluidos, iluminación y expresiones humanas. Esto permite generar videos con texturas más nítidas y movimientos más realistas, como el vertido de líquidos o efectos cinematográficos complejos.

DeepMind también afirma que Veo 2 puede captar detalles sutiles, como la refracción de líquidos o animaciones al estilo de Pixar. Sin embargo, persisten desafíos como mantener la coherencia en personajes a lo largo de clips extensos o en escenarios complejos.

Colaboraciones creativas y retroalimentación

Desde el inicio del desarrollo de Veo, DeepMind ha trabajado con artistas reconocidos como Donald Glover y The Weeknd para alinear la tecnología con las necesidades creativas. Esta colaboración ha sido clave para pulir tanto Veo 1 como Veo 2, y el modelo seguirá evolucionando a partir de los comentarios de creadores y probadores.

Consideraciones éticas y desafíos

Veo 2 fue entrenado con grandes volúmenes de videos, pero DeepMind no ha revelado sus fuentes específicas. YouTube, propiedad de Google, es un posible origen de datos. Aunque Google permite a los webmasters bloquear la extracción de datos, no ofrece mecanismos para eliminar contenido ya utilizado en el entrenamiento.

Este enfoque ha generado controversias, especialmente porque muchos artistas y profesionales del cine temen que estas tecnologías puedan alterar significativamente el mercado laboral. Además, DeepMind implementa filtros para prevenir contenido explícito y utiliza su tecnología de marca de agua SynthID para mitigar riesgos como los deepfakes, aunque esta no es completamente infalible.

Actualizaciones en la generación de imágenes

Junto a Veo 2, Google DeepMind anunció mejoras en Imagen 3, su modelo comercial para generación de imágenes. Ahora, este modelo produce imágenes más detalladas y fieles a los prompts, además de incorporar herramientas que facilitan la personalización y el refinamiento de las solicitudes de los usuarios.

Preguntas frecuentes

¿Qué es Veo 2 y qué lo diferencia de su predecesor?

Veo 2 es un modelo avanzado de IA para generar videos, que mejora la calidad de imagen, el realismo de movimientos y la precisión en el manejo de cámaras virtuales.

¿Cómo acceder a Veo 2 y sus herramientas?

Por ahora, Veo 2 está disponible en la herramienta experimental VideoFX de Google, que requiere registro en una lista de espera.

¿Qué desafíos enfrenta Veo 2 en la generación de videos?

Los principales desafíos incluyen mantener la coherencia de personajes en clips largos, generar detalles intrincados y superar limitaciones en movimientos complejos.

Más información

Google DeepMind