Veo 2: Nova IA de DeepMind per a vídeos 4K

25 de desembre de 2024712 Views

Google DeepMind ha presentat Veo 2, un model d’intel·ligència artificial dissenyat per generar vídeos amb una qualitat superior. Aquest nou desenvolupament promet superar el seu competidor OpenAI en capacitats tècniques, establint un nou estàndard en la creació de vídeos amb IA. Veo 2 pot generar clips de més de dos minuts de durada amb una resolució de fins a 4K (4096 x 2160 píxels), quadruplicant la resolució i sextuplicant la durada que actualment ofereix Sora d’OpenAI.

Capacitats de Veo 2

Tot i que el potencial de Veo 2 és impressionant, les seves capacitats estan limitades en l’eina experimental VideoFX de Google, on els vídeos generats estan restringits a una resolució de 720p i vuit segons de durada. En comparació, Sora permet vídeos de fins a 1080p i 20 segons. Segons Eli Collins, vicepresident de producte a DeepMind, el model serà implementat a la plataforma Vertex AI de Google un cop estigui preparat per a un ús a gran escala.

Innovacions en Veo 2

Veo 2 incorpora millores significatives respecte al seu predecessor, incloent-hi una millor comprensió de la física, la gestió de càmeres virtuals i la representació de dinàmiques de fluids, il·luminació i expressions humanes. Això permet generar vídeos amb textures més nítides i moviments més realistes, com el vessament de líquids o efectes cinematogràfics complexos.

DeepMind també afirma que Veo 2 pot captar detalls subtils, com la refracció de líquids o animacions a l’estil de Pixar. Tanmateix, persisteixen desafiaments com mantenir la coherència en personatges al llarg de clips extensos o en escenaris complexos.

Col·laboracions creatives i retroalimentació

Des de l’inici del desenvolupament de Veo, DeepMind ha treballat amb artistes reconeguts com Donald Glover i The Weeknd per alinear la tecnologia amb les necessitats creatives. Aquesta col·laboració ha estat clau per polir tant Veo 1 com Veo 2, i el model continuarà evolucionant a partir dels comentaris de creadors i provadors.

Consideracions ètiques i desafiaments

Veo 2 va ser entrenat amb grans volums de vídeos, però DeepMind no ha revelat les seves fonts específiques. YouTube, propietat de Google, és un possible origen de dades. Tot i que Google permet als administradors web bloquejar l’extracció de dades, no ofereix mecanismes per eliminar contingut ja utilitzat en l’entrenament.

Aquest enfocament ha generat controvèrsies, especialment perquè molts artistes i professionals del cinema temen que aquestes tecnologies puguin alterar significativament el mercat laboral. A més, DeepMind implementa filtres per prevenir contingut explícit i utilitza la seva tecnologia de marca d’aigua SynthID per mitigar riscos com els deepfakes, tot i que aquesta no és completament infal·lible.

Actualitzacions en la generació d’imatges

Juntament amb Veo 2, Google DeepMind ha anunciat millores en Imagen 3, el seu model comercial per a generació d’imatges. Ara, aquest model produeix imatges més detallades i fidels als prompts, a més d’incorporar eines que faciliten la personalització i el refinament de les sol·licituds dels usuaris.

Preguntes freqüents

Què és Veo 2 i què el diferencia del seu predecessor?

Veo 2 és un model avançat d’IA per generar vídeos, que millora la qualitat d’imatge, el realisme de moviments i la precisió en la gestió de càmeres virtuals.

Com accedir a Veo 2 i les seves eines?

De moment, Veo 2 està disponible a l’eina experimental VideoFX de Google, que requereix registre en una llista d’espera.

Quins desafiaments afronta Veo 2 en la generació de vídeos?

Els principals desafiaments inclouen mantenir la coherència de personatges en clips llargs, generar detalls intricats i superar limitacions en moviments complexos.

Més informació

Google DeepMind