Microsoft VASA-1, Generació de rostres que parlen
VASA-1, crea un marc de treball per a generar rostres parlants realistes amb habilitats afectives visuals (VAS) a partir d’una sola imatge estàtica i un clip d’àudio. VASA-1, és capaç de produir moviments de llavis perfectament sincronitzats amb l’àudio, així com de capturar una àmplia gamma de matisos facials i moviments naturals del cap que contribueixen a la percepció d’autenticitat i vitalitat. Les principals innovacions inclouen un model de generació de dinàmiques facials i moviments de cap que funciona en un espai latent facial, desenvolupat a través de l’ús de vídeos. Aquest mètode ha demostrat superar significativament a mètodes anteriors en diverses dimensions, a través d’extensos experiments i l’avaluació amb un conjunt de noves mètriques. A més, ofereix alta qualitat de vídeo amb dinàmiques facials i de cap realistes, i suporta la generació en línia de vídeos de 512×512 a fins a 40 FPS amb una latència d’inici gairebé nul·la, aplanant el camí per a interaccions en temps real amb avatars que emulen comportaments conversacionals humans.
Quant a la capacitat de control, el model de difusió accepta senyals opcionals com la direcció principal de la mirada, la distància del cap i els desplaçaments emocionals, permetent una variació en els resultats de generació sota diferents configuracions. Aquest mètode també mostra una capacitat de generalització fora de la distribució, manejant entrades fotogràfiques i d’àudio que estan fora de la distribució de l’entrenament, com a fotos artístiques i àudios de cant. A més, la representació latent desvincula l’aparença, la posició de cap 3D i les dinàmiques facials, la qual cosa permet el control i edició separats dels atributs generats.
L’eficiència en temps real és destacable, ja que aquest mètode genera marcs de vídeo de grandària 512×512 a 45 fps en mode de processament per lots fora de línia, i fins a 40 fps en mode de transmissió en línia amb una latència inicial de només 170 ms. No obstant això, és essencial reconèixer tant els riscos com les consideracions de IA responsable. Encara que l’enfocament busca aplicacions positives, existeix el risc que pugui ser mal utilitzat per a la suplantació d’identitats humanes. Reconeixent aquest potencial s’ha de desenvolupar la IA de manera responsable, amb l’objectiu d’avançar en el benestar humà i millorar la detecció de falsificacions.