Microsoft VASA-1, Generación de rostros que hablan.
VASA-1, crea un marco de trabajo para generar rostros parlantes realistas con habilidades afectivas visuales (VAS) a partir de una sola imagen estática y un clip de audio. VASA-1, es capaz de producir movimientos de labios perfectamente sincronizados con el audio, así como de capturar una amplia gama de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vitalidad. Las principales innovaciones incluyen un modelo de generación de dinámicas faciales y movimientos de cabeza que funciona en un espacio latente facial, desarrollado a través del uso de vídeos. Este método ha demostrado superar significativamente a métodos anteriores en diversas dimensiones, a través de extensos experimentos y la evaluación con un conjunto de nuevas métricas. Además, ofrece alta calidad de vídeo con dinámicas faciales y de cabeza realistas, y soporta la generación en línea de vídeos de 512×512 a hasta 40 FPS con una latencia de inicio casi nula, allanando el camino para interacciones en tiempo real con avatares que emulan comportamientos conversacionales humanos.
En cuanto a la capacidad de control, el modelo de difusión acepta señales opcionales como la dirección principal de la mirada, la distancia de la cabeza y los desplazamientos emocionales, permitiendo una variación en los resultados de generación bajo diferentes configuraciones. Este método también muestra una capacidad de generalización fuera de la distribución, manejando entradas fotográficas y de audio que están fuera de la distribución del entrenamiento, como fotos artísticas y audios de canto. Además, la representación latente desvincula la apariencia, la pose de cabeza 3D y las dinámicas faciales, lo que permite el control y edición separados de los atributos generados.
La eficiencia en tiempo real es destacable, ya que este método genera marcos de vídeo de tamaño 512×512 a 45 fps en modo de procesamiento por lotes fuera de línea, y hasta 40 fps en modo de transmisión en línea con una latencia inicial de solo 170 ms. Sin embargo, es esencial reconocer tanto los riesgos como las consideraciones de IA responsable. Aunque el enfoque busca aplicaciones positivas, existe el riesgo de que pueda ser mal utilizado para la suplantación de identidades humanas. Reconociendo este potencial se debe desarrollar la IA de manera responsable, con el objetivo de avanzar en el bienestar humano y mejorar la detección de falsificaciones.