Vidu, text-to-video xinès
ShengShu-AI i la Universitat de Tsinghua han presentat Vidu, un model avançat d’intel·ligència artificial que converteix text en vídeo, comparable al model Sora d’OpenAI. Desenvolupat amb l’arquitectura Universal Vision Transformer (U-ViT), Vidu pot crear videoclips d’alta definició de fins a 16 segons amb només un clic, combinant tecnologies de Diffusion i Transformer. Vidu destaca per la seva habilitat per generar escenes realistes amb detalls precisos i expressions facials complexes, a més d’integrar elements culturals xinesos com imatges del panda i el drac. Aquest llançament reforça el progrés de la Xina en l’àmbit de la intel·ligència artificial, posant-la al mateix nivell que desenvolupaments internacionals significatius.