Wan 2.1 crea vídeos realistes utilitzant text

Alibaba ha presentat recentment Wan 2.1, una eina avançada desenvolupada per Tongyi Lab, capaç de crear vídeos realistes a partir de textos, imatges i senyals de control. Aquest potent model visual ara és completament open-source, permetent que qualsevol persona l’utilitzi per generar contingut visual amb qualitat cinematogràfica des dels seus dispositius personals.

Què fa especial el model Wan 2.1?

La sèrie Wan 2.1 destaca per la seva capacitat per crear vídeos amb moviments complexos i realistes. Des d’escenes dinàmiques de ball hip-hop, passant per curses de bicicletes amb gossos com a protagonistes, fins a baralles de boxa entre gats, cada vídeo és capaç de simular moviments fluids i transicions que abans requerien un gran esforç de producció.

Simulació física realista

Aquest model no només genera moviments complexos, sinó que també simula interaccions físiques reals. Pot mostrar, per exemple, un gos tallant tomàquets en una cuina acollidora, o l’explosió realista d’un globus ple d’aigua que esquitxa en totes direccions, la qual cosa reflecteix la precisió en la simulació d’objectes i la seva interacció amb l’entorn.

Qualitat cinematogràfica al teu abast

Wan 2.1 és especialment conegut per produir vídeos d’alta qualitat visual, semblants als de pel·lícules professionals. Això inclou des d’aventures submarines, fins a escenes de terror còmic amb monstres dels anys vuitanta, i fins i tot situacions surrealistes, com un jove flotant damunt de camps assolellats. Tot això, amb un estil visual i efectes cinematogràfics únics.

Edició avançada i generació visual de textos

Una de les característiques més innovadores és la seva capacitat per editar vídeos amb precisió utilitzant imatges o vídeos com a referència. A més, Wan 2.1 és pioner en la generació dinàmica de textos visuals, permetent crear efectes de text animats tant en anglès com en xinès.

Compatibilitat amb equips personals

El que fa que Wan 2.1 sigui una eina realment accessible és la seva eficiència, ja que alguns models, com el T2V-1.3B, només requereixen una targeta gràfica domèstica amb 8,19 GB de VRAM. En aproximadament quatre minuts, aquest model pot generar un vídeo de 5 segons amb resolució 480p, acostant les capacitats cinematogràfiques als usuaris domèstics.

Tecnologia innovadora darrere de Wan 2.1

Aquest model combina estratègies avançades com l’arquitectura 3D d’autoencoder variacional (VAE), capaç de codificar i descodificar vídeos extensos mantenint una alta qualitat i eficiència en la generació. A més, empra tècniques avançades d’entrenament i paral·lelisme de models que permeten gestionar vídeos llargs sense comprometre’n el rendiment.

Aplicacions pràctiques i creatives

Gràcies a la seva flexibilitat, Wan 2.1 obre oportunitats creatives il·limitades. Des d’animar fotografies estàtiques fins a crear escenes imaginàries i de gran impacte visual, aquest model està dissenyat per satisfer tant les necessitats professionals com les creatives, generant contingut audiovisual innovador des de la comoditat de casa.

Preguntes freqüents

Quins equips necessito per fer servir Wan 2.1?

Pots utilitzar Wan 2.1 amb targetes gràfiques comunes com la RTX 4080, que només requereix 8,19 GB de VRAM.

Puc generar vídeos a partir d’imatges?

Sí, Wan 2.1 permet convertir imatges estàtiques en vídeos animats combinant-les amb indicacions textuals.

Quina resolució tenen els vídeos generats?

La resolució pot arribar fins a 720p, depenent del model específic utilitzat dins de Wan 2.1.