Sora vs Kling

El nou model de vídeo d’IA anomenat Kling sembla oferir moltes de les mateixes característiques que van fer que Sora d’OpenAI destaqués quan va ser anunciat a principis d’aquest any. Kling ha estat desenvolupat per la companyia xinesa de la plataforma de vídeo Kuaishou i les seves característiques inclouen la generació de vídeos més llargs, millora en el moviment, millor seguiment d’indicacions i seqüències de múltiples preses. A diferència de Sora, Kling sembla estar disponible per als usuaris a través d’una llista d’espera.

Característiques principals de Kling:

  • Generació de vídeos de fins a dos minuts a partir d’una sola ordre en 1080p a 30 fotogrames per segon.
  • Simulació precisa de la física del món real, una cosa amb la qual la majoria dels models d’IA tenen dificultats.
  • Model de transformador de difusió similar a Sora.
  • Suport per a una gamma de relacions d’aspecte i tipus de preses.
  • Reconstrucció avançada en 3D de cares i cossos per millorar l’expressió facial completa i el moviment de les extremitats en els vídeos.

A més de les seves característiques generatives, Kling és capaç de reconstrucció avançada en 3D de cares i cossos per millorar l’expressió facial completa i el moviment de les extremitats dins del vídeo, segons va explicar la companyia al seu lloc web.

Disponibilitat i competència: Encara que OpenAI va presentar Sora al febrer, encara no està àmpliament disponible per al públic. No obstant això, un nombre creixent de creadors l’està utilitzant, incloent cinc cineastes guardonats que estrenaran curtmetratges fets amb Sora al Festival de Cinema de Tribeca la setmana que ve. D’altra banda, encara no sabem si Kling, o fins i tot l’altre gran model de vídeo d’IA xinès, Vidu, estaran disponibles fora de la Xina, la qual cosa podria ser un avantatge per a OpenAI a Occident.

Demostracions i qualitat del vídeo: Entre els clips compartits de Kling, hem vist un llarg clip d’un nen en bicicleta, un cavall al desert, algú menjant fideus i un vídeo fotorrealista d’un nen gaudint d’una hamburguesa. La part més impressionant dels vídeos és el fotorrealisme. En alguns clips, pateixen d’un desenfocament similar al que veiem en altres vídeos d’IA, però no en la mateixa escala. Hi ha un clip d’un lloro que seria difícil dir que no és real i encara no estic segur que no hagin falsificat el vídeo de l’hamburguesa. En una demostració de llet vessada en un got de cafè, Kling semblava fer-ho correctament, la qual cosa mostra la seva capacitat per crear un moviment precís i modelar millor el moviment i la física del món real.

Impacte en Sora i el mercat de la IA: Espero que la companyia consideri un llançament més ampli, fent-lo disponible fora de la Xina, ja que la competència és bona per a la creativitat i la innovació. Llançar-lo podria empènyer OpenAI a alliberar Sora més ràpid del planejat actualment. OpenAI també enfronta competència de jugadors existents com Runway i Pika Labs, que estan millorant les seves ofertes. També hi ha nous participants com Haiper, LTX Studio i Higgsfield, cadascun abordant el vídeo d’IA de diferents maneres, i Google amb el seu nou model Veo.

La realitat és que el retard d’OpenAI no és per disponibilitat tècnica sinó per seguretat. La companyia diu que vol assegurar que el model no pugui ser usat per desinformació o propòsits maliciosos abans d’oferir-lo al públic en general. També necessiten fer-lo més ràpid i més barat.