GPT-4o ja genera bones imatges a ChatGPT
OpenAI ha activat oficialment la funció nativa de generació d’imatges a GPT-4o, el seu model multimodal llançat el maig de 2024. Aquesta actualització ja està disponible per als usuaris de ChatGPT en els plans Free, Plus, Pro i Team, i s’integrarà aviat a les versions Enterprise, Edu i a l’API. A diferència del seu predecessor, DALL·E 3, que utilitzava un sistema de difusió clàssic per reconstruir imatges a partir de text, GPT-4o genera imatges com a part del seu propi model multimodal, cosa que ofereix més precisió, detall i realisme.
Gràcies a aquesta integració total, els usuaris poden mantenir converses naturals amb el model, sol·licitar edicions específiques i obtenir resultats visuals millorats en pocs segons. Aquesta nova versió també és capaç d’interpretar amb exactitud les sol·licituds més complexes, adaptar-se a múltiples estils artístics i mantenir la coherència visual al llarg d’una interacció.
Els resultats han deixat una gran impressió a la comunitat. Usuaris afirmen que la qualitat és “increïble”, i experts com Allie K. Miller el cataloguen com “el millor model de generació d’imatges” fins ara. Aquesta millora també amplia les capacitats del model a Sora, la plataforma de creació de vídeos d’OpenAI, reforçant així el seu enfocament multimodal.
GPT-4o pot generar imatges que inclouen text precís, seguir instruccions complexes amb fidelitat i treballar sobre creacions anteriors per conservar l’estil i la coherència. A més, admet indicacions sobre proporcions, colors específics i transparència, generant imatges en menys d’un minut.
Entre les seves aplicacions clau hi ha el disseny de logotips, material educatiu com infografies, desenvolupament de videojocs amb coherència visual, i creació de contingut per a màrqueting. També destaca per superar limitacions de models anteriors: ara és capaç d’incorporar text clar dins de les imatges, entendre el context de la conversa, gestionar múltiples objectes (fins a 20 en una mateixa escena), i adaptar-se a diversos estils visuals.
Tanmateix, encara hi ha reptes. Algunes imatges grans poden aparèixer retallades, els caràcters no llatins poden presentar errors, i el text petit podria perdre detall. L’edició de zones específiques també pot afectar altres àrees no desitjades. OpenAI està treballant activament per resoldre aquestes qüestions.
Pel que fa a la seguretat, totes les imatges generades inclouen metadades C2PA per verificar-ne l’origen i compten amb filtres per evitar continguts nocius. També s’han imposat restriccions addicionals a imatges que incloguin persones reals.
Segons Sam Altman, CEO d’OpenAI, aquesta evolució representa “un nou punt de referència per a la llibertat creativa”, permetent als usuaris generar contingut visual amb més llibertat i control.
Preguntes i Respostes
Què diferencia GPT-4o de DALL·E 3?
GPT-4o integra la generació d’imatges en el mateix model que processa text i codi, cosa que permet obtenir resultats molt més coherents, detallats i realistes que els de DALL·E 3, que utilitzava un model de difusió tradicional.
Quins estils pot generar GPT-4o?
El model és capaç d’adaptar-se a una gran varietat d’estils, des d’esbossos a mà fins a imatges fotogràfiques d’alta resolució, segons les indicacions que proporcioni l’usuari.
Quines limitacions té actualment GPT-4o?
Algunes imatges grans poden aparèixer retallades, els caràcters no llatins poden no mostrar-se correctament i els textos petits poden perdre claredat. També pot haver-hi imprecisions en editar àrees específiques d’una imatge.
Està disponible per a tots els usuaris?
Sí, la funció de generació d’imatges de GPT-4o ja està habilitada per als usuaris de ChatGPT en les versions Free, Plus, Pro i Team. Aviat també s’integrarà a Enterprise, Edu i l’API d’OpenAI.