Text-to-image
Text-to-Image o generador d’imatges és una tècnica d’intel·ligència artificial que permet generar imatges a partir de descripcions escrites en text utilitzant algoritmes d’aprenentatge automàtic.
Els avanços recents en la generació d’imatges basada en IA, encapçalats per models de difusió com Dalle-2, Midjourney i Stable Diffusion, han conquistat el món de la “generació d’art amb IA”. Generar imatges d’alta qualitat a partir de descripcions de text és una tasca desafiadora.
Aquests models fan que sigui increïblement fàcil generar imatges d’alta qualitat en diversos estils utilitzant només unes poques paraules.
Podem veure una comparativa dels models generadors d’imatge més coneguts amb unes descripcions bàsiques per poder veure els resultats.
Important a mencionar que cada model treballa de manera diferent a partir de les descripcions donades i que per obtenir els millors resultats cal conèixer les característiques de cada un. Nosaltres ens centrarem més en Stable Diffusion, perquè és l’únic que és Open Source, per tant, gratuït.
Crec important ressaltar que aquests models no són cercadors d’imatges, la imatge resultant és única i creada per la intel·ligència artificial, tot i que per crear-la s’ha basat en milions d’imatges que se li ha proporcionat per entrenar el model, ho detallem a continuació:
DALL·E 3
DALL-E va ser revelat per OpenAI en una publicació de blog al gener de 2021 i utilitza una versió del model NPL GPT-3 modificat per a generar imatges. A l’abril de 2022, OpenAI va anunciar DALL-E 2, un successor dissenyat per a generar imatges més realistes a resolucions més altes que “poden combinar conceptes, atributs i estils”.
MIDJOURNEY V6
MidJourney és el nom d’un laboratori independent que investiga la intel·ligència artificial. I també és el nom que li han posat a la seva IA. L’equip d’aquesta empresa està dirigit per David Holz, també hi ha noms com Jim Keller (enginyer de processadors d’Apple, AMD, Tesla, Intel i coautor de x86-64), Nat Friedman (CEO de Github i president de la Fundació GNOME) o Philip Rosedale (fundador de Second Life).
Cal destacar que a diferència dels altres models, MidJourney només es pot utilitzar mitjançant un bot en el Discord oficial del projecte.
STABLE DIFFUSION SDXL
Stable Diffusion és el nom d’un nou model de Machine Learning de Text-to-Image creat per Stability AI, Comp Vis i LAION. Entrenat amb +5 mil milions d’imatges del dataset Laion-5B en grandària 512 per 512 píxels. El seu codi va ser alliberat al públic el 22 d’Agost de 2022 i en un arxiu de 4GB amb els pesos entrenats d’una xarxa neuronal que podem descarregar des de HuggingFace, tenim el poder de crear imatges molt diverses a partir d’una entrada de text.
En ser un producte Open Source tenim moltes possibilitats en la seva utilització, ja que fins i tot podem descarregar el model i utilitzar el nostre ordinador (sempre que compleixi uns requisits mínims), realitzar reentrenaments del model, barrejar models, crear estils diferents i una llarga llista d’opcions que anirem enumerant amb exemples i videotutorials.
Bing ha presentat “Bing Image Creator”, que permet crear imatges a partir de paraules en el seu xat.
Funcions:
– Utilitza el model DALL-E avançat d’OpenAI per a generar imatges basades en l’entrada de text.
– La funció s’integrarà en el xat de Bing i Microsoft Edge, la qual cosa converteix a Edge en el primer navegador amb un generador d’imatges de IA incorporat.
– Microsoft s’adhereix als principis de IA responsable, implementant mesures de seguretat per a limitar la creació d’imatges nocives o insegures.
– Inicialment, la funció estarà disponible en anglès, i més endavant s’agregaran més idiomes.
Juntament amb aquesta increïble actualització, també llancen Stories, un resum visual impulsat per IA en el qual pots fer clic per a obtenir més informació sobre el tema que està buscant. A més de Knowledge Cards 2.0, una experiència inspirada en infografia impulsada per IA que brinda dades divertides i informació clau en segons.
Aquestes actualitzacions són significatives perquè és la primera vegada que les imatges generatives arribaran a les masses.
Computer vision és una branca de la intel·ligència artificial que se centra en el desenvolupament de sistemes computacionals que puguin analitzar, interpretar i comprendre imatges i vídeo. S’utilitza per a resoldre una àmplia gamma de problemes, incloent-hi la identificació d’objectes i persones en imatges, la detecció d’anomalies i la generació de descripcions d’imatges. L’objectiu de la computer vision és fer que les màquines tinguin la capacitat de “veure” i comprendre el món que els envolta, com el fan els éssers humans.
YOLO V8
L’algoritme You Only Look Onze (YOLO), és un sistema de codi obert per a detecció d’objectes en temps real, el qual fa ús d’una única xarxa neuronal convolucional per a detectar objectes en imatges. Per al seu funcionament, la xarxa neuronal divideix la imatge en regions, predient quadres d’identificació i probabilitats per cada regió; les caixes són ponderades a partir de les probabilitats predites. L’algoritme aprèn representacions generalitzables dels objectes, permetent un baix error de detecció per a entrades noves, diferents al conjunt de dades d’entrenament.
BLIP – 2
BLIP-2 és un nou marc de pre-capacitació per a la comprensió i generació unificades del llenguatge de visió, que aconsegueix resultats d’avantguarda en una àmplia gamma de tasques del llenguatge de visió.
En definitiva, aquest model és capaç de respondre qüestions que se li fan sobre una imatge, per exemple una imatge on surt la Sagrada Família, li podem preguntar quina ciutat és, i ens respondrà Barcelona.
La pre-capacitació del llenguatge de visió té com a objectiu utilitzar dades de text d’imatge per a ensenyar a un model la capacitat de comprendre conjuntament informació visual i textual.
FULL SELF DRIVING (FSD) – TESLA
Lògicament, queden una infinitat de temes per tocar dins de la Imatge to Text i Computer Vision, a partir d’aquí continuarem indicant explicacions i novetat dins dels butlletins i si s’escau afegirem contingut en aquesta secció.