Què és DALL·E 2?

DALL·E 2 és un programa d'intel·ligència artificial que crea imatges a partir de descripcions textuals, revelat dijous per OpenAI, una empresa de recerca.

Utilitza una versió d'entrenament de 12.000 milions de paràmetres del model de transformador GPT-3 per interpretar les entrades del llenguatge natural i generar les imatges corresponents. Per exemple, quan s'ofereix la frase 'una foto en blanc i negre d'un gos petit', va produir una imatge correctament en blanc i negre d'un chihuahua.

El sistema no és perfecte: de vegades produeix imatges difícils d'interpretar o completament fora de marca. Per exemple, quan se li va demanar que generes una imatge d''una persona muntant un monocicle sobre una corda fluixa sobre un volcà', va produir una imatge (bella, al meu entendre), però completament no relacionada, d'una posta de sol sobre l'aigua amb una petita figura en primer pla. .

Tot i així, els resultats són impressionants i OpenAI diu que DALL·E 2 'és el primer model d'IA que genera imatges a partir de descripcions textuals que poden rivalitzar amb la qualitat dels artistes humans professionals'.

El sistema es va entrenar en un conjunt de dades de parells de text-imatge, format per uns 1,3 milions d'imatges i subtítols d'Internet que van ser raspats i seleccionats per OpenAI. Aleshores, les dades d'entrenament es van utilitzar per ajustar el model GPT-3 de manera que pogués generar imatges a partir de descripcions textuals.

OpenAI diu que el sistema pot generar imatges 'd'alta qualitat' a partir d'una àmplia gamma de descripcions textuals, incloses aquelles que són abstractes, concretes o fins i tot poètiques.

A més de l'exemple de Chihuahua, altres exemples d'imatges produïdes per DALL·E 2 inclouen un retrat correctament representat d'Adolf Hitler, una imatge d'un drac fet amb verdures i una imatge de la Mona Lisa feta amb pa torrat.

El sistema també és capaç de generar imatges de coses que no existeixen, com ara un 'floof' (un animal inventat) o una 'tulpa' (una forma de pensament).

En general, els resultats són impressionants, i OpenAI diu que el sistema 'obre noves possibilitats per generar imatges a partir de descripcions textuals'.

DES DE E 2 Això Sistema CLIP converteix la informació de text en informació visual. Aquest és un paradigma codificador-descodificador, el que significa que quan es proporciona text d'entrada, primer es converteix en entrada de màquina, després el sistema el processa i finalment es passa al descodificador, que converteix les dades codificades en una imatge.

Què és DALL E 2

Què és DALL·E 2?

Aquesta és l'última generació de DALL·E, un model de llenguatge generatiu que utilitza frases per crear efectes visuals completament nous. El DALL E 2 és un model enorme de 3,5 V, tot i que no és tan massiu com el GPT-3. Curiosament, també és més lleuger que el seu predecessor (12B). Pel que fa a l'alineació de la descripció i el fotorealisme, DALL·E 2 és un 70% millor que DALL·E 2 malgrat la seva mida més gran.

DALL.E 2- explicació per a principiants amb exemples

Concretament, DALL·E 2 és un model de síntesi d'imatges de text condicional jeràrquic que combina l'aprenentatge profund per al processament del llenguatge natural amb la visió per ordinador per a la generació d'imatges. El seu objectiu és entrenar dos models, i el conjunt d'entrenament consta d'imatges i descripcions aparellades. El primer és un a priori que, donat un títol escrit, es pot entrenar per generar una imatge CLIP incrustada. Aleshores tenim un descodificador que, en incrustar una imatge CLIP (i un subtítol, si n'hi ha), pot generar una imatge entrenada.

DALLE 2 s'entrena utilitzant centenars de milions de fotos amb subtítols d'Internet, i algunes d'aquestes imatges s'eliminen i es reorganitzen per canviar el que el model aprèn. Recupera diverses opcions d'imatge Adjunts CLIP i després utilitzar-lo descodificador passar per cadascun d'ells. Aleshores, crea una barreja interessant de tota aquesta informació donada l'entrada de l'usuari.

Exemple DALL IS 2

Fem un petit joc per entendre DALL·E. Desglossem-ho en els tres passos següents.

Imagineu arcs de Sant Martí, núvols i unicorns volant al cel blau. Imagineu com podria ser una imatge en la vostra imaginació. Les persones són el més semblant que tenim a l'analògic perfecte d'una inserció d'imatge, i la imatge que t'acaba de sortir al cap és un exemple perfecte d'això. Només podeu endevinar sobre el producte final, però teniu una bona idea del que s'ha d'incloure. El model a priori porta el lector de les paraules d'una frase a una escena de la seva imaginació.
Ara pots començar a dibuixar. El que fa unCLIP és convertir la teva imatge mental en un esbós real. Ara podeu recrear amb precisió un altre personatge de la mateixa descripció, amb les mateixes estadístiques bàsiques, però amb un estil visual completament nou. DALL·E 2 també pot generar imatges úniques a partir d'una imatge existent incrustada d'aquesta manera.
Fixeu-vos en l'esbós que heu fet. Això és el que passa quan esbossa la descripció d''un unicorn al mig dels núvols i un arc de Sant Martí s'aixeca contra el cel'. Ara examineu la imatge i el text per determinar què il·lustra millor l'altre (sol, casa, arbre, etc.) i què il·lustra millor el tema, l'estil, els colors, etc. El que fa CLIP és codificar característiques. text i imatges.

Ara que sabem què és DALL-E, passem a la següent secció i entenem les seves característiques.

Consell: Com crear imatges realistes amb el servei DALL-E-2 AI

Característiques DALL E 2

A continuació es mostren les especificacions de DALL·E 2.

Variacions
Acolorir
Diferències de text

Parlem-ne amb detall.

com fer targetes de visita al word 2010

1] Variacions

DALL·E 2 va més enllà de la simple traducció d'una frase a una imatge. OpenAI pot experimentar amb el procés generatiu, produint resultats diferents per a una signatura determinada gràcies a les incrustacions CLIP robustes. El que CLIP 'veu' a la seva 'ment' és allò que considera important des de l'entrada (és igual per a totes les imatges) i allò que es pot substituir (que canvia per a diferents imatges). Sempre que sigui possible, DALL·E 2 conservarà tant 'informació significativa... com aspectes estètics'.

2] Pintar

DALL·E 2 pot modificar les fotos existents amb l'emplenament automàtic. A l'exemple següent, la imatge de l'esquerra és la imatge original, i les fotos del centre i de la dreta tenen l'element dibuixat en diferents llocs. DALL·E 2 coincideix amb un element addicional a l'estil d'imatge. També actualitza textures i reflexos per reflectir el nou element.

Llegeix : Què pots fer amb ChatGPT

3] Diferències de text

DALL·E 2 converteix imatges utilitzant diferències de text. DALL·E 2 també té capacitats d'interpolació avançades que us permeten modificar objectes. Un usuari de Twitter va poder 'desmordenitzar' el seu iPhone. twitter.com per comprovar-ho.

Si t'agraden aquestes funcions, només has d'anar a openai.com i després registrar-se. Podeu crear un compte nou o utilitzar els vostres comptes de Microsoft o Google existents per registrar-vos. Un cop ho feu, obtindreu alguns crèdits gratuïts, si en voleu més, haureu de pagar-ho.

Aquestes són algunes de les característiques de DALL·E 2, té molts casos d'ús fantàstics, però sempre es recomana no confiar massa en les eines d'IA. Al cap i a la fi, no són més que eines utilitzades per fer la feina, mai poden substituir la intel·ligència emocional d'una persona.

Llegeix també: Les millors aplicacions, programari i llocs web de Deepfake.