intelligenza artificiale

Generatori di immagini AI, qual è il migliore? Il confronto

I generatori di immagini IA stanno ridefinendo i confini della creatività. Un confronto tra i giganti del settore – DALL-E 3 e Midjourney – e le nuove promesse Imagen 3 e FLUX, in una sfida che cambierà il futuro dell’arte digitale

Pubblicato il 6 nov 2024

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

Quando si parla di intelligenza artificiale generativa si pensa subito alla quantità di infinite possibilità che tale tecnologia, alla portata di tutti, sa produrre. Tra le sue capacità, quella di creare immagini sta riscuotendo un notevole successo. Talmente notevole da essere diventato il “campo di battaglia” tra diversi competitor del settore. Vediamone insieme alcuni.

La guerra del design: Canva, Microsoft Designer e Midjourney si preparano a cambiare il gioco

Indice degli argomenti

DALL-E 3 e Midjourney

Calando subito il poker d’assi, possiamo dire che DALL-E 3 di casa OpenAI e Midjourney sono due dei più grandi “generatori di arte artificiale” che si possano utilizzare in questo momento. Entrambi sono in grado di ricevere una richiesta di testo e di generare una serie di immagini corrispondenti, indipendentemente da quanto strana o paradossale sia la richiesta.
Sia DALL-E 3 che Midjourney sono stati addestrati su miliardi di coppie testo-immagine, il che consente loro di comprendere concetti molto eterogenei tra loro. È così che essi possono analizzare quando, tramite testo, chiediamo loro di creare “un dipinto a olio impressionista di un uomo canadese che cavalca un alce in una foresta di aceri”.

La tecnica utilizzata da DALL-E 3 e Midjourney

Quando si tratta di generare effettivamente le immagini, tali modelli utilizzano un processo chiamato diffusione. Iniziano con un campo di “rumore casuale” e poi, in una serie di passaggi, lo modificano per adattarlo meglio alla loro interpretazione della richiesta. Questo è il motivo per cui si possono ottenere risultati diversi ogni volta, anche se si prova lo stesso prompt una seconda volta: la casualità del punto di partenza può cambiare completamente il risultato finale.

Naturalmente, il fatto che sia da DALL-E che da Midjourney utilizzino la stessa tecnica per generare le immagini non significa che si otterranno risultati simili. Il modo in cui ogni modello interpreta le richieste, il peso che attribuisce ai vari parametri, i dati su cui è stato addestrato, il tipo di immagini che cerca di ricreare e le filosofie delle aziende responsabili dello sviluppo influenzano in modo massiccio l’aspetto del risultato.

Come usare Dall-E 3

DALL-E 3 è disponibile tramite ChatGPT, Bing Image Creator, Microsoft Paint e altri servizi che utilizzano le sue API. Tutti offrono un’esperienza sostanzialmente simile, anche se ci sono alcune differenze. ChatGPT include un editor che consente di regolare l’immagine, mentre Bing Image Creator genera quattro immagini per impostazione predefinita e consente di esportarle in Microsoft Designer. ChatGPT è, come sappiamo, l’opzione “ufficiale”, più bella da usare e con un set di funzioni più incentrato sull’Intelligenza Artificiale. Tuttavia, per accedere a ChatGPT in modo significativo è necessario essere abbonati a ChatGPT Plus (al costo di circa ventidue euro al mese).
Anche se esistono diversi modi per accedere a DALL-E 3, le basi funzionano più o meno allo stesso modo e sono tutte incredibilmente semplici: basta chiedere a DALL-E 3 di creare un’immagine per voi. Se non si ha idea di cosa si vuol trovare, ci sono alcuni suggerimenti di stili diversi da provare, anche se aggiungono semplicemente la parola chiave alla richiesta. Vale anche la pena di notare che DALL-E 3 migliora le richieste, a meno che non gli si dica esplicitamente di non farlo. Nella maggior parte delle situazioni, questo vi permetterà di ottenere immagini più forti, ma se state cercando qualcosa di specifico, può creare confusione.

Come funziona Midjourney

Midjourney, invece, funziona più o meno allo stesso modo, anche se presenta ancora alcune “stranezze”. In origine, l’unico modo per utilizzarlo era attraverso Discord, un’applicazione di messaggistica e gaming, ma ora è possibile accedere anche con un account Google. Midjourney offre occasionalmente prove gratuite ma, per la maggior parte, è necessario sottoscrivere un piano a pagamento per utilizzarlo. Una volta entrati, basta inserire ciò che si vuole che Midjourney crei nella barra delle immagini e il programma genererà quattro opzioni. Semplice, almeno fino a quando non si iniziano ad approfondire le opzioni di Midjourney.

Midjourney batte tutti in “potenza”: ecco cosa fa meglio di Dall-E 3

Affrontando, invece, il discorso “potenza”, tra tutti i generatori di immagini in circolazione, Midjourney è quello che offre di più, almeno se non si è pronti ad addestrare il proprio modello personalizzato. Di seguito un elenco di alcune delle cose che si possono fare in Midjourney e che non si possono fare in DALL-E 3:
• controllare quanto Midjourney applichi il suo stile predefinito, quanto possa essere strano e quanta varietà ci sia tra le immagini;
• scegliere tra diverse versioni del modello Midjourney, tra cui una adattata per es. all’arte in stile Anime;
• utilizzare le immagini come base di un prompt, come riferimento stilistico e come riferimento del personaggio;
• prendere qualsiasi immagine generata e creare variazioni iterative con o senza modificare il prompt;
• espandere qualsiasi immagine generata in qualsiasi direzione, cambiarne le proporzioni o ingrandirla;
• creare uno stile personalizzato classificando le immagini in modo che Midjourney sappia cosa piace all’utente.
E questa è solo una piccola parte della superficie. “Scavando” in Midjourney, è possibile trovare un sacco di altri modi in cui è possibile modificare, combinare e rendere creativi i diversi elementi tra loro. DALL-E 3 non si avvicina neanche lontanamente a questo set di funzioni, anche se le sue opzioni di editing sono migliorate in modo significativo dal suo lancio. La prima opzione è quella di chiedere a ChatGPT di rieseguire un prompt leggermente diverso con le modifiche desiderate, il che può essere difficile da realizzare.

I punti di forza di DAll-E 3

Nonostante ciò, sia DALL-E 3 che Midjourney sono in grado di creare immagini incredibili. DALL-E 3 è più semplice e veloce da usare, ma il controllo sui risultati è molto minore. Midjourney può diventare rapidamente complicato, ma si ha molto più controllo sull’aspetto delle cose. Tuttavia, ci sono alcune differenze che meritano di essere notate. DALL-E 3, dal momento che si integra con ChatGPT, fa un ottimo lavoro nell’interpretare le richieste. Sembra in grado di gestire meglio sia le richieste più brevi che quelle più lunghe e complicate. Non è che Midjourney sbagli molto spesso, ma ci vuole molto più controllo da parte dell’utente.

Gli astri nascenti del settore: Imagen 3 e Flux

Avendo parlato della rivalità tra DALL-E e Midjourney, non possiamo non accennare a un altro “scontro”, che potremmo definire “tra astri nascenti” del settore: Imagen 3 di Google e FLUX di Black Forest Labs. Entrambi promettono di rivoluzionare il modo in cui creiamo contenuti visivi, ma come si collocano l’uno rispetto all’altro?

Qualità delle immagini

Per quanto riguarda la qualità delle immagini, sia Imagen 3 che FLUX stanno spingendo i confini di ciò che è possibile fare con le immagini generate dall’intelligenza artificiale.

Imagen 3 brilla per la sua capacità di produrre immagini altamente fotorealistiche. Eccelle nella creazione di texture dettagliate, illuminazione accurata e generazione di scene complesse. La migliore comprensione dei suggerimenti del modello gli consente di cogliere sfumature come angolazioni o composizioni specifiche della telecamera, ottenendo immagini straordinariamente realistiche. FLUX, invece, è stato lodato per la sua eccezionale qualità e varietà di immagini.

Velocità di generazione delle immagini

Parlando di velocità, Imagen 3 vanta tempi di generazione più rapidi, ottimizzati per l’uso su larga scala nell’ecosistema di Google. FLUX, in particolare il modello FLUX.1, è ottimizzato per la velocità e l’efficienza. È descritto come il modello a pochi passi più avanzato, che supera in velocità anche i potenti modelli sul mercato. Questo round è un pareggio, con entrambi i modelli che offrono una velocità impressionante a modo loro.

Etica e sicurezza

Man mano che l’Intelligenza Artificiale diventa più potente, l’uso etico e le caratteristiche di sicurezza sono sempre più importanti. Imagen 3 è stato costruito con le più recenti innovazioni di Google in materia di sicurezza e responsabilità. Include un ampio filtraggio, l’etichettatura dei dati per ridurre al minimo i contenuti dannosi e protocolli etici avanzati. È inoltre dotato di SynthID, uno strumento di watermarking per l’identificazione delle immagini.

L’approccio di FLUX alle considerazioni etiche e alle caratteristiche di sicurezza non è, invece, esplicitamente dettagliato nelle informazioni fornite. Imagen 3 si aggiudica questo round grazie al suo impegno chiaramente dichiarato nei confronti dell’Intelligenza Artificiale etica e delle funzioni di sicurezza.

Imagen 3 o FLUX? Quale scegliere e perché

Sia Imagen 3 che FLUX apportano capacità impressionanti e la scelta tra i due dipende in gran parte dalle esigenze specifiche dell’utente.

Imagen 3 si distingue per i suoi risultati fotorealistici, l’integrazione con l’ecosistema di Google e le forti considerazioni etiche. È una scelta eccellente per le aziende che hanno già investito nei prodotti di Google e per quelle che danno priorità alle funzioni di sicurezza. FLUX convince per la qualità d’immagine costantemente elevata, l’offerta di modelli diversi e l’accessibilità.

È una scelta versatile che si rivolge a un’ampia gamma di utenti, dai singoli creatori alle grandi organizzazioni. In definitiva, il vincitore della battaglia tra Imagen 3 e FLUX può dipendere dalle preferenze personali e dai casi d’uso specifici. Entrambi i modelli stanno spingendo i confini della generazione di immagini AI e gli utenti sono i veri vincitori con strumenti così potenti a loro disposizione.

Con la continua evoluzione del panorama dell’Intelligenza Artificiale, possiamo aspettarci che Imagen 3 e FLUX continuino a migliorare, potenzialmente ridisegnando il futuro della creazione di contenuti visivi. Insomma, sia che si scelga Imagen 3 o che si scelga FLUX, sarà possibile entrare in un mondo di possibilità creative senza precedenti.

@RIPRODUZIONE RISERVATA