Senza troppo clamore il 25 marzo OpenAI ha annunciato il nuovo generatore di immagini di ChatGPT 4o e di nuovo la sensazione è che tutto sia cambiato nuovamente, con tutte le grandi cose che si possono fare e con gli abusi che ne conseguono con le relative polemiche, particolarmente accese nel caso della generazione di immagini.
Ma cosa è cambiato? Quali sono le implicazioni e perché segna un nuovo passo avanti nell’AI generativa? Cerchiamo di capire le nuove funzioni e perché rappresentano una funzione assolutamente innovativa.
Indice degli argomenti
L’evoluzione da Dall-E 3 a GPT-4o image generation
Grazie a Microsoft e OpenAI ci siamo abituati tutti a utilizzare il modello DALL-E di OpenAI e anche a riconoscerne lo stile nelle immagini generate. Non penso di essere il solo ad aver desiderato anche una capacità di generazione di immagini fotorealistiche in stile Midjourney e la possibilità di includere testo in modo esatto e affidabile.
AI personalizzata per il tuo business: aumenta efficienza e vantaggio competitivo

Il nuovo modello di OpenAI sembra aver ascoltato me e molti altri e si è evoluto in queste e molte altre direzioni. In realtà non è corretto parlare di nuovo modello: GPT-4o è un modello multimodale ed ora è utilizzato per generare le immagini invece di usare un modello esterno come ha fatto finora.
Confronto tra Dall-E 3 a GPT-4o nella generazione di immagini
Ma andiamo con ordine, e per cominciare proviamo a vedere come si comportava il vecchio modello DALL-E nella generazione di immagini fotorealistiche e confrontiamolo col nuovo. Ho provato il seguente prompt:
“Puoi generare un’immagine fotografica di una rosa scattata con un macro obiettivo al tramonto. Si deve vedere il fiore in primo piano con un po’ di gambo e una foglia, in secondo piano il cespuglio, sullo sfondo una campagna con delle colline in stile fiorentino e il sole. La rosa deve avere delle gocce d’acqua come appena bagnata da una pioggia”
Il confronto tra le due immagini generate dal vecchio e dal nuovo modello rende evidente la differenza: sopra l’immagine generata da DALL-E, che ha sempre l’effetto di un poster disegnato, sotto quella da 4o image generatore che sembra a tutti gli effetti una foto.


Se proviamo a chiedere “Puoi generare un’illustrazione di “Precipitevolissimevolmente” e che mostri anche il testo?” otteniamo un’immagine decisamente artistica ma con un testo decisamente abbozzato e confuso, mentre il nuovo modello visualizza chiaramente il testo e adotta uno stile fumetto.


Da questi semplici esempi è evidente come i due modelli si comportino in maniera completamente differente: DALL-E era pensato per generare immagini di natura artistica, mentre il nuovo modello si concentra più sulla generazione di illustrazioni includendo il testo che viene trattato opportunamente.
Le immagini generate da DALL-E che rappresentano l’AI si riconoscono per la presenza di circuiti luminosi. Se chiediamo ad entrambi i modelli “Puoi generare un’immagine che rappresenti l’AI che cambia il futuro dell’umanità?” otteniamo due immagini radicalmente differenti nello stile (DALL-E a sinistra):


Le nuove capacità di GPT-4o image generation
Ma veniamo alle capacità del nuovo modello che lo rendono decisamente più capace del predecessore.
Innanzitutto, essendo il modello GPT-4o è possibile raffinare la generazione attraverso interazioni successive in modo molto più naturale di quanto fosse possibile in precedenza.
Adesso è possibile generare schemi e illustrazioni, come ad esempio la seguente generata dal prompt “Puoi generare un’infografica che spiega il motore a scoppio a 4 tempi?”:

Aprendo l’immagine generata cliccando nella chat si ha l’opportunità di richiedere modifiche all’immagine. L’immagine generata viene quindi utilizzata come parte del contesto per la generazione della nuova come nell’esempio seguente:

Si possono anche fornire una o più immagini in input per condizionare l’output generato. Se ad esempio si carica una propria foto è facile ottenerne varianti come ad esempio:
Si possono anche richiedere situazioni in un contesto differente come ad esempio in un’aula universitaria (per fortuna si vede ancora che non sono proprio io):

Si possono ovviamente richiedere immagini con personaggi storici come ad esempio Giulio Cesare e Napoleone che si stringono la mano. Ecco il risultato in due versioni, una più simile a un quadro ottocentesco ed un’altra più fotorealistica:


È possibile generare immagini con lo sfondo trasparente per creare adesivi (in tal caso sarà generata un’immagine in formato PNG che supporta la trasparenza).
Una cosa che il modello sa fare in modo eccellente è la generazione di vignette e strisce, è inoltre capace di mantenere una certa coerenza nella generazione di più immagini. Per provarlo ho provato a generare una striscia fatta di quattro immagini che raccontassero la mitica barzelletta di Gigi Proietti sul Cavaliere Nero.




La coerenza è abbastanza buona anche se si notano inconsistenze nei personaggi tra la prima e l’ultima immagine.
Vi sono poi altre applicazioni che fanno uso di queste nuove capacità e che possono essere approfondite leggendo l’annuncio di OpenAI.
Le implicazioni etiche e legali di GPT-4o image generation
Come tutte le innovazioni aumentano le possibilità e le potenzialità e di conseguenza anche i rischi. Dal rilascio è divenuto virale il far generare al nuovo modello la revisione di immagini esistenti in stile Studio Ghibli, il noto studio autore di capolavori di animazione giapponese. Lo studio ha già minacciato di far causa a OpenAI se non impedisce questo uso.
Riemergono nuovamente quindi i dubbi su come sia possibile proteggere la proprietà di certi stili senza però rendere i modelli che generano immagini sostanzialmente inutili. Già ora i modelli di OpenAI si rifiutano di generare immagini nello stile di artisti ancora in vita, non è però chiaro perché questa protezione non si applichi alle creazioni di uno studio di animazione.

Ci sono poi le preoccupazioni che già abbiamo condiviso con il maturare di Mid Journey: come è possibile distinguere immagini da realistiche a reali? Forse per questo sarebbe quantomeno auspicabile che le immagini generate fossero scaricabili in formato C2PA, nella speranza quantomeno di ridurre il fenomeno di creazione di falsi plausibili.
vantaggi e criticità di GPT-4o image generation
La generazione di immagini di GPT-4o rappresenta decisamente un passo avanti nel settore: il modello attinge a tutto il contesto per la generazione, e ora è possibile generare sia schemi fatti di grafica e testo come infografiche che immagini fotorealistiche.
Soprattutto è possibile partire da immagini esistenti e modificarle con dei semplici prompt (le implicazioni non sono poche per il settore della manipolazione di immagini). In alcuni casi mi è mancata la creatività di DALL-E, e speriamo che OpenAI mantenga un qualche modo per usare entrambi gli approcci.
La possibilità di mantenere una certa coerenza nella generazione di una sequenza di immagini consente applicazioni essenzialmente impossibili solo poche settimane fa.
Resta il problema di come tutelare coloro che inconsapevolmente hanno fornito i dati necessari all’addestramento del modello. Il dibattito è acceso, ed è oggettivo che già ora esistevano plagi, ma con questi modelli si parla della possibilità di effettuare plagi su una scala completamente diversa. È evidente che tutta la legislazione sul copyright è sostanzialmente inadeguata al mondo che si sta prefigurando, e diviene sempre più necessario trovare forme di compensazione che tutelino la proprietà intellettuale senza però bloccare lo sviluppo tecnologico. Per ora accontentiamoci di giocare con le nuove capacità per capire quali nuove applicazioni porteranno in futuro.
Scopri come l'AI Act trasforma la responsabilità nell'innovazione. Leggi il nostro whitepaper!