intelligenza artificiale

GPT-4o image generation, salto di qualità nelle immagini AI: guida a funzioni e novità



Indirizzo copiato

Il nuovo modello GPT-4o di OpenAI segna un’evoluzione significativa nella generazione di immagini, con capacità fotorealistiche e possibilità di includere testo in modo preciso, superando le limitazioni di DALL-E

Pubblicato il 31 mar 2025

Antonio Cisternino

Università di Pisa



intelligenza artificiale e integrale (1)

Senza troppo clamore il 25 marzo OpenAI ha annunciato il nuovo generatore di immagini di ChatGPT 4o e di nuovo la sensazione è che tutto sia cambiato nuovamente, con tutte le grandi cose che si possono fare e con gli abusi che ne conseguono con le relative polemiche, particolarmente accese nel caso della generazione di immagini.

4o Image Generation in ChatGPT and Sora

Ma cosa è cambiato? Quali sono le implicazioni e perché segna un nuovo passo avanti nell’AI generativa? Cerchiamo di capire le nuove funzioni e perché rappresentano una funzione assolutamente innovativa.

L’evoluzione da Dall-E 3 a GPT-4o image generation

Grazie a Microsoft e OpenAI ci siamo abituati tutti a utilizzare il modello DALL-E di OpenAI e anche a riconoscerne lo stile nelle immagini generate. Non penso di essere il solo ad aver desiderato anche una capacità di generazione di immagini fotorealistiche in stile Midjourney e la possibilità di includere testo in modo esatto e affidabile.

WEBINAR

AI personalizzata per il tuo business: aumenta efficienza e vantaggio competitivo

Computer Vision
Intelligenza Artificiale Generativa
Iscriviti al Webinar

Il nuovo modello di OpenAI sembra aver ascoltato me e molti altri e si è evoluto in queste e molte altre direzioni. In realtà non è corretto parlare di nuovo modello: GPT-4o è un modello multimodale ed ora è utilizzato per generare le immagini invece di usare un modello esterno come ha fatto finora.

Confronto tra Dall-E 3 a GPT-4o nella generazione di immagini

Ma andiamo con ordine, e per cominciare proviamo a vedere come si comportava il vecchio modello DALL-E nella generazione di immagini fotorealistiche e confrontiamolo col nuovo. Ho provato il seguente prompt:

“Puoi generare un’immagine fotografica di una rosa scattata con un macro obiettivo al tramonto. Si deve vedere il fiore in primo piano con un po’ di gambo e una foglia, in secondo piano il cespuglio, sullo sfondo una campagna con delle colline in stile fiorentino e il sole. La rosa deve avere delle gocce d’acqua come appena bagnata da una pioggia”

Il confronto tra le due immagini generate dal vecchio e dal nuovo modello rende evidente la differenza: sopra l’immagine generata da DALL-E, che ha sempre l’effetto di un poster disegnato, sotto quella da 4o image generatore che sembra a tutti gli effetti una foto.

Immagine che contiene pianta, cielo, petalo, rosaIl contenuto generato dall'IA potrebbe non essere corretto.

Se proviamo a chiedere “Puoi generare un’illustrazione di “Precipitevolissimevolmente” e che mostri anche il testo?” otteniamo un’immagine decisamente artistica ma con un testo decisamente abbozzato e confuso, mentre il nuovo modello visualizza chiaramente il testo e adotta uno stile fumetto.

Immagine che contiene dipinto, disegno, arte, cartone animatoIl contenuto generato dall'IA potrebbe non essere corretto.

Da questi semplici esempi è evidente come i due modelli si comportino in maniera completamente differente: DALL-E era pensato per generare immagini di natura artistica, mentre il nuovo modello si concentra più sulla generazione di illustrazioni includendo il testo che viene trattato opportunamente.

Le immagini generate da DALL-E che rappresentano l’AI si riconoscono per la presenza di circuiti luminosi. Se chiediamo ad entrambi i modelli “Puoi generare un’immagine che rappresenti l’AI che cambia il futuro dell’umanità?” otteniamo due immagini radicalmente differenti nello stile (DALL-E a sinistra):

Immagine che contiene Veicolo terrestre, veicolo, arteIl contenuto generato dall'IA potrebbe non essere corretto.
Immagine che contiene testo, poster, narrativa, Cartoni animatiIl contenuto generato dall'IA potrebbe non essere corretto.

Le nuove capacità di GPT-4o image generation

Ma veniamo alle capacità del nuovo modello che lo rendono decisamente più capace del predecessore.

Innanzitutto, essendo il modello GPT-4o è possibile raffinare la generazione attraverso interazioni successive in modo molto più naturale di quanto fosse possibile in precedenza.

Adesso è possibile generare schemi e illustrazioni, come ad esempio la seguente generata dal prompt “Puoi generare un’infografica che spiega il motore a scoppio a 4 tempi?”:

Immagine che contiene schermata, testo, strumentoIl contenuto generato dall'IA potrebbe non essere corretto.

Aprendo l’immagine generata cliccando nella chat si ha l’opportunità di richiedere modifiche all’immagine. L’immagine generata viene quindi utilizzata come parte del contesto per la generazione della nuova come nell’esempio seguente:

Immagine che contiene schermata, testo, caricatore, telefonoIl contenuto generato dall'IA potrebbe non essere corretto.

Si possono anche fornire una o più immagini in input per condizionare l’output generato. Se ad esempio si carica una propria foto è facile ottenerne varianti come ad esempio:
Immagine che contiene testo, Viso umano, poster, personaIl contenuto generato dall'IA potrebbe non essere corretto.

Si possono anche richiedere situazioni in un contesto differente come ad esempio in un’aula universitaria (per fortuna si vede ancora che non sono proprio io):

Immagine che contiene testo, vestiti, abito, uomoIl contenuto generato dall'IA potrebbe non essere corretto.

Si possono ovviamente richiedere immagini con personaggi storici come ad esempio Giulio Cesare e Napoleone che si stringono la mano. Ecco il risultato in due versioni, una più simile a un quadro ottocentesco ed un’altra più fotorealistica:

Immagine che contiene vestiti, Viso umano, persona, uomoIl contenuto generato dall'IA potrebbe non essere corretto.
Immagine che contiene vestiti, persona, nuvola, Viso umanoIl contenuto generato dall'IA potrebbe non essere corretto.

È possibile generare immagini con lo sfondo trasparente per creare adesivi (in tal caso sarà generata un’immagine in formato PNG che supporta la trasparenza).

Una cosa che il modello sa fare in modo eccellente è la generazione di vignette e strisce, è inoltre capace di mantenere una certa coerenza nella generazione di più immagini. Per provarlo ho provato a generare una striscia fatta di quattro immagini che raccontassero la mitica barzelletta di Gigi Proietti sul Cavaliere Nero.

La coerenza è abbastanza buona anche se si notano inconsistenze nei personaggi tra la prima e l’ultima immagine.

Vi sono poi altre applicazioni che fanno uso di queste nuove capacità e che possono essere approfondite leggendo l’annuncio di OpenAI.

Le implicazioni etiche e legali di GPT-4o image generation

Come tutte le innovazioni aumentano le possibilità e le potenzialità e di conseguenza anche i rischi. Dal rilascio è divenuto virale il far generare al nuovo modello la revisione di immagini esistenti in stile Studio Ghibli, il noto studio autore di capolavori di animazione giapponese. Lo studio ha già minacciato di far causa a OpenAI se non impedisce questo uso.

Riemergono nuovamente quindi i dubbi su come sia possibile proteggere la proprietà di certi stili senza però rendere i modelli che generano immagini sostanzialmente inutili. Già ora i modelli di OpenAI si rifiutano di generare immagini nello stile di artisti ancora in vita, non è però chiaro perché questa protezione non si applichi alle creazioni di uno studio di animazione.

Immagine che contiene vestiti, cartone animato, dipinto, illustrazioneIl contenuto generato dall'IA potrebbe non essere corretto.

Ci sono poi le preoccupazioni che già abbiamo condiviso con il maturare di Mid Journey: come è possibile distinguere immagini da realistiche a reali? Forse per questo sarebbe quantomeno auspicabile che le immagini generate fossero scaricabili in formato C2PA, nella speranza quantomeno di ridurre il fenomeno di creazione di falsi plausibili.

vantaggi e criticità di GPT-4o image generation

La generazione di immagini di GPT-4o rappresenta decisamente un passo avanti nel settore: il modello attinge a tutto il contesto per la generazione, e ora è possibile generare sia schemi fatti di grafica e testo come infografiche che immagini fotorealistiche.

Soprattutto è possibile partire da immagini esistenti e modificarle con dei semplici prompt (le implicazioni non sono poche per il settore della manipolazione di immagini). In alcuni casi mi è mancata la creatività di DALL-E, e speriamo che OpenAI mantenga un qualche modo per usare entrambi gli approcci.

La possibilità di mantenere una certa coerenza nella generazione di una sequenza di immagini consente applicazioni essenzialmente impossibili solo poche settimane fa.

Resta il problema di come tutelare coloro che inconsapevolmente hanno fornito i dati necessari all’addestramento del modello. Il dibattito è acceso, ed è oggettivo che già ora esistevano plagi, ma con questi modelli si parla della possibilità di effettuare plagi su una scala completamente diversa. È evidente che tutta la legislazione sul copyright è sostanzialmente inadeguata al mondo che si sta prefigurando, e diviene sempre più necessario trovare forme di compensazione che tutelino la proprietà intellettuale senza però bloccare lo sviluppo tecnologico. Per ora accontentiamoci di giocare con le nuove capacità per capire quali nuove applicazioni porteranno in futuro.

White Paper

Scopri come l'AI Act trasforma la responsabilità nell'innovazione. Leggi il nostro whitepaper!

Intelligenza Artificiale
Legal

EU Stories - La coesione innova l'Italia

Tutti
Video & Podcast
Analisi
Social
Iniziative
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4