intelligenza artificiale

Come confrontare due modelli di IA generativa: i primi test di qualità



Indirizzo copiato

Quali benchmark possiamo usare per misurare e confrontare le intelligenze artificiali generative? Ad oggi non vi sono metodologie diffuse di confronto, anche a causa della giovinezza di questi sistemi, ma si cominciano già ad osservare i primi test di confronto dei modelli LLM per la generazione di testo. Il punto

Pubblicato il 13 lug 2023

Antonio Cisternino

Università di Pisa



intelligenza artificiale ai act

Sempre più spesso capita di ascoltare confronti a volte improbabili sul funzionamento delle intelligenze artificiali generative che usiamo, ormai, quotidianamente. È normale quindi chiedersi: come possiamo confrontare due modelli di intelligenza artificiale generativa?

Orientarsi nei meandri dei sistemi di IA generativa

Nella giungla di sistemi è sempre più difficile capire la relazione tra i modelli AI veri e propri rispetto a numerose applicazioni che le usano con declinazioni sempre più difficili da seguire. Ho letto, ad esempio, un articolo che riportava prompt che generano belle immagini utilizzando MidJourney e mi sono chiesto quale sarebbe stato il risultato se avessi usato lo stesso prompt con il modello DALL-E usato da Bing image creator.

Ecco un esempio di questi prompt e il confronto tra MidJourney (sopra) e DALL-E 2 (sotto):

A close-up shot of a raindrop about to fall from a leaf, with a focus on reflection and the vibrant greenery around it, creating a fresh and pure atmosphere.

Immagine che contiene Umidità, rugiada, goccia, naturaDescrizione generata automaticamente
Immagine che contiene goccia, liquido, fluido, rugiadaDescrizione generata automaticamente

Sebbene l’apprezzamento di un’immagine sia largamente soggettivo le ultime versioni di MidJourney sembrano generare immagini più fotorealistiche di quanto siano le analoghe generate da DALL-E 2.

La lunga storia dei benchmark

Il bisogno di misurare in un modo oggettivo le prestazioni di un computer è un bisogno vecchio quasi quanto i computer, ma è l’oggetto del confronto a rendere complessa la preparazione di un programma di benchmark che, eseguito su due sistemi, produca un valore che dica che uno dei è migliore dell’altro in uno specifico ambito.

Se l’oggetto della misura è la velocità di completamento di un calcolo la misura è abbastanza oggettiva, anche se spesso ci si lamenta che i calcoli usati non sono sempre rappresentativi dei programmi in uso. Le polemiche sono decisamente più facili da alimentare quando si analizzano parametri meno facili da misurare come, ad esempio, le prestazioni di un personal computer: in questo caso è necessario misurare parametri come l’interattività, aspetto decisamente più difficile da catturare in modo oggettivo, un sistema operativo infatti alloca le risorse in base alla storia delle richieste e quindi a parità di esecuzione lo stesso sistema può risultare un po’ più o meno performante.

La rappresentatività del benchmark è spesso oggetto di polemiche, si tratta dell’angolo di attacco più facile da prendere: “il mio sistema performa meglio di così con applicativi reali, il benchmark è sintetico e scarsamente rappresentativo!”.

Quali benchmark usare per misurare e confrontare le IA generative

Ma quali benchmark possiamo usare per misurare e confrontare le intelligenze artificiali generative? Ad oggi non vi sono metodologie diffuse di confronto, anche a causa della giovinezza di questi sistemi, ma si cominciano già ad osservare i primi test di confronto dei modelli LLM per la generazione di testo.

Il sito Hugginface dove vengono pubblicati modelli AI ha una leaderboard dove i modelli vengono confrontati su 4 benchmark per chatbot. I requisiti prevedono che il modello sia disponibile sulla piattaforma e quindi non troviamo nella lista né GPT4 di OpenAI né Google Bard.

In questo caso si tratta di benchmark sviluppati in modo tradizionale ed usati per misurare le prestazioni dei modelli, ma recentemente GPT4 è stato oggetto di notizia per aver mostrato ottime performance nel sostenere test per esseri umani e non semplici benchmark sintetici (ha mostrato un incredibile risultato ai test MIT ad esempio con un incredibile 90%). Anche senza considerare il test di Turing è abbastanza naturale usare gli uomini come metro di paragone di un’intelligenza artificiale abbastanza senziente. Ma i test sono test di conoscenza, più raramente di ragionamento, ed una macchina è più brava di un essere umano a ricordare.

Immagine che contiene testo, schermata, Carattere, numeroDescrizione generata automaticamente

Resta il fatto che ad oggi le metriche per misurare le intelligenze artificiali generative non sono pienamente soddisfacenti e spesso sono ingannevoli poiché nascondono numerosi aspetti di questi modelli così complessi, generando spesso aspettative che vengono deluse.

Un confronto tra “umani”

Nel mentre aspettiamo benchmark capaci di confrontare modelli differenti in modo più qualitativo dobbiamo accontentarci dell’interazione con il modello ed una valutazione empirica delle sue prestazioni. Vi sono poi dei requisiti che riducono in modo significativo il numero di modelli disponibili: per esempio i modelli di OpenAI ad oggi sono praticamente gli unici a supportare la lingua italiana (ed un numero significativi di altre lingue). È facile quindi che per ora la scelta nella nostra nazione sia quasi obbligatoria, e la prima prova da effettuare quando troviamo un nuovo sistema è proprio quella di interagire nella nostra lingua.

Usando la funzione VPN del browser Opera è possibile accedere a Google Bard con il proprio account Google, per scoprire che l’interazione in italiano al momento non è possibile.

Immagine che contiene testo, schermata, mappa, CarattereDescrizione generata automaticamente
Immagine che contiene testo, schermata, software, CarattereDescrizione generata automaticamente

In questo momento il sistema supporta solo tre lingue, un numero sicuramente poco soddisfacente per una big tech come Google:

Immagine che contiene testo, schermata, CarattereDescrizione generata automaticamente

E non si tratta di una limitazione da poco visto che Google Docs introdurrà questa tecnologia lasciando fuori la nostra nazione dai suoi benefici e all’uso di Copilot in Office 365 basato su ChatGPT-4 di OpenAI.

Sembra quindi poco utile in questo contesto soffermarsi sui benchmark a meno che non si faccia ricerca o si sviluppino modelli da addestrare.

Ma è sempre necessaria tutta questa intelligenza?

In Toscana usa dire “nel più ci sta il meno”, è evidente che se si usa un modello di AI più “intelligente” sarà più facile e flessibile da inserire nei propri sistemi o flussi di lavoro, ma a volte modelli più piccoli possono mostrare performance decisamente accettabili su uno specifico compito e portare a risparmi, o ad impieghi altrimenti impossibili.

L’esecuzione di un modello è possibile anche sul proprio computer, io ad esempio ho generato un’immagine che può essere letta con un’applicazione che legge codici QR usando un modello di stable diffusion seguendo le opportune istruzioni.

Immagine che contiene arte, schermata, casa, dipintoDescrizione generata automaticamente

Sono disponibili istruzioni analoghe per poter eseguire modelli come LLaMa, capaci comunque di prestazioni più che decenti e spesso sufficienti per svolgere compiti senza dover richiedere accesso alla rete o dover affrontare problemi di privacy nell’uso di servizi cloud esterni.

Conclusioni

Ad oggi GPT-4 è sicuramente il modello da battere (anche se dai primi leak sembra che non sia un modello ma piuttosto un sistema cooperativo di diversi modelli di AI), ma se abbiamo necessità di supportare molte lingue, e in particolare l’Italiano, allora i modelli di OpenAI sembrano quasi obbligatori per chi vuole avvalersi di queste tecnologie, sia usati direttamente che indirettamente (come ad esempio su https://you.com oppure bing.com accedendo con Microsoft Edge).

Al momento sembra difficile che emergano benchmark capaci di effettuare un confronto generale delle performance di questi modelli di intelligenza artificiale. Almeno per ora sembra che il compito di valutarne l’intelligenza o la stupidità sembra che spetti a noi (e non è necessariamente una buona nuova visto che gli LLM ci raggirano abbastanza facilmente come mostrano alcune ricerche sulla disinformazione).

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video & Podcast
Social
Iniziative
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati