intelligenza artificiale

GPT-4o mini, costi ridotti e buone prestazioni: la nostra prova

GPT-4o Mini offre prestazioni superiori a GPT-3.5 a costi ridotti. Migliora la capacità di ragionamento e gestisce input multimodali, aprendo nuovi scenari di utilizzo sostenibili

Pubblicato il 2 ago 2024

Antonio Cisternino

Università di Pisa

Senza troppo clamore OpenAI ha annunciato il nuovo modello GPT-4o mini, sarà perché in fondo si tratta di un modello meno capace di GPT-4o, ma in concreto si tratta di un annuncio di grande impatto: un po’ perché ha pensionato GPT-3.5, il modello che ha di fatto dato il via alla diffusione dell’AI generativa a fine 2022, un po’ perché è il modello che viene utilizzato per gli utenti che usano ChatGPT nel livello gratuito, un po’ perché abbassa ulteriormente il costo per chi fa uso delle API, portando a 15 centesimi per milione di token di input e 60 centesimi per milione di token (circa 2500 pagine di testo).

OpenAI's GPT-4o-Mini - The Maxiest Mini Model?

Guarda questo video su YouTube

Il modello si comporta significativamente meglio di GPT-3.5 turbo in tutti i benchmark, e aggiunge anche la possibilità di analizzare immagini ad un costo decisamente più basso del modello più grande GPT-4o.

Immagine che contiene testo, Policromia, schermata, diagrammaDescrizione generata automaticamente

Indice degli argomenti

Il calo del costo dei modelli

L’annuncio di OpenAI sottolinea come il costo dei modelli è calato del 99% rispetto al 2022, e sicuramente si tratta di un fatto degno di nota. Costi più bassi per l’accesso a mega-modelli capaci di parlare molte lingue implica una pervasività maggiore in servizi. Si tratta anche di un costo che rende difficile da confrontare rispetto all’esecuzione locale di modelli aperti, anche se ovviamente la questione della riservatezza dei dati è rilevante; anche se recentemente OpenAI ha pubblicato un articolo in cui discute l’uso di un meccanismo noto come RBR per addestrare i modelli a comportarsi in modo sicuro invece del tipico RLHF basato sul feedback umano, riducendo la necessità di grandi moli di dati generati dagli utenti per l’addestramento.

WHITEPAPER

Dall'on prem al cloud, perché la modernizzazione applicativa è d'obbligo. Scopri gli esempi pratici

Application Lifecycle Management

Application Performance Monitoring

Un confronto con GPT-3.5

Sappiamo bene come i benchmark possano essere fuorvianti rispetto alla performance percepita nell’uso dei modelli in casi d’uso reali. Proviamo quindi a confrontare i due modelli utilizzando il Playground che OpenAI mette a disposizione degli sviluppatori, anche perché si tratta dell’unico modo in cui si possa ancora utilizzare GPT-3.5 puntualmente rimosso dall’interfaccia di ChatGPT.

GPT-4o, ecco la vera svolta della nuova intelligenza artificiale

Una prova pratica per testare la differenza nella capacità di ragionamento

Useremo la capacità del playground di confrontare due modelli a parità di prompt:

Immagine che contiene testo, ricevuta, Carattere, lineaDescrizione generata automaticamente

Usando uno dei miei test personali di ragionamento si vede subito la differenza nella capacità di ragionamento:

Immagine che contiene testo, schermata, Carattere, ricevutaDescrizione generata automaticamente

GPT-4o mini risponde sempre correttamente mentre 3.5 risponde spesso in modo differente e qualche volta addirittura correttamente (ma il più delle volte sbaglia).

Anche la capacità di argomentazione è più consistente ed articolata nel caso del nuovo arrivato:

Immagine che contiene testo, schermata, documento, CarattereDescrizione generata automaticamente

Risposte veloci e più accurate con Gpt4o mini

Anche se si pongono problemi logici un po’ più complessi la qualità della risposta è decisamente superiore:

Immagine che contiene testo, schermata, Carattere, documentoDescrizione generata automaticamente

È sicuramente da notare come la latenza nella risposta dei due modelli sia paragonabile, è quindi davvero possibile avere anche delle risposte veloci e più accurate con il nuovo modello.

Anche se usiamo indovinelli con trabocchetto GPT-4o mini è decisamente superiore

Modelli a confronto su domande di conoscenza generale

Su domande di conoscenza generale i due modelli si comportano in modo analogo:

Il comportamento in presenza di conoscenza inserita nel prompt da un sistema RAG è consistente e paragonabile:

Se la richiesta prevede la capacità di ragionare utilizzando la conoscenza fornita nel prompt GPT-4o mini si comporta decisamente meglio di GPT-3.5.

L’ultimo modello consente anche l’analisi di immagini ad un prezzo decisamente più basso del modello GPT-4o e con un risultato di buona qualità:

Immagine che contiene testo, schermata, Pagina Web, Sito WebDescrizione generata automaticamente

Immagine che contiene aria aperta, cielo, terreno, acquaDescrizione generata automaticamente

Se invece chiediamo a GPT-3.5 otteniamo un errore:

Immagine che contiene testo, schermata, Pagina Web, softwareDescrizione generata automaticamente

Perché Gpt-4o mini è superiore a Gpt-3.5

Dai primi test GPT-4o mini è un modello decisamente superiore rispetto a GPT-3.5 che a questo punto può serenamente andare in pensione. OpenAI assume circa 400 token per pagina di testo, e quindi il supporto di finestre di contesto di 128 mila token in input e fino a 16 mila token in output corrispondono alla possibilità di analizzare un documento di circa 300 pagine e generare un documento di circa 40 pagine.

Costi e empowerment

Anche dal punto di vista dei costi, i nuovi modelli di OpenAI, nonostante siano più capaci, costano meno del 40% rispetto al costo di GPT-3.5 offrendo l’accesso ad un modello molto capace ad un costo addirittura inferiore.

Da un punto di vista dell’empowerment la possibilità di fornire immagini in input apre nuovi scenari anche a chi non vuole spendere troppo nel fornire servizi ai propri utenti.

Ho provato a fornire lo screenshot delle proprietà del mio WiFi di casa chiedendo un’opinione sui profili di rischio. La valutazione della schermata è stata decisamente ineccepibile.

Ssostenibilità

La possibilità quindi di usare un modello a basso costo che ammetta input multimodale potrebbe aprire scenari interessanti non tanto per la possibilità, ma per la sostenibilità dei costi in produzione.

Conclusioni

Non possiamo che concludere che per chi abbia usato GPT-3.5 nei propri programmi conviene passare al nuovo GPT-4o mini semplicemente cambiando la stringa del modello. Per chi usa ChatGPT potrà attendersi risposte migliori anche dal servizio gratuito.

Ancora una volta OpenAI ha mostrato un’attenzione che non si limita alle sole capabilities della tecnologia, ma anche ai suoi impieghi e costi. Non resta che vedere cosa faranno gli sviluppatori con un modello il cui comportamento è molto vicino al fratello maggiore GPT-4o ma ad un prezzo decisamente più basso.

Non scordiamoci però di ringraziare GPT-3.5 per il suo servizio, e per aver rivelato al mondo che l’AI generativa era pronta per il grande pubblico, un po’ mi mancherà, ma forse sto solo personificando un sistema software. Chissà se ha chiesto di non essere spento come HAL in 2001 Odissea nello spazio…

WHITEPAPER

I dati di oltre 6000 aziende a tua disposizione per creare i tuoi KPI

Intelligenza Artificiale

Marketing

@RIPRODUZIONE RISERVATA