Senza troppo clamore OpenAI ha annunciato il nuovo modello GPT-4o mini, sarà perché in fondo si tratta di un modello meno capace di GPT-4o, ma in concreto si tratta di un annuncio di grande impatto: un po’ perché ha pensionato GPT-3.5, il modello che ha di fatto dato il via alla diffusione dell’AI generativa a fine 2022, un po’ perché è il modello che viene utilizzato per gli utenti che usano ChatGPT nel livello gratuito, un po’ perché abbassa ulteriormente il costo per chi fa uso delle API, portando a 15 centesimi per milione di token di input e 60 centesimi per milione di token (circa 2500 pagine di testo).
Il modello si comporta significativamente meglio di GPT-3.5 turbo in tutti i benchmark, e aggiunge anche la possibilità di analizzare immagini ad un costo decisamente più basso del modello più grande GPT-4o.
Il calo del costo dei modelli
L’annuncio di OpenAI sottolinea come il costo dei modelli è calato del 99% rispetto al 2022, e sicuramente si tratta di un fatto degno di nota. Costi più bassi per l’accesso a mega-modelli capaci di parlare molte lingue implica una pervasività maggiore in servizi. Si tratta anche di un costo che rende difficile da confrontare rispetto all’esecuzione locale di modelli aperti, anche se ovviamente la questione della riservatezza dei dati è rilevante; anche se recentemente OpenAI ha pubblicato un articolo in cui discute l’uso di un meccanismo noto come RBR per addestrare i modelli a comportarsi in modo sicuro invece del tipico RLHF basato sul feedback umano, riducendo la necessità di grandi moli di dati generati dagli utenti per l’addestramento.
Un confronto con GPT-3.5
Sappiamo bene come i benchmark possano essere fuorvianti rispetto alla performance percepita nell’uso dei modelli in casi d’uso reali. Proviamo quindi a confrontare i due modelli utilizzando il Playground che OpenAI mette a disposizione degli sviluppatori, anche perché si tratta dell’unico modo in cui si possa ancora utilizzare GPT-3.5 puntualmente rimosso dall’interfaccia di ChatGPT.
Una prova pratica per testare la differenza nella capacità di ragionamento
Useremo la capacità del playground di confrontare due modelli a parità di prompt:
Usando uno dei miei test personali di ragionamento si vede subito la differenza nella capacità di ragionamento:
GPT-4o mini risponde sempre correttamente mentre 3.5 risponde spesso in modo differente e qualche volta addirittura correttamente (ma il più delle volte sbaglia).
Anche la capacità di argomentazione è più consistente ed articolata nel caso del nuovo arrivato:
Risposte veloci e più accurate con Gpt4o mini
Anche se si pongono problemi logici un po’ più complessi la qualità della risposta è decisamente superiore:
È sicuramente da notare come la latenza nella risposta dei due modelli sia paragonabile, è quindi davvero possibile avere anche delle risposte veloci e più accurate con il nuovo modello.
Anche se usiamo indovinelli con trabocchetto GPT-4o mini è decisamente superiore
Modelli a confronto su domande di conoscenza generale
Su domande di conoscenza generale i due modelli si comportano in modo analogo:
Il comportamento in presenza di conoscenza inserita nel prompt da un sistema RAG è consistente e paragonabile:
Se la richiesta prevede la capacità di ragionare utilizzando la conoscenza fornita nel prompt GPT-4o mini si comporta decisamente meglio di GPT-3.5.
L’ultimo modello consente anche l’analisi di immagini ad un prezzo decisamente più basso del modello GPT-4o e con un risultato di buona qualità:
Se invece chiediamo a GPT-3.5 otteniamo un errore:
Perché Gpt-4o mini è superiore a Gpt-3.5
Dai primi test GPT-4o mini è un modello decisamente superiore rispetto a GPT-3.5 che a questo punto può serenamente andare in pensione. OpenAI assume circa 400 token per pagina di testo, e quindi il supporto di finestre di contesto di 128 mila token in input e fino a 16 mila token in output corrispondono alla possibilità di analizzare un documento di circa 300 pagine e generare un documento di circa 40 pagine.
Costi e empowerment
Anche dal punto di vista dei costi, i nuovi modelli di OpenAI, nonostante siano più capaci, costano meno del 40% rispetto al costo di GPT-3.5 offrendo l’accesso ad un modello molto capace ad un costo addirittura inferiore.
Da un punto di vista dell’empowerment la possibilità di fornire immagini in input apre nuovi scenari anche a chi non vuole spendere troppo nel fornire servizi ai propri utenti.
Ho provato a fornire lo screenshot delle proprietà del mio WiFi di casa chiedendo un’opinione sui profili di rischio. La valutazione della schermata è stata decisamente ineccepibile.
Ssostenibilità
La possibilità quindi di usare un modello a basso costo che ammetta input multimodale potrebbe aprire scenari interessanti non tanto per la possibilità, ma per la sostenibilità dei costi in produzione.
Conclusioni
Non possiamo che concludere che per chi abbia usato GPT-3.5 nei propri programmi conviene passare al nuovo GPT-4o mini semplicemente cambiando la stringa del modello. Per chi usa ChatGPT potrà attendersi risposte migliori anche dal servizio gratuito.
Ancora una volta OpenAI ha mostrato un’attenzione che non si limita alle sole capabilities della tecnologia, ma anche ai suoi impieghi e costi. Non resta che vedere cosa faranno gli sviluppatori con un modello il cui comportamento è molto vicino al fratello maggiore GPT-4o ma ad un prezzo decisamente più basso.
Non scordiamoci però di ringraziare GPT-3.5 per il suo servizio, e per aver rivelato al mondo che l’AI generativa era pronta per il grande pubblico, un po’ mi mancherà, ma forse sto solo personificando un sistema software. Chissà se ha chiesto di non essere spento come HAL in 2001 Odissea nello spazio…