Che l’intelligenza artificiale basata sui Large Language Model, ovvero algoritmi di apprendimento basati su enormi insiemi di dati, abbia più di qualche problema di trasparenza rispetto a quello che succede nella fase di pre-training, o pre-apprendimento, non è certo un mistero. Le critiche sono state sollevate da più parti, compresi alcuni tra i principali sviluppatori degli algoritmi di intelligenza artificiale, e alcuni tra i finanziatori di OpenAI.
L’open source potrebbe aiutare a superare il problema, sebbene ci troviamo ancora in una fase ancora iniziale.
L’evoluzione dell’intelligenza artificiale
L’intelligenza artificiale ha sempre destato grande curiosità negli esseri umani, perché l’emulazione del cervello – uno strumento straordinario – da parte di una macchina rappresenta una sfida che un tempo si pensava fosse ai limiti dell’impossibile, e che oggi – sulla base degli algoritmi disponibili – sembra sia sul punto di essere raggiunta.
L’interesse, che non si è mai fermato, ha avuto un’impennata con l’arrivo di ChatGPT, che Wikipedia definisce come chatbot basato su intelligenza artificiale e machine learning sviluppato da OpenAI e specializzato nella conversazione con un utente umano. La sigla GPT sta per Generative Pre-Trained Transformer, una tecnologia nuova applicata all’apprendimento automatico.
All’inizio del 2023, OpenAI, l’organizzazione di ricerca – apparentemente senza fini di lucro – che ha sviluppato ChatGPT è stata finanziata da Microsoft con un investimento di 10 miliardi di dollari. Stando al comunicato stampa, questo fa parte di un piano di investimenti poliennale.
Microsoft ha annunciato anche l’integrazione di ChatGPT all’interno di Bing, il proprio motore di ricerca, e in futuro anche all’interno di Microsoft Office. Google ha risposto con l’annuncio dell’integrazione di Google Bard, un motore sviluppato internamente con funzionalità paragonabili a quelle di ChatGPT, all’interno del proprio motore di ricerca.
L’etica dell’intelligenza artificiale
In entrambi i casi, l’annuncio ha causato il licenziamento delle strutture interne a Microsoft e Google che avevano la responsabilità di fornire l’indirizzo “etico” agli sviluppatori, spesso in relazione proprio all’utilizzo dell’intelligenza artificiale nei programmi rilasciati dalle due aziende. Una mossa che non sorprende affatto, se pensiamo alla posta in gioco, ovvero alla nuova generazione del “capitalismo della sorveglianza” attraverso una nuova generazione di motori di ricerca, che sfruttano non solo l’eccesso di informazioni generato dalle attività degli utenti online, ma anche la sua intepretazione “artificialmente intelligente”.
Naturalmente, sia ChatGPT che Bard, che erano nati “open” in un ambiente di ricerca e sviluppo, sono diventati “closed” non appena è diventato chiaro il valore dell’ecosistema. Le grandi aziende del software proprietario possono anche amare il software open source, ma dietro a questa facciata politica rimangono attaccate alle loro convinzioni primigenie.
Il rischio che l’IA vada oltre i suoi limiti
Il timore è che l’intelligenza artificiale vada oltre quelli che devono rimanere i suoi limiti, quelli di uno strumento al servizio dell’uomo che l’ha sviluppata, e che – una volta nelle mani di utenti privi della necessaria capacità di analisi critica dello strumento, e quindi della capacità di governarlo in funzione degli obiettivi – provochi più danni che benefici. Un timore che condivido appieno, vista la scarsa cultura digitale che contraddistingue la maggioranza degli utenti sia in Italia che in altri Paesi, e che la scuola e il sistema non fanno nulla per sviluppare.
Una preoccupazione condivisa dal Garante della Privacy in Italia, che ha sospeso l’utilizzo di ChatGPT fino a quando l’azienda ha fornito una serie di garanzie sulle informazioni – compresi i dati personali – utilizzate durante la fase di pre-training, sulla possibilità da parte degli utenti di opporsi all’utilizzo di questi dati, e sulla possibilità di richiedere la cancellazione delle informazioni errate. A tutto questo è stato aggiunto un meccanismo di verifica dell’età, che blocca la registrazione degli utenti di meno di 13 anni e richiede il consenso dei genitori per i minorenni.
Probabilmente dei palliativi, anche se il blocco ha comunque avuto un effetto positivo perché ha richiamato l’attenzione sugli aspetti controversi delle soluzioni di intelligenza artificiale “generativa”, capace di sviluppare contenuti molto simili o addirittura identici a quelli creati da un essere umano. L’attenzione si è ridotta, e hanno avuto maggiore risalto le posizioni critiche.
Nascita e sviluppo di LLM open source
Un altro effetto collaterale sia dell’esplosione di interesse sia della crescita delle posizioni critiche verso l’intelligenza artificiale, sta nella nascita e nello sviluppo di diversi LLM open source, a partire da LLaMA, il large language model open source sviluppato da Meta AI (Facebook), e da Pile, il data set pubblico basato sul reverse engineering di GPT 3 sviluppato da EleutherAI.
La prima delle novità è stata Hugging Face, una startup che ha come obiettivo l’accesso libero e gratuito all’intelligenza artificiale, ha presentato HuggingChat, alternativa open source a ChatGPT costruito sulla base di un modello linguistico open-source di grandi dimensioni, ottimizzato per le conversazioni proprio come ChatGPT, che si chiama Open Assistant ed è stato sviluppato da circa 13.000 volontari.
Poi è arrivato StableLM, modello linguistico open source di grandi dimensioni rilasciato da Stability AI, l’azienda che ha creato il modello text-to-image Stable Diffusion. Subito dopo, Stability AI ha rilasciato StableVicuna, una versione di StableLM che, come Open Assistant o HuggingChat, è ottimizzata per la conversazione.
Questi nuovi modelli open source si aggiungono a quelli rilasciati negli ultimi mesi, tra cui Alpaca (Università di Stanford), Dolly (Databricks) e Cerebras-GPT (dell’azienda di AI Cerebras). La maggior parte di questi modelli sono basati su LLaMA di Meta AI o su Pile di EleutherAI, per cui dipendono dal mantenimento del modello open source da parte di queste due organizzazioni.
Conclusioni
Secondo un memo interno “uscito” da Google, l’insieme di queste soluzioni dimostra che il modello open source vincerà anche nell’intelligenza artificiale, dopo aver vinto a livello di infrastruttura cloud. Onestamente, non credo che la situazione attuale permetta di fare questo tipo di speculazioni, anche se è ovvio che un’intelligenza artificiale open source andrebbe sicuramente a favore degli utenti senza utilizzare in modo nascosto i loro dati personali.