Nel leggere, ieri, i dati strabilianti della trimestrale Nvidia – persino più magnifici delle già alte aspettative di mercato – viene in mente che invece c’è ancora molta attesa – da parte del mondo finanziario ma anche delle imprese che devono prendere decisioni sul loro futuro – di altri dati connessi all’IA generativa, così centrale per il successo di Nvidia.
il punto di bertele’
Dove c’è il vero valore dell’IA generativa: chip e dati binomio vincente
Gli incredibili dati finanziari appena pubblicati da Nvidia ci devono fare pensare a dove si trova ora il valore vero per l’IA generativa. Poco in chi la produce. Molto di più in chi ci mette l’infrastruttura. Ma a breve lo scenario può cambiare grazie a un uso diverso dei dati di training
professore emerito di Strategia e chairman degli Osservatori Digital Innovation Politecnico di Milano

Se la tecnologia – di cui ho parlato finora – gioca un ruolo fondamentale, un ruolo altrettanto fondamentale è giocato dai dati.
La qualità dei dati immessi per il training dei modelli di IA ne condiziona la validità e la funzionalità, secondo il vecchio detto “garbage in garbage out”. E, soprattutto per i modelli più grandi di AGI-artificial general intelligence, il reperimento dei dati è sempre più critico.
Una prima ragione è legata al rischio di violazione della proprietà intellettuale, come appare anche dalla nostra stampa non specializzata: “Scontro su internet e algoritmi. Il New York Times pensa di portare in tribunale ChatGPT – Faro sull’uso di articoli per addestrare il software. Il nodo dei compensi” (Corriere della Sera, a tutta pagina nell’edizione cartacea, 23 agosto).
Il New York Times per primo ha inibito a OpenAI l’accesso ai propri archivi – imitato da altri quotidiani e riviste statunitensi – e ha fatto trapelare la notizia che potrebbe intentare una causa per l’uso improprio dei propri dati nelle versioni attualmente disponibili di ChatGPT. E sono diversi i settori – da chi possiede archivi di immagini a chi di brani musicali – che si stanno attrezzando per inibire l’accesso e/o per contrattare una soddisfacente remunerazione.
Di converso può risultare avvantaggiato, nel mettere a punto modelli più puntuali, chi possiede grandi archivi di cui dispone dei diritti di proprietà, come spiega The Economist in un recente articolo – “AI is setting off a great scramble for data – Feeding ever-larger models is requiring makers to get creative”, 13 agosto – con riferimento al caso Adobe (234 miliardi di $ di capitalizzazione, Photoshop e Acrobat tra i suoi prodotti più noti): data per spacciata da alcuni analisti al momento dell’apparizione di ChatGPT, essa ha invece sfruttato il suo archivio di centinaia di milioni di foto per mettere a punto un proprio modello di IA – Firefly – che ha già generato nei pochi mesi di vita un miliardo di foto.
Una seconda ragione è legata al rischio che, introducendo indiscriminatamente dati da Internet, il modello possa poi generare risposte socialmente scorrette e legalmente oggetto di possibili incriminazioni. L’operazione di “pulizia dei dati”, solo in parte gestibile automaticamente, è spesso delegata – lo sostiene The Wall Street Journal – a persone che vivono in Paesi più poveri (“Cleaning Up ChatGPT Takes Heavy Toll on Human Workers – Contractors in Kenya say they were traumatized by effort to screen out descriptions of violence and sexual abuse during run-up to OperAI’s hit chatbot”, 24 luglio).
Una terza ragione (ma la mia trattazione non pretende di essere esaustiva) è legata all’evoluzione attesa dei dati su Internet, che rischiano di essere percentualmente sempre meno genuini, per l’aumento di quelli generati da chatbot: con il rischio che si vada verso un deterioramento progressivo della qualità dei modelli generali, invece che verso un continuo miglioramento con il loro uso come auspicato nel momento del lancio di ChatGPT.
Il futuro: modelli circoscritti con dati di proprietà
Una considerazione conclusiva. Rileggendo l’articolo mi sono reso conto che mi sono soffermato più sugli aspetti negativi che sulle potenzialità dell’AI generativa, forse come reazione (più o meno inconscia) ai toni miracolistici che ne hanno accompagnato il lancio da novembre in poi. Le mie perplessità, in realtà, riguardano soprattutto i grandi modelli generali – quali ChatGPT o Bard o Claude AI – mentre credo molto di più nei modelli “circoscritti”, che usino in larga misura dati relativi all’impresa o (come nel caso del Firefly di Adobe) dati in possesso dell’impresa.
Ma essendo l’AI una tecnologia ancora in pieno sviluppo, preferisco astenermi da ogni previsione e attendere con una forte curiosità intellettuale quello che ci riserverà il futuro.
Continua a leggere questo articolo
Argomenti
Canali
EU Stories - La coesione innova l'Italia