È notizia di questi giorni il video, reso popolare dallo youtuber Marques Brownlee su Twitter, di Fabio Comparelli intitolato “The Evolution of Man” interamente generato dall’intelligenza artificiale che partendo da descrizioni testuali ha generato le immagini che compongono il video selezionandole da oltre 50.000 immagini generate utilizzando il modello AI generativo noto come “Stable diffusion” rilasciato pubblicamente solo pochi mesi fa dalla startup Stability.AI.
Il modell0 AI Generativo
Il modello addestrato con 2 miliardi di immagini, per oltre 100 terabytes, occupa circa 2 gigabytes ma contiene al suo interno in qualche modo memoria di tutte le immagini usate per addestrarlo. È un po’ come il nostro cervello: tutte le immagini si combinano in un’unica struttura di rete neurale (nel senso informatico del termine) unitamente al testo descrittivo che la popolazione mondiale ha usato per descriverle in Internet.
La messa a disposizione del modello, nonostante il significativo impegno computazionale e di corrente elettrica necessario per elaborare i dati, ha dato un impulso incredibile alla comunità che ha visto in poche settimane oltre 200.000 download del modello utilizzati, in molti casi, per la realizzazione di servizi di sintesi di immagini a partire da testo. Questo impulso ha contribuito a pubblicizzare anche altri generatori di immagini come DALL-E i cui modelli non sono pubblici.
Un modello per tutti
Stability.AI ha messo a disposizione un sito Web per generare le immagini e con cui è molto divertente giocare:
Si possono inserire descrizioni in italiano ma con risultati non pienamente soddisfacenti, probabilmente perché il grosso dei dati utilizzati per addestrare il modello sono in lingua inglese, è quindi consigliabile dare descrizioni in inglese quando si richiede la generazione di immagini.
Si possono formulare richieste arbitrarie, chiedendo la sintesi anche di mondi fantastici come nell’esempio in cui si è chiesto di generare l’immagine di un personaggio di Tron che cammina all’interno di Internet.
Così osserva la rete neurale
È decisamente affascinante non solo osservare come la rete neurale sappia combinare gli elementi richiesti in immagini che catturano la loro essenza.
Il fatto che si possa chiedere un particolare stile, sia esso quello di uno schizzo (sketch) oppure come se fosse dipinto da Van Gogh, evidenzia come il modello AI abbia declinato gli stessi elementi mantenendo un personaggio con abiti fluorescenti che cammina in un ambiente solitario; nella versione Van Gogh sono stati scelti elementi luminosi preservando i tratti essenziali che ne caratterizzano lo stile.
Ci si potrebbe chiedere che differenza c’è con una ricerca per immagini, e come possiamo essere sicuri che le immagini siano effettivamente generate? La risposta ad entrambe le domande può essere ottenuta guardando i sorgenti del generatore di immagini e il modello, ma una prova indiretta può essere facilmente ottenuta chiedendo di generare delle mani:
Come si può facilmente osservare la nostra AI ha capito cosa sono le mani, ma non quante dita hanno quelle degli uomini!
La portata dell’innovazione, se misurata dal mercato, ha visto riconoscere un nuovo round di finanziamento degli investitori di 101 milioni di dollari ed una valutazione di un miliardo di dollari.
Macchine creative?
L’intelligenza artificiale generativa pone non poche domande sulle macchine e le loro capacità in relazione all’uomo. Fabio Comparelli ha realizzato un video decisamente artistico con il supporto dell’AI, e non si tratta di manipolazioni di immagini con il supporto di un software, l’opera d’arte è stata realizzata dallo sforzo congiunto della macchina e dell’uomo: la generazione di numerose immagini il cui contenuto è dettato dai modelli come Stable diffusion è stata poi filtrata dall’essere umano e dalla propria sensibilità.
I concetti da apprendere
È evidente che la macchina sta gradualmente “apprendendo” concetti come “mani” oppure “personaggio di Tron” grazie all’enorme base di conoscenza che costituisce Internet, e come un bambino sembra associare un’idea visiva ad una parola e successivamente usarla per generare conoscenza.
Non è un caso che il commento di Marques Brownlee sia stato “Oh no…” alla notizia del video generato: l’idea stessa che la macchina abbia acquisito una nuova capacità che finora si riteneva propria dell’uomo, creare contenuto artistico, non può lasciare indifferenti.
Ma così come la vittoria di Deep Blue negli anni ’90 contro il campione del mondo di scacchi non ha reso le macchine intelligenti, sembra che anche questo passo, per quanto sconvolgente, possa contribuire allo sviluppo delle macchine e del loro impiego nelle attività umane consentendo nuove forme di espressione per ora antropodirette.
Così l’arte può cambiare
È in ogni caso un aspetto centrale questo cambiamento dell’impiego dell’intelligenza artificiale da sistema capace di riconoscere pattern particolari e predire funzioni a sistema capace di generare elementi tipici della creatività umana. È facile prevedere nuovo lavoro per filosofi, epistemologi, e esperti in opere d’arte.
Non è una novità infatti che la tecnologia abbia già condizionato in modo significativa l’arte contemporanea, che ha rapidamente adottato i sistemi di stampa 3D e materiali come il silicone per definire nuove opere d’arte, e la possibilità di riprodurre una creazione ha spinto all’introduzione degli NFT (Non Fungible Token) nel tentativo di definire un concetto di originale in un mondo in cui le copie non sono altro che cloni indistinguibili uno dall’altro.
Le leggi della robotica
È noto come Asimov abbia anticipato la realtà con i suoi noti racconti di fantascienza nei quali vengono, tra molti elementi, introdotte le leggi della robotica:
- Un robot non può recar danno a un essere umano né può permettere che, a causa del suo mancato intervento, un essere umano riceva danno.
- Un robot deve obbedire agli ordini impartiti dagli esseri umani, purché tali ordini non vadano in contrasto alla Prima Legge.
- Un robot deve proteggere la propria esistenza, purché la salvaguardia di essa non contrasti con la Prima o con la Seconda Legge.
In effetti si sono formati comitati di scienziati e filosofi con l’obiettivo di definire dei confini al comportamento dei robot proprio in vista della crescita di queste tecnologie, e molti dei lavori sono inevitabilmente influenzati da queste leggi che ci sono consegnate dalla fantascienza.
Intelligenza artificiale, l’Europa si scontra sulle regole: ecco i nodi
Cosa deve capire una macchina
Uno degli aspetti chiave di queste leggi è in realtà sottile: una macchina deve poter capire numerose nozioni per poterle mettere in atto, dovendo riconoscere essere umani e gli elementi del mondo che li circondano in modo da poter adeguare il proprio comportamento ad esse.
Il fatto che algoritmi possano associare una sorta di idea alle parole sicuramente avvicina la macchina all’uomo, e gli sviluppi nel futuro non potranno che accorciare le distanze.
Adesso ad esempio si ricerca per dotare stable diffusion di coerenza temporale: generare sequenze di immagini che siano coordinate negli elementi, così che un video possa ritrarre un personaggio o un altro elemento che sia sempre lo stesso all’interno del contesto descritto.
In attesa delle leggi cosa dicono le licenze?
La licenza di stable diffusion contiene già elementi di restrizione nell’uso che sicuramente possono ricordare le leggi della robotica (anche se si tratta di restrizioni rivolte agli uomini che fanno uso del modello). Nell’allegato A si indicano le restrizioni nell’impiego del modello come, ad esempio:
- Allo scopo di sfruttare, molestare o tentare di sfruttare o molestare minori in qualsiasi modo
- Per generare o disseminare informazioni false e/o contenuto con il fine di danneggiare gli altri
- Per l’automazione di decisioni che possano condizionare i diritti legali di un individuo o modificare un’obbligazione vincolante
- Per sfruttare qualsiasi delle vulnerabilità di un gruppo specifico di persone basate su età o caratteristiche sociali, fisiche, o mentali, al fine di distorcere materialmente il comportamento di una persona di tale gruppo in modo che causi, o possa causare a quella persona o ad un’altra persona danno fisico o psicologico
Si tratta di restrizioni decisamente nuove nel panorama delle licenze d’uso ed aiutano ad evidenziare le nuove sfide che questi modelli di intelligenza artificiale ci costringono ad affrontare.
La nuova arte
Il fuoco è stato dato agli uomini, ancora una volta, e adesso saranno gli uomini a decidere come usarlo. Chi scrive ha già realizzato più una presentazione i cui contenuti grafici sono stati generati piuttosto che selezionati da una libreria di contenuti.
È lecito aspettarsi che il mercato della grafica cambi, e che per molti impieghi per cui prima erano necessari il contributo e il talento di artisti ora sia sufficiente un uso ingegnoso dell’AI generativa.
Ma se l’arte figurativa è sopravvissuta alla macchina fotografica non si vede perché non possa sopravvivere anche all’intelligenza artificiale che, ancora una volta, offre nuovi strumenti all’uomo per esprimersi. Perché un’immagine generata può dare emozioni ma non è necessario che sia così.
Resta il fatto che invece sarà sempre più difficile assumere che se un’immagine mostra un fatto del mondo questo sia un fatto reale, ed è urgente che tutti prendiamo coscienza di questo prima che il mondo sia annientato dalle fake news, con buona pace delle restrizioni scritte in una licenza.