Gli Stati Uniti d’America hanno deciso di applicare delle restrizioni sulle vendite delle GPU di ultima generazione di Nvidia (come la A100 e la H100, non ancora rilasciata) a Cina, Hong Kong e Russia.
La mossa ha portato l’amministrazione cinese a criticare il tentativo americano di preservare la leadership sulle tecnologie AI sfruttando le restrizioni commerciali ma non è stata indolore neanche per Nvidia, il cui mercato da quasi 27 miliardi di dollari dipende per circa un quarto dal mercato cinese e di Hong Kong.
Chip, continua il braccio di ferro Usa-Cina: gli effetti e il ruolo dell’Europa
Anche i produttori cinesi stanno analizzando la situazione per comprendere come adattare le proprie strategie: le GPU sono un ingrediente centrale nei sistemi di calcolo scientifico, di cui il conglomerato cinese Inspur, ad esempio, è un’importante realtà.
È difficile capire l’impatto delle restrizioni, soprattutto perché AI tende a evocare più memorie fantascientifiche di un futuro, utopico o distopico, che vere e proprie tecnologie. È certamente interessante quindi visualizzare un’applicazione di queste tecnologie che aiuti a comprendere stato dell’arte e potenziali implicazioni: la generazione di immagini partendo da testo.
Text to image: come funziona la generazione di immagini da testo
Si stanno diffondendo in molte app tecniche di trattamento di immagini basate su tecniche AI, in particolare di deep learning: applicazioni per far cantare una persona animando una sua foto, o per far sparire elementi da uno sfondo, solo per fare qualche esempio. Se la modifica automatica di un’immagine è sicuramente sorprendente, lo è ancor di più la sintesi di un’immagine da una sommaria descrizione (in inglese).
Esistono servizi disponibili online come, ad esempio, quello basato sul software open source Pixray oppure Nightcafe, che promette di generare opere d’arte a partire da semplici creazioni. Se messi alla prova sono servizi decisamente sorprendenti, capaci di sintetizzare scene di fantasia. Una delle prove fatte è stata sottoporre a uno dei sistemi la richiesta “wildboar attacking Pantheon”, per ottenere la seguente immagine.
Molti di questi sistemi consentono di selezionare uno “stile” da applicare alla generazione, ma in realtà si tratta di veri e propri modelli AI differenti, ovverosia reti neurali addestrate con insiemi di immagini e testo differenti. Può quindi capitare che alcune richieste vengano realizzate in modo più o meno accurato a seconda del modello usato, poiché gli “oggetti” appresi dalla rete neurale determinano la conoscenza che viene poi usata per sintetizzare l’immagine.
Alcuni servizi consentono di richiedere un particolare stile direttamente nella richiesta testuale. I seguenti due esempi mostrano alcune generazioni seguendo lo stile artistico di Van Gogh e Keith Haring:
Quello che è sorprendente di queste immagini è che non si tratta di una mera ricerca in un database di immagini ma una vera e propria sintesi di una AI che combina conoscenza appresa da un programma navigando Internet.
Se questa applicazione della AI è sicuramente impressionante, non si può dire che si tratti di un’entità creativa: semplicemente, un mix di conoscenza umana acquisita da Internet e distillata in un’immagine.
La capacità di sintetizzare immagini avrà sicuramente impatto nel settore della grafica, consentendo a chi manca di tecnica di attingere alla conoscenza dei modelli, ma questo non è sufficiente a instillare le emozioni che sono proprie di opere d’arte. Sicuramente, questi sistemi hanno consentito al sottoscritto di generare immagini in memoria del batterista Taylor Hawkins.
Conclusioni
Una cosa è certa: la generazione richiede una notevole capacità computazionale, i cui costi vanno in qualche modo coperti. Per questo motivo anche i servizi che fanno uso di modelli open source impongono restrizioni per controllare l’uso delle risorse computazionali necessarie alla generazione.
Su una A100, il software Pixray richiede alcuni minuti per produrre una singola immagine, sicuramente un impegno non trascurabile di risorse. Schede più vecchie richiedono ancora più tempo per effettuare la generazione proprio a causa del costo computazionale.
Per questo motivo, la restrizione nell’accesso ad acceleratori AI come le A100 possono avere un impatto nel settore industriale: anche in un servizio come quello di generazione di immagini a partire da testo, il loro impiego può far differenza sia nella qualità del risultato che del costo per produrlo. È quindi legittima la preoccupazione cinese di una perdita di competitività con la chiusura commerciale americana.
Sicuramente le restrizioni spingeranno le nazioni bandite a moltiplicare gli sforzi per realizzare soluzioni locali, esattamente come l’Europa sta cercando di rendersi autonoma nella produzione energetica. Si tratta però di tecnologie sviluppate in quasi vent’anni, accumulando esperienza che non sarà facile da acquisire ex novo. Questi conflitti non fanno altro che ridurre l’investimento in ricerca per lo sviluppo delle tecnologie, ma in un periodo in cui un’economia globale è in discussione, anche queste frizioni contribuiscono al rallentamento nello sviluppo a cui stiamo assistendo a partire dall’inizio della pandemia.
Sicuramente i cinesi risponderanno con restrizioni ad altre tecnologie o risorse di cui sono leader e solo il tempo consentirà di capire il nuovo assetto nel settore.