La generazione automatica di musica da parte della moderna intelligenza artificiale non sembra aver fatto un salto di qualità paragonabile a quello ottenuto in altri campi. Come mai?
Sono infatti passati circa 70 anni dai primi esperimenti in tal senso e i risultati non sono all’altezza delle aspettative, così come non lo sono ancora anche i sistemi di AI – come il Generative Pretrained Transformer 3 (GPT3) di OpenAI – in grado di produrre testi incredibilmente verosimili. Molti commentatori hanno infatti osservato, in testi di certe dimensioni, una mancanza di coerenza generale, come se il sistema non sapesse bene di cosa stesse parlando. E in effetti è proprio così: GPT3 si esprime correttamente, ma non sa affatto cosa dice, come se fosse un super-pappagallo.
La cecità semantica è un grosso limite per i sistemi che generano espressioni linguistiche. Infatti, queste espressioni sono prodotte dalle persone esattamente allo scopo di significare qualcosa, o almeno così dovrebbe essere. La generazione di espressioni linguistiche davvero intelligenti avverrà quando le macchine intenderanno dirci qualcosa, e al momento pare che non ne abbiano voglia.
L’intelligenza artificiale scrive sempre meglio, ma non sa che sta dicendo
OpenAI Jukebox
Esiste però un’attività produttiva di sequenze simboliche, tipicamente (anche se non esclusivamente) umana, la cui semantica (ammesso che ci sia) non è connessa al mondo nello stesso modo in cui lo sono le parole del linguaggio ordinario. Si tratta della musica. Se i generatori linguistici falliscono nel rapporto con la realtà e dunque danno spesso l’impressione di vaneggiare, per un generatore musicale il problema non dovrebbe porsi, o almeno non in modo così visibile. È davvero così?
L’opportunità di rispondere a questa domanda ci arriva dagli stessi autori di GPT3. Non sarà certo un caso che essi abbiano usato le stesse tecniche alla base del generatore linguistico per produrre un Jukebox automatico capace di sfornare nuove canzoni a getto continuo. L’idea alla base di OpenAI Jukebox è semplice: per ciascuno stile che si vuole imitare, ad esempio il Country o il Rock, si forniscono numerosi esempi. La macchina apprenderà qualcosa dello stile musicale in un processo per certi versi simile a quello del campionamento (ma in realtà molto più sofisticato), e sarà poi in grado di generare sequenze somiglianti a quelle osservate. Se è vero che in musica non si possono dire cose equivocabili, ci potremmo aspettare risultati molto soddisfacenti. E invece (a mio avviso) non è così.
Le canzoni di Jukebox sono ondivaghe tanto quanto i testi di GPT3. Sicuramente, danno la chiara percezione dello stile: si può distinguere il carattere melodico del Country, si colgono bene le asprezze dell’Hard Rock. Ma provate, dopo aver ascoltato due o tre volte una canzone, a canticchiarla. Chiunque abbia buon orecchio lo può fare facilmente con una canzone umana. Molto più difficile è imprimere rapidamente nella memoria le sequenze generate dall’AI. Sembra infatti che il loro contorno sia localmente coerente, ma non presenti quelle strutture, come strofe e ritornelli, caratteristiche delle canzoni a cui siamo abituati, che le rendono facilmente orecchiabili.
La prima opera teatrale scritta da robot: il progetto THEaiTRE
La Illiac Suite di Lejaren Hiller
La generazione automatica di musica non è certo, per l’AI, una grande novità. I primi esperimenti risalgono addirittura agli anni ’50 del secolo scorso, con la Illiac Suite di Lejaren Hiller. Egli utilizzò allo scopo quello che era al tempo il migliore supercomputer a valvole, ma si trattava di una macchina di capacità di gran lunga inferiori a quelle che oggi abbiamo nel più stupido degli smart-qualcosa. Ebbene: c’è molta differenza tra la Illiac Suite e ciò che oggi otteniamo con array di processori, terabyte di dati e megawatt di energia elettrica? Non quanta ce ne potremmo aspettare.
La Illiac Suite si compone di quattro movimenti-esperimenti. Nel primo, Hiller non fece altro che codificare alcune regole di armonia, contrappunto e condotta delle parti. Ne uscì qualcosa che ricorda un po’ Benjamin Britten, cioè una musica (al tempo) contemporanea ma tonale e conforme alle tradizioni della musica occidentale. Nella seconda, Hiller cambiò qualcosa nella codifica e dalle valvole di Illiac uscì un pezzo minimalista alla Arvo Pärt. Nel terzo esperimento giocò con ritmi e dinamiche, e Illiac strizzò l’occhio a Bartok e Janáček. Il quarto esperimento fa un passo verso la statistica che oggi trionfa nelle reti neurali, usando un modello markoviano in grado di catturare sequenze che si possono ottenere dal campionamento di quello che oggi chiameremmo un dataset. Il risultato affascinò Yannis Xenakis, eclettico pioniere della musica stocastica, con cui Hiller in seguito collaborò.
Conclusioni
Quasi settanta anni sono trascorsi da quelle esperienze, ma i progressi dell’AI in questo settore non hanno viaggiato a velocità pari a quelle di altri campi.
Questo perché la musica è un prodotto della creatività umana dove si compongono, in giochi combinatori complessi, linee orizzontali (melodiche e ritmiche), linee verticali (armoniche e contrappuntistiche), incastonate in strutture di varia ampiezza. I moderni approcci neurali non sembrano ancora in grado di catturare questa compenetrazione di piani in tutto il loro dispiegamento. Per farlo, sembra inevitabile il ricorso a regole strutturali, cioè a nozioni a-priori impartite in qualche modo astratto, ad esempio nei corsi di composizione del conservatorio.
Le canzoni di Jukebox, se le ascoltiamo bene, ci ammoniscono sui limiti dei nostri automi e sulla necessità di non dismettere la nostra capacità critica di fronte ai notevoli progressi della data-science tecnologizzata. In particolare, quelle canzoni svelano l’illusione di poter trarre solo dalla materia informe dei dati le ampie e complesse strutture di cui si nutre il nostro intelletto.