Uno degli aspetti più affascinanti del diritto d’autore riguarda la programmazione o coding. In molte legislazioni i software, o meglio i codici di programmazione che li compongono, sono considerati alla stregua di opere artistiche, rientrando quindi nelle categorizzazioni normative relative. Pensiamo, ad esempio, al Canada oppure alla Cina: paesi culturalmente ed economicamente differenti, che in entrambi i casi offrono soluzioni simili per la tutela del copyright relativo ai software.
Anche in Italia i programmi informatici sono tutelati dalla normativa sul diritto d’autore in quanto ritenuti opere dell’ingegno a carattere creativo. La legge sul diritto d’autore (l. 633/1941) equipara il software, nei suoi codici sorgente e codici oggetto, alle opere letterarie. Questa protezione è d’ altronde in linea anche con l’accordo TRIPs a livello internazionale.
Il caso di GitHub Copilot e le sfide legali
Con l’avvento dei modelli di AI generativa, la discussione sulla liceità o meno di alcuni modelli è all’ordine delle discussioni quotidiane.
GitHub Copilot è, in questo senso, uno strumento davvero innovativo. Creato da Microsoft e OpenAI, permette infatti agli sviluppatori, attraverso dei suggerimenti mirati, di ricevere in tempo reale frammenti di codice da utilizzare per il proprio progetto. Copilot utilizza modelli di machine learning addestrati su repository di codice pubblico, ed ha sollevato già da tempo, come tutti gli altri modelli di AI Generativa, discussioni su proprietà intellettuale e conformità delle licenze.
Coplot si è trovato per questo al centro di una causa civile importante, accusato, a causa del crawling che ha comportato l’addestramento del modello, di aver violato le leggi sul copyright e gli accordi di licenza open source previsti dalle repository. I reclamanti hanno sostenuto, in un procedimento incardinato presso la Corte Distrettuale della Carolina del Nord, che Copilot, addestrato su archivi digitali, avrebbe riprodotto il loro codice, protetto da copyright, senza la dovuta attribuzione o il rispetto dei termini di licenza.
Le principali rivendicazioni legali
Le principali rivendicazioni legali si sostanziavano nella:
- Violazione della Sezione 1202(b) del Digital Millennium Copyright Act (DMCA);
- Violazione degli accordi di licenza open source;
- Potenziale generazione di output di codice identici;
- Accuse di memorizzazione e output di dati di addestramento da parte dei modelli di AI;
Le 15 pagine della sentenza firmata dal giudice Kon S. Tigar contengono una serie di elementi molto interessanti.
Violazioni del DMCA e la risposta dei tribunali
Innanzitutto, l’accusa di violazione del DMCA è stata respinta dal tribunale. I querelanti sostenevano che Copilot avesse rimosso o alterato, contravvenendo alla Sezione 1202(B) le informazioni di gestione del copyright (Removal or Alteration of Copyright Management Information), permettendo la riproduzione non autorizzata del codice. Tuttavia, il tribunale non ha trovato prove sufficienti di questa pratica, sottolineando la necessità di dimostrare concretamente tali violazioni nel contesto dell’IA generativa.
La questione degli accordi di licenza open source
La questione della violazione degli accordi di licenza open source, invece, è stata considerata meritevole di ulteriore esame. Il tribunale ha permesso che questa accusa procedesse, riconoscendo quindi la complessità e l’importanza di come l’IA interagisce con le licenze open source. Questo punto potrebbe avere implicazioni significative per il futuro sviluppo e utilizzo di sistemi di IA addestrati su codice aperto, che rappresentano un punto nodale per i diversi promotori di uno sviluppo sostenibile e condiviso non necessariamente legato a logiche proprietarie.
Il Tribunale non ha inoltre aderito alle argomentazioni relative alla capacità di Copilot di generare output di codice identici. È da sottolineare che, diversamente dalle opere artistiche tradizionali, il codice sorgente presenta alcune caratteristiche simili (boilerplate code) ed altre caratteristiche uniche che rendono meno evidenti eventuali similitudini o violazioni del copyright. Le potenziali infrazioni o appropriazioni non autorizzate possono risultare meno palesi in questo contesto e, nel caso di specie, il giudice non le ha ritenute evidenti.
Basterà la similitudine e non la pedissequa eguaglianza di output generato a tenere al riparo? Al momento, almeno nell’ambito del coding, parrebbe di sì.
Impatto dell’IA generativa sui principi del copyright
Per gli sviluppatori sembra essere comunque un momento storico particolarmente intenso. Da una parte, alcune interpretazioni a tutela del copyright sembrano essere in bilico, come dimostrano anche le altre cause in corso negli Stati Uniti relative alla liceità o meno dell’addestramento dei modelli di AI generativa.
D’altra parte, questo fenomeno – sebbene la programmazione possa sembrare lontana anni luce da altri output artistici e creativi – si inserisce in un lento ma sempre più accentuato declino del copyright tradizionale del Novecento. Questa evoluzione sembra essere una delle interpretazioni che il diritto positivo ci obbliga a considerare, alla luce degli sviluppi sociali, culturali, politici e normativi recenti.
Inoltre, così come è già successo nel campo delle licenze Creative Commons, la specificazione che alcuni pezzi di codice Open Source siano stati effettivamente utilizzati – e poi si comprenderà in che modo dare seguito al claim – potrebbe far ripensare la gestione dei contributi e delle licenze nell’era dello sviluppo, mai come questa volta assistito, dell’AI.