L’impatto dell’intelligenza artificiale generativa sulla produttività degli sviluppatori software viene analizzato nello studio intitolato “The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers[1]“, condotto da Kevin Zheyuan Cui, Mert Demirer, Sonia Jaffe, Leon Musolff, Sida Peng e Tobias Salz (settembre 2024). Gli autori hanno condotto tre esperimenti sul campo randomizzati: gli sviluppatori vengono assegnati in modo casuale a gruppi che utilizzano GitHub Copilot, un assistente di codifica basato su AI e a gruppi di controllo senza accesso all’AI.
Lo studio
Lo studio, realizzato presso Microsoft, Accenture e una multinazionale manifatturiera di elettronica, ha coinvolto quasi 5.000 sviluppatori. I risultati mostrano un aumento del 26% nel numero di task completati tra coloro che utilizzavano Copilot, con un impatto particolarmente positivo per i programmatori meno esperti, che hanno registrato guadagni di produttività superiori rispetto ai colleghi più senior. Economisti come Agrawal, Gans e Goldfarb (2019) e Furman e Seamans (2019) hanno previsto che l’AI generativa influenzerà profondamente l’organizzazione dell’attività economica. Eloundou et al. (2023) stimano che l’intelligenza artificiale sarà in grado di svolgere compiti che riguardano oltre l’80% delle professioni negli Stati Uniti, con un impatto maggiore su quelle che richiedono un alto livello di istruzione.
La capacità dell’AI di supportare lavori altamente qualificati
La capacità dell’AI di supportare lavori altamente qualificati, come diagnosi mediche, redazione di documenti legali o sviluppo di software, è considerata in grado di generare significativi guadagni di produttività (Baily, Brynjolfsson e Korinek 2023). Altri studiosi, come Acemoglu (2024)[2], sono meno ottimisti riguardo a questi benefici. Nonostante ci sia ancora incertezza sulla volontà delle aziende di adottare tali tecnologie e sugli investimenti complementari necessari (Bresnahan 2024; Brynjolfsson et al. 2021), alcune applicazioni dell’AI generativa sono già mature e integrate nei flussi di lavoro.
Il campo di indagine e lo strumento utilizzato nello studio
I tre esperimenti randomizzati sul campo sono stati condotti presso Microsoft, Accenture e una multinazionale anonima del settore manifatturiero di elettronica. In ciascuno di questi esperimenti, un gruppo di sviluppatori ha avuto accesso a Copilot, mentre un altro gruppo di controllo non lo ha utilizzato per un certo periodo di tempo. Gli esperimenti si sono svolti in periodi differenti: il primo presso Microsoft tra il 2022 e il 2023, il secondo presso Accenture nel 2023, e il terzo presso la multinazionale anonima tra il 2023 e il 2024.
Genesi e obiettivi di Copilot
Copilot è stato sviluppato da GitHub in collaborazione con OpenAI, utilizzando tecniche avanzate di machine learning e processing del linguaggio naturale. Lo strumento suggerisce completamenti di codice intelligenti e offre auto completamento all’interno degli ambienti di sviluppo software, basandosi su un vasto insieme di dati raccolti da repository pubblici su GitHub. L’obiettivo principale di Copilot è risparmiare tempo ai programmatori, migliorando potenzialmente la qualità del codice suggerendo soluzioni o pratiche che il programmatore potrebbe non conoscere. Chiaramente, come tutti gli strumenti basati su modelli di linguaggio, Copilot può commettere errori, la sua adozione richiede di conseguenza una revisione umana del codice.
Monitoraggio della produttività e risultati: cosa è emerso dallo studio
Per monitorare la produttività degli sviluppatori, sono stati utilizzati vari parametri, come il numero di “pull request” (modifiche proposte al codice), i “commit” (aggiornamenti al codice) e i tentativi di compilazione. L’analisi si è concentrata sul confronto tra i gruppi di controllo e quelli che utilizzavano Copilot, con l’obiettivo di quantificare i miglioramenti nella produttività dovuti all’uso di questo assistente AI.
L’assegnazione casuale dei partecipanti ai gruppi sperimentali e a quelli di controllo ha permesso di misurare in modo preciso l’impatto dell’uso di GitHub Copilot sulla produttività. I risultati sono stati ottenuti utilizzando un modello di regressione che ha tenuto conto delle differenze individuali tra gli sviluppatori e le variazioni temporali. I risultati degli esperimenti sull’adozione di GitHub Copilot hanno evidentziato un aumento significativo della produttività tra gli sviluppatori che hanno utilizzato lo strumento AI. Il numero di task completati settimanalmente è aumentato in media del 26,08% rispetto al gruppo di controllo.
Implicazioni dei risultati
Oltre ai task completati, si è registrato un incremento del 13,55% nel numero di aggiornamenti al codice (“commit“) e del 38,38% nei tentativi di compilazione.
Questi dati indicano che Copilot non solo accelera il processo di sviluppo del codice, ma favorisce anche l’esecuzione di operazioni più complesse, come la compilazione del software. I benefici di Copilot sono stati più pronunciati tra i programmatori meno esperti o con minore anzianità nelle aziende partecipanti. I nuovi assunti e i lavoratori in posizioni junior hanno registrato i maggiori guadagni di produttività, con tassi di adozione più elevati e un utilizzo più continuativo dello strumento. Al contrario, gli sviluppatori più senior hanno adottato Copilot in misura minore e mostrato aumenti di produttività più modesti. Nel corso degli esperimenti è emersa una variabilità nei risultati tra i partecipanti, anche a causa della successiva disponibilità di Copilot per il gruppo di controllo, che ha ridotto il divario tra i due gruppi. Nonostante queste dinamiche, i risultati confermano che l’intelligenza artificiale generativa ha avuto un impatto positivo significativo sulla produttività degli sviluppatori software.
Conclusioni
L’analisi degli esperimenti sull’uso di GitHub Copilot dimostra chiaramente l’impatto positivo che l’intelligenza artificiale generativa può avere sulla produttività degli sviluppatori software. I risultati indicano un incremento medio del 26,08% nel numero di task completati, con dati raccolti in ambienti lavorativi reali e su quasi 5.000 sviluppatori di tre grandi aziende. L’effetto maggiore è stato osservato tra i programmatori meno esperti, mentre quelli più senior hanno mostrato miglioramenti meno marcati. Questi risultati evidenziano il potenziale delle tecnologie AI per migliorare l’efficienza nel lavoro ad alta specializzazione, offrendo supporto concreto soprattutto ai lavoratori con minore esperienza. Le implicazioni di questo studio sono significative, non solo per il settore dello sviluppo software, ma anche per altre professioni ad alta qualificazione, aprendo nuove prospettive di ricerca sugli effetti della generative AI in diversi contesti lavorativi.
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4945566
[2] https://www.agendadigitale.eu/industry-4-0/limpatto-dellia-su-produttivita-e-pil-un-futuro-di-benessere-o-nuove-disparita/