Negli ultimi anni, l’attenzione di un numero crescente di ricercatori in Natural Language Processing (NLP) studia i potenziali elementi di criticità presenti nei dataset usati per il pre-training dei Language Model. Uno dei temi principali riguarda la scarsa o assente documentazione di queste risorse computazionali, che spesso vengono descritte in modo generico in molti paper di presentazione dei Language Model.
Presentiamo alcune pratiche documentative e problemi aperti relativi al processo di creazione e rilascio di corpora e dataset per questo tipo di task.
Documentare i dataset, imparare dagli archivi
Uno dei primi contributi che pongono l’accento sul problema della scarsa documentazione dei dataset è On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? (Bender et al, 2021) la cui pubblicazione portò al licenziamento di Timnit Gebru da Google nel 2020[1]. Nell’elencare una serie di pericoli legati allo sviluppo dei Language Model, il paper segnala il documentation debt, ossia l’assenza di una descrizione trasparente di come i dati di pre-training vengano raccolti e utilizzati per l’addestramento dei Language Model.
I cinque problemi che le pratiche archivistiche potrebbero risolvere
Lo stesso problema è trattato in modo più operativo in Lessons from Archives: Strategies for Collecting Sociocultural Data in Machine Learning (Jo e Gebru, 2020). L’ipotesi delle autrici è che, sebbene corpora e archivi siano collezioni nate da esigenze e obiettivi di ricerca molto diversi, le pratiche consolidatesi in ambito archivistico potrebbero mitigare cinque problemi relativi alla creazione dei corpora usati in NLP.
Mission statement
Spesso i dataset vengono creati raccogliendo i documenti disponibili, ma questi dati contengono sottorappresentazioni di gruppi storicamente marginalizzati. Il mission statement è un criterio programmatico che definisce la raccolta e l’organizzazione dei dati in archivi focalizzati su temi specifici. Un esempio di archivio con un mission statement ben definito è la Schlesinger Library[2], che dagli anni Quaranta del Novecento a oggi si occupa di documentare la vita delle donne americane (James, 1968). Definire un mission statement potrebbe essere utile sia a orientare la collezione dei dati verso determinati obiettivi, sia a costruire dataset più bilanciati.
Community Archives
I processi di annotazione si basano su schemi rigidi: il team di ricerca definisce una tassonomia di etichette e gli annotatori la utilizzano per classificare documenti. Se da un lato questa modalità ha il pregio di essere altamente standardizzabile, dall’altro comprime la diversità e il background degli annotatori. I Community Archives, ovvero progetti di raccolta dati tematici gestiti dal basso dalle stesse comunità di persone, potrebbero essere un modo per integrare le pratiche di annotazione attuali con nuove forme di acquisizione di conoscenza generate dal basso.
Data consortia
Nonostante esistano diversi consorzi nati con l’obiettivo di gestire e rendere accessibili risorse linguistiche (Liberman e Cieri, 1998; Rehm et al, 2020), i progetti dedicati a raccogliere e documentare i dataset usati per il pre-training sono ancora rari. HuggingFace effettua un grosso lavoro di raccolta e di documentazione dei dataset (Pushkarna et al, 2022), ma spesso si tratta di informazioni ex-post, che in molti casi non sono effettuate direttamente dagli enti che creano questi dati.
Trasparenza
Anche in questo caso le pratiche adottate nelle scienze archivistiche sono confluite in una serie di modelli per la documentazione dei dataset sempre più complessi e multidimensionali come il data statement (Bender e Friedman, 2018) e il datasheet (Gebru et al, 2021). Quest’ultimo, in particolare, è uno schema per la documentazione composto da una serie di domande suddivise in 7 ambiti tematici che permettono di descrivere in modo esauriente l’intero ciclo vita di un dataset: motivazione alla base della raccolta, composizione del dataset, metodologia di raccolta dei dati, pulizia dei dati, utilizzo, modalità di distribuzione e mantenimento della risorsa
Protocolli etici
Un’ultima pratica trasferibile dal mondo degli archivi a quello del NLP riguarda la realizzazione di codici di condotta e linee guida etiche adottate dalla comunità internazionale, come quelle elaborate dall’International Council on Archives[3]
L’approccio della comunità di NLP alla documentazione
Sia La comunità NLP sia alcune grandi aziende che sviluppano i Language Model sembrano aver recepito alcune pratiche derivanti dalle scienze archivistiche. È innanzitutto evidente uno sforzo da parte della comunità scientifica per elaborare protocolli etici condivisi da chiunque decida di partecipare alle più importanti conferenze di settore. Per esempio, all’interno del circuito ACL è ormai obbligatorio compilare un questionario di assessment relativo ai problemi etici connessi alla creazione di nuovi corpora e dataset. Parallelamente, è sempre più diffusa la tendenza da parte dei team di ricerca di allegare alla propria risorsa un data statement o un datasheet, nell’ottica di fornire una maggiore trasparenza relativa al corpus rilasciato. Questa stessa attenzione sembra anche aver attecchito all’interno delle principali aziende che sviluppano Language Model. Per esempio il modo generico in cui Google descrive i dataset usati per addestrare BERT (Kenton et al, 2019) è molto diverso rispetto agli sforzi documentativi messi in atto dalla stessa azienda per il dataset usato durante l’addestramento di PaLM (Chowdhery et al, 2022), accompagnato persino da un datasheet.
Sfortunatamente, alle pratiche documentali di queste aziende non ha fatto seguito il rilascio delle risorse effettivamente utilizzate per l’addestramento dei Language Model. Nella maggior parte dei casi, infatti, i dataset non vengono rilasciati e questo rende impossibile replicare gli esperimenti di training in modo esatto. A ciò si aggiunge una tendenza a citare le risorse utilizzate in modo generico. All’interno del paper che presenta BERT (Kenton et al, 2019) viene menzionato l’uso della versione inglese di Wikipedia per il pre-training, senza però specificare quale dump sia stato utilizzato. Il paper che presenta GPT-3 (Brown et al, 2020) definisce due corpora di libri usati durante il pre-training come Books1 e Books2, senza citare in alcun modo la provenienza di questi testi.
Il BookCorpus, in particolare, è stato oggetto di un datasheet retrospettivo (Bandi e Vincent, 2021) che, oltre a mettere in luce la vaghezza con cui viene definito e citato, ha evidenziato diversi problemi mai menzionati nella reportistica relativa ai Language Model: la presenza di duplicati, la violazione del copyright e lo sbilanciamento dei generi letterari all’interno della collezione
Un ultimo aspetto problematico riguarda il mission statement dei dataset utilizzati per il pre-training. Molti di questi infatti sono stati rilasciati diversi anni prima rispetto alla diffusione dei Language Model con obiettivi completamente diversi. Tra questi c’è proprio il BookCorpus (Zhu et al, 2015), utilizzato nel pre-training di un ampio numero di Language Model, ma sviluppato con l’obiettivo di produrre descrizioni esplicative di contenuti visuali associati a libri e film. Un’alternativa virtuosa ma isolata a questa tendenza è rappresentata dal ROOTS corpus (Laurençon et al, 2022), creato in modo partecipativo nell’ambito dell’iniziativa BigScience[4]e documentato in ogni passaggio in modo trasparente e replicabile.
Conclusioni
Se quindi le pratiche archivistiche hanno in qualche modo plasmato i processi di creazione di risorse per il NLP, l’assenza di accessibilità e trasparenza legata alla composizione di queste risorse è un problema ancora aperto, soprattutto tra le grandi aziende che negli ultimi anni hanno rilasciato alcuni dei Language Model più utilizzati e studiati dalla comunità scientifica e non solo.
Bibliografia
Bandy, J., & Vincent, N. (2021). Addressing” documentation debt” in machine learning research: A retrospective datasheet for bookcorpus. arXiv preprint arXiv:2105.05241
Bender, E. M., & Friedman, B. (2018). Data statements for natural language processing: Toward mitigating system bias and enabling better science. Transactions of the Association for Computational Linguistics, 6, 587-604.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021, March). On the dangers of stochastic parrots: Can language models be too big?🦜. In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency (pp. 610-623).
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., … & Fiedel, N. (2022). Palm: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311.
Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D., & Crawford, K. (2021). Datasheets for datasets. Communications of the ACM, 64(12), 86-92.
James, J. W. (1968). History and Women at Harvard: The Schlesinger Library.
Jo, E. S., & Gebru, T. (2020, January). Lessons from archives: Strategies for collecting sociocultural data in machine learning. In Proceedings of the 2020 conference on fairness, accountability, and transparency (pp. 306-316).
Kenton, J. D. M. W. C., & Toutanova, L. K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of NAACL-HLT (pp. 4171-4186).
Laurençon, H., Saulnier, L., Wang, T., Akiki, C., Villanova del Moral, A., Le Scao, T., … & Jernite, Y. (2022). The bigscience roots corpus: A 1.6 tb composite multilingual dataset. Advances in Neural Information Processing Systems, 35, 31809-31826.
Liberman, M., & Cieri, C. (1998). The creation, distribution and use of linguistic data: the case of the linguistic data consortium. In LREC (pp. 159-166).
Pushkarna, M., Zaldivar, A., & Kjartansson, O. (2022, June). Data cards: Purposeful and transparent dataset documentation for responsible ai. In Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency (pp. 1776-1826).
Rehm, G., Berger, M., Elsholz, E., Hegele, S., Kintzel, F., Marheinecke, K., … & Klejch, O. (2020, May). European Language Grid: An Overview. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3366-3380).
[1] https://www.technologyreview.com/2020/12/04/1013294/google-ai-ethics-research-paper-forced-out-timnit-gebru/
[2] https://www.radcliffe.harvard.edu/schlesinger-library
[3] https://www.ica.org/en/ica-code-ethics
[4] https://bigscience.huggingface.co/