scenari

Dalla biblioteca al database: il futuro delle fonti storiche con IA e digitale

L’integrazione dell’intelligenza artificiale negli studi storici rappresenta una svolta epocale. Attraverso tecniche avanzate come la Explainable AI, i ricercatori possono gestire grandi volumi di dati storici, accelerando il processo di analisi e offrendo nuove prospettive

Pubblicato il 24 dic 2024

Matteo Valleriani

Research Group Leader in Dept. I, Honorary Professor at the Technische Universität Berlin, Tel Aviv University

Possiamo immaginare un’intelligenza artificiale che scrive la nostra storia? Posta in questi termini, la risposta è attualmente negativa. Tuttavia, siamo già a buon punto nel processo di integrazione delle tecnologie digitali, in particolare dell’intelligenza artificiale, negli studi storici. Ma come avviene questo cambiamento e con quali implicazioni?

Negli ultimi vent’anni, il campo delle “Digital Humanities” (DH) si è affermato come parte integrante degli studi storici. Tuttavia, l’uso di applicazioni più avanzate, come i modelli della teoria dei sistemi complessi o il machine learning (ML), rimane ancora raro. Gli sviluppi recenti, però, indicano una rapida integrazione di questi approcci, promettendo di trasformare non solo la pratica storica ma anche la ricerca e lo sviluppo dell’intelligenza artificiale stessa.

Studi storici con l’IA: verso le Digital Humanities

Indice degli argomenti

La trasformazione del concetto di “fonte storica”

Riviste specializzate in DH e ML stanno diffondendo modelli di intelligenza artificiale applicati all’estrazione di dati da fonti storiche.[1] La digitalizzazione massiva ha reso disponibili enormi quantità di documenti storici, permettendo a ricercatori, progetti istituzionali e istituzioni come archivi e biblioteche di utilizzare modelli di IA per estrarre dati non solo testuali ma anche visivi, come illustrazioni, decorazioni e frontespizi. Questi processi stanno ridefinendo il concetto stesso di “fonte storica.”

Tradizionalmente, una fonte storica era rappresentata da un oggetto fisico, come un libro o un documento, custodito in biblioteche e musei. La digitalizzazione ha introdotto il PDF come nuova unità base, ma l’analisi e l’annotazione delle fonti rimangono tutt’oggi processi manuali. Con l’avvento dell’intelligenza artificiale, tuttavia, è diventato possibile estrarre dati in modo più sistematico, portando alla creazione di banche dati ordinate e interconnesse.

Questo progresso segna un passaggio cruciale: la fonte storica non è più considerata nella sua interezza, ma scomposta in frammenti digitali, da cui si estraggono dati utili per creare connessioni tra fonti diverse. Ciò è reso possibile grazie a modelli di ML capaci di segmentare, analizzare e annotare automaticamente le fonti digitalizzate.

Un nuovo approccio alla ricerca storica

L’integrazione dell’IA trasforma anche il modo in cui si svolge la ricerca. Le annotazioni manuali degli studiosi vengono ora affiancate da estrazioni sistematiche che consentono di analizzare enormi quantità di dati, impossibili da gestire con metodi tradizionali. L’uso di tecniche come la “Explainable Artificial Intelligence” (XAI) permette inoltre di comprendere il funzionamento dei modelli di IA, offrendo nuove prospettive interpretative (El-Hajj et al. 2023).

Ad esempio, recenti ricerche hanno utilizzato l’IA per analizzare tabelle astronomico-computazionali di testi rinascimentali. Questi dati, fondamentali per comprendere l’evoluzione dell’astronomia matematica, sono stati estratti e classificati automaticamente, permettendo di identificare somiglianze e differenze tra migliaia di pagine. Un lavoro che avrebbe richiesto decenni di analisi manuale è stato così completato in tempi significativamente ridotti (Eberle et al. 2024) (Figura 1).

Questo approccio introduce un nuovo rapporto tra micro e macro-storia: gli studiosi possono ora concentrare le loro analisi dettagliate su elementi specifici, guidati da tendenze generali identificate dall’IA. In altre parole, l’IA diventa uno strumento essenziale per selezionare le fonti più rilevanti.

Le sfide del futuro

L’integrazione stabile di modelli di IA nelle istituzioni dedicate alla preservazione della memoria comporterà un cambiamento radicale. Biblioteche, musei e archivi si trasformeranno in veri e propri centri di dati, offrendo agli studiosi non solo accesso alle fonti tradizionali, ma anche nuove modalità di analisi multimodale. Sarà possibile, ad esempio, cercare una particolare illustrazione e ottenere immediatamente tutte le fonti correlate.

Tuttavia, questo progresso pone anche nuove sfide. L’accumulazione di dati su vasta scala richiede nuovi strumenti analitici e modelli di intelligenza artificiale sempre più sofisticati. Inoltre, resta il compito di bilanciare il rapporto tra l’autonomia delle macchine e l’interpretazione umana, evitando di perdere il contatto diretto con le fonti storiche.

Conclusioni

Il futuro delle scienze storiche sarà caratterizzato da un’interazione sempre più stretta tra intelligenza umana e artificiale. Questo dialogo consentirà non solo di approfondire la comprensione del passato, ma anche di ridefinire i confini tra scienze umane e scienze esatte. Sarà un ritorno alle origini, quando la divisione tra queste discipline non esisteva ancora, con la matematica a fungere da trait d’union.

Bibliografia

Eberle, Oliver, Jochen Büttner, Hassan El-Hajj, Grégoire Montavon, Klaus-Robert Müller, and Matteo Valleriani. 2024. “Historical insights at scale: A corpus-wide machine learning analysis of early modern astronomic tables.” Science Advances 10 (43). doi: 10.1126/sciadv.adj1719.

El-Hajj, Hassan, Oliver Eberle, Anika Merklein, Anna Siebold, Noga Shlomi, Jochen Büttner, Julius Martinetz, Grégoire Montavon, Klaus-Robert Müller, and Matteo Valleriani. 2023. “Explainability and transparency in the realm of digital humanities: toward a historian XAI.” International Journal of Digital Humanities 5:299–331. doi: https://doi.org/10.1007/s42803-023-00070-1.

Figura 1. Struttura di atomizzazione-ricomposizione per l’apprendimento dei modelli in contesti di con poche annotazioni.

(A) Workflow che ha inizio da una raccolta non strutturata di fonti storiche (Collezione Sacrobosco), che viene atomizzata in tabelle e singole cifre, che un modello ML è in grado di rilevare, ricomposta in bigrammi interpretabili dall’utente e infine in istogrammi che consentono analisi non supervisionate basate su ML per tutto il dataset.

(B) Dettagli dell’estrazione dei bigrammi nel workflow di atomizzazione-ricomposizione. Un modello di riconoscimento delle cifre della rete neurale attiva i punti in cui si trovano le cifre nell’immagine di input e le mappe di attivazione delle cifre risultanti vengono ricomposte attraverso operazioni specifiche in bigrammi numerici più specifici per il compito. (C) I punteggi di somiglianza su cui operano le analisi basate su ML sono verificati tramite XAI, in particolare la tecnica BiLRP, che evidenzia come i punteggi di somiglianza derivino dalla rappresentazione dei pixel. Illustrazione e didascalia estratte da (Eberle et al. 2024).

[1] Transkribus: una piattaforma per il riconoscimento del testo scritto a mano (HTR), ampiamente utilizzata per la trascrizione di manoscritti e documenti storici. Utilizza reti neurali per addestrare modelli che distinguono stili e layout di scrittura specifici: Transkribus, READ-COOP, https://readcoop.eu/transkribus; Google Cloud Vision API: uno strumento generico per il riconoscimento delle immagini e dei caratteri ottici (OCR), spesso usato per la digitalizzazione di documenti storici e l’estrazione di dati: Google Cloud Vision API, Google Cloud, https://cloud.google.com/vision; Kraken: Un motore OCR e di analisi del layout open-source progettato per documenti storici e non standard, che consente la segmentazione e la trascrizione di layout di pagina complessi: Ben Kiessling, Kraken: An Open Source OCR Engine for Historical and Non-Standard Documents, https://github.com/mittagessen/kraken; CorDeep: Un modello in grado di catturare e annotare tutti gli elementi visivi nelle fonti storiche rinascimentali: CorDeep, Progetto Sphere, Istituto Max Planck per la Storia della Scienza, BIFOLD: https://cordeep.mpiwg-berlin.mpg.de.

Dalla biblioteca al database: il futuro delle fonti storiche con IA e digitale

La trasformazione del concetto di “fonte storica”

Un nuovo approccio alla ricerca storica

Le sfide del futuro

Conclusioni

Bibliografia

Figura 1. Struttura di atomizzazione-ricomposizione per l’apprendimento dei modelli in contesti di con poche annotazioni.

Matteo Valleriani

Research Group Leader in Dept. I, Honorary Professor at the Technische Universität Berlin, Tel Aviv University

Articoli correlati

Analisi big data: come sfruttarla per ottenere un vantaggio competitivo

Come addestrare i modelli di AI nel rispetto di norme e diritti: lo spiega l'EDPB

COP29, il grande stallo: quando la giustizia climatica si scontra con la realtà

Codice Rss

Codice Rss