scenari

Dalla biblioteca al database: il futuro delle fonti storiche con IA e digitale



Indirizzo copiato

L’integrazione dell’intelligenza artificiale negli studi storici rappresenta una svolta epocale. Attraverso tecniche avanzate come la Explainable AI, i ricercatori possono gestire grandi volumi di dati storici, accelerando il processo di analisi e offrendo nuove prospettive

Pubblicato il 24 dic 2024

Matteo Valleriani

Research Group Leader in Dept. I, Honorary Professor at the Technische Universität Berlin, Tel Aviv University



storia (1)

Possiamo immaginare un’intelligenza artificiale che scrive la nostra storia? Posta in questi termini, la risposta è attualmente negativa. Tuttavia, siamo già a buon punto nel processo di integrazione delle tecnologie digitali, in particolare dell’intelligenza artificiale, negli studi storici. Ma come avviene questo cambiamento e con quali implicazioni?

Negli ultimi vent’anni, il campo delle “Digital Humanities” (DH) si è affermato come parte integrante degli studi storici. Tuttavia, l’uso di applicazioni più avanzate, come i modelli della teoria dei sistemi complessi o il machine learning (ML), rimane ancora raro. Gli sviluppi recenti, però, indicano una rapida integrazione di questi approcci, promettendo di trasformare non solo la pratica storica ma anche la ricerca e lo sviluppo dell’intelligenza artificiale stessa.

La trasformazione del concetto di “fonte storica”

Riviste specializzate in DH e ML stanno diffondendo modelli di intelligenza artificiale applicati all’estrazione di dati da fonti storiche.[1] La digitalizzazione massiva ha reso disponibili enormi quantità di documenti storici, permettendo a ricercatori, progetti istituzionali e istituzioni come archivi e biblioteche di utilizzare modelli di IA per estrarre dati non solo testuali ma anche visivi, come illustrazioni, decorazioni e frontespizi. Questi processi stanno ridefinendo il concetto stesso di “fonte storica.”

Tradizionalmente, una fonte storica era rappresentata da un oggetto fisico, come un libro o un documento, custodito in biblioteche e musei. La digitalizzazione ha introdotto il PDF come nuova unità base, ma l’analisi e l’annotazione delle fonti rimangono tutt’oggi processi manuali. Con l’avvento dell’intelligenza artificiale, tuttavia, è diventato possibile estrarre dati in modo più sistematico, portando alla creazione di banche dati ordinate e interconnesse.

Questo progresso segna un passaggio cruciale: la fonte storica non è più considerata nella sua interezza, ma scomposta in frammenti digitali, da cui si estraggono dati utili per creare connessioni tra fonti diverse. Ciò è reso possibile grazie a modelli di ML capaci di segmentare, analizzare e annotare automaticamente le fonti digitalizzate.

Un nuovo approccio alla ricerca storica

L’integrazione dell’IA trasforma anche il modo in cui si svolge la ricerca. Le annotazioni manuali degli studiosi vengono ora affiancate da estrazioni sistematiche che consentono di analizzare enormi quantità di dati, impossibili da gestire con metodi tradizionali. L’uso di tecniche come la “Explainable Artificial Intelligence” (XAI) permette inoltre di comprendere il funzionamento dei modelli di IA, offrendo nuove prospettive interpretative (El-Hajj et al. 2023).

Ad esempio, recenti ricerche hanno utilizzato l’IA per analizzare tabelle astronomico-computazionali di testi rinascimentali. Questi dati, fondamentali per comprendere l’evoluzione dell’astronomia matematica, sono stati estratti e classificati automaticamente, permettendo di identificare somiglianze e differenze tra migliaia di pagine. Un lavoro che avrebbe richiesto decenni di analisi manuale è stato così completato in tempi significativamente ridotti (Eberle et al. 2024) (Figura 1).

Questo approccio introduce un nuovo rapporto tra micro e macro-storia: gli studiosi possono ora concentrare le loro analisi dettagliate su elementi specifici, guidati da tendenze generali identificate dall’IA. In altre parole, l’IA diventa uno strumento essenziale per selezionare le fonti più rilevanti.

Le sfide del futuro

L’integrazione stabile di modelli di IA nelle istituzioni dedicate alla preservazione della memoria comporterà un cambiamento radicale. Biblioteche, musei e archivi si trasformeranno in veri e propri centri di dati, offrendo agli studiosi non solo accesso alle fonti tradizionali, ma anche nuove modalità di analisi multimodale. Sarà possibile, ad esempio, cercare una particolare illustrazione e ottenere immediatamente tutte le fonti correlate.

Tuttavia, questo progresso pone anche nuove sfide. L’accumulazione di dati su vasta scala richiede nuovi strumenti analitici e modelli di intelligenza artificiale sempre più sofisticati. Inoltre, resta il compito di bilanciare il rapporto tra l’autonomia delle macchine e l’interpretazione umana, evitando di perdere il contatto diretto con le fonti storiche.

Conclusioni

Il futuro delle scienze storiche sarà caratterizzato da un’interazione sempre più stretta tra intelligenza umana e artificiale. Questo dialogo consentirà non solo di approfondire la comprensione del passato, ma anche di ridefinire i confini tra scienze umane e scienze esatte. Sarà un ritorno alle origini, quando la divisione tra queste discipline non esisteva ancora, con la matematica a fungere da trait d’union.

Bibliografia

Eberle, Oliver, Jochen Büttner, Hassan El-Hajj, Grégoire Montavon, Klaus-Robert Müller, and Matteo Valleriani. 2024. “Historical insights at scale: A corpus-wide machine learning analysis of early modern astronomic tables.” Science Advances 10 (43). doi: 10.1126/sciadv.adj1719.

El-Hajj, Hassan, Oliver Eberle, Anika Merklein, Anna Siebold, Noga Shlomi, Jochen Büttner, Julius Martinetz, Grégoire Montavon, Klaus-Robert Müller, and Matteo Valleriani. 2023. “Explainability and transparency in the realm of digital humanities: toward a historian XAI.”  International Journal of Digital Humanities 5:299–331. doi: https://doi.org/10.1007/s42803-023-00070-1.

Figura 1. Struttura di atomizzazione-ricomposizione per l’apprendimento dei modelli in contesti di con poche annotazioni.

(A) Workflow che ha inizio da una raccolta non strutturata di fonti storiche (Collezione Sacrobosco), che viene atomizzata in tabelle e singole cifre, che un modello ML è in grado di rilevare, ricomposta in bigrammi interpretabili dall’utente e infine in istogrammi che consentono analisi non supervisionate basate su ML per tutto il dataset.

(B) Dettagli dell’estrazione dei bigrammi nel workflow di atomizzazione-ricomposizione. Un modello di riconoscimento delle cifre della rete neurale attiva i punti in cui si trovano le cifre nell’immagine di input e le mappe di attivazione delle cifre risultanti vengono ricomposte attraverso operazioni specifiche in bigrammi numerici più specifici per il compito. (C) I punteggi di somiglianza su cui operano le analisi basate su ML sono verificati tramite XAI, in particolare la tecnica BiLRP, che evidenzia come i punteggi di somiglianza derivino dalla rappresentazione dei pixel. Illustrazione e didascalia estratte da (Eberle et al. 2024).


[1] Transkribus: una piattaforma per il riconoscimento del testo scritto a mano (HTR), ampiamente utilizzata per la trascrizione di manoscritti e documenti storici. Utilizza reti neurali per addestrare modelli che distinguono stili e layout di scrittura specifici: Transkribus, READ-COOP, https://readcoop.eu/transkribus; Google Cloud Vision API: uno strumento generico per il riconoscimento delle immagini e dei caratteri ottici (OCR), spesso usato per la digitalizzazione di documenti storici e l’estrazione di dati: Google Cloud Vision API, Google Cloud, https://cloud.google.com/vision; Kraken: Un motore OCR e di analisi del layout open-source progettato per documenti storici e non standard, che consente la segmentazione e la trascrizione di layout di pagina complessi: Ben Kiessling, Kraken: An Open Source OCR Engine for Historical and Non-Standard Documents, https://github.com/mittagessen/kraken; CorDeep: Un modello in grado di catturare e annotare tutti gli elementi visivi nelle fonti storiche rinascimentali: CorDeep, Progetto Sphere, Istituto Max Planck per la Storia della Scienza, BIFOLD: https://cordeep.mpiwg-berlin.mpg.de.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4