Annotazione e attività di preparazione dei testi

Le specifiche tecniche dell'ambiente di annotazione web e dei modelli di marcatura dei testi delle opere di Aldo Moro

L'ambiente di marcatura

Per le attività di preparazione dei testi delle opere di Aldo Moro il progetto tecnico-scientifico ha sviluppato un ambiente web di marcatura semiautomatico e facilitato, ma altamente sofisticato nelle funzionalità di indicizzazione ed elaborazione dei testi.

L’ambiente di marcatura è basato sul prototipo KwicKwocKwac (KeyWords In Context, KeyWord Out of Context, KeyWord Alongside Context) realizzato dal Prof. Fabio Vitali (Dipartimento di Informatica - Scienza e Ingegneria dell’Università di Bologna). L’applicazione del Prof. Vitali consente di estrarre dai testi digitali le concordanze, cioè gli elenchi alfabetici delle parole che compaiono in un testo con l’indicazione del loro contesto e dei luoghi in cui compaiono, in modo da facilitare l’analisi semantica da parte dei ricercatori esperti dei domini disciplinari consentendo loro di annotare gli elementi intratestuali di interesse e di risolvere le ambiguità semantiche e ricondurre anche le menzioni indirette alle entità marcate e identificate univocamente.

Il trattamento dei testi avviene all'interno dell'ambiente secondo modalità di marcatura e metadatazione semi-automatiche. La codifica degli elementi intratestuali e strutturali dei testi segue lo standard Resource Description Framework in attributes (RDFa), un modello basato sul Resource Description Framework (RDF) che permette di incorporare dati semantici strutturati e interpretabili da software direttamente nel codice HTML attraverso l’utilizzo di specifici attributi di marcatura.

La piattaforma si interfaccia inoltre alla knowledge base online Wikidata e al Dizionario Biografico degli italiani Treccani, associando un ID univoco per ogni entità menzionata all’interno dei documenti garantendo così l’autenticità e il controllo dei dati.

La struttura dell'ambiente di marcatura presenta Node.js come tecnologia di back-end affiancato da npm per la gestione dei pacchetti e delle librerie utilizzate dalla piattaforma.

Per lo sviluppo front-end, il progetto ha utilizzato principalmente framework quali JQuery per la manipolazione dell'HTML e Bootstrap per lo stile CSS.

La memorizzazione dei metadati relativi ai documenti è stata affidata al database management system MongoDB, attualmente in uso in molti sistemi informatici.

Per garantire una maggiore sicurezza dei dati, l'accesso alla piattaforma è controllato da un sistema di autenticazione tramite JSON web token e la registrazione è possibile solo attraverso i gestori dell'ambiente.

Il modello di marcatura

Nell'ambito delle attività di preparazione dell'ambiente di annotazione sono stati ralizzati i modelli di marcatura dei testi delle opere di Aldo Moro con standard aperti e ampiamente utilizzati dalla comunità scientifica tenendo conto delle preferenze indicate dal Comitato Scientifico dell’Edizione.

I modelli sono stati utilizzati per la rappresentazione degli elementi strutturali e intratestuali dei documenti. Particolare attenzione è stata dedicata alla cattura delle informazioni semantiche legate alle persone, luoghi, e organizzazioni, riferimenti bibliografici, e citazioni menzionate all’interno del testo, in modo da poter predisporre indici di ricerca semantici per navigare efficacemente il corpus di opere.

La codifica degli elementi intratestuali e strutturali dei testi segue lo standard Resource Description Framework in Attributes (RDFa, https://www.w3.org/TR/rdfa-primer/), un modello basato sul Resource Description Framework (RDF, https://www.w3.org/TR/rdf11-primer/) che permette di incorporare dati semantici strutturati e leggibili dalle macchine direttamente nel codice HTML attraverso l'utilizzo di specifici attributi di marcatura.

La codifica dei metadati, delle informazioni paratestuali, e in generale del contesto correlato ai testi, segue lo standard RDF.

I file HTML-RDFa sono utilizzati per visualizzare i singoli documenti e contenere le informazioni a loro interne, mentre un dataset RDF esterno è predisposto per aggregare ed esporre le informazioni esterne e contestuali relative ai testi. Data la possibilità di scaricare i testi anche in formato XML, è stato costruito anche un modello di marcatura basato sulle Linee Guida del consorzio Text Encoding Initiative (TEI, https://tei-c.org/), in modo da fornire anche una modellazione dei dati e metadati alternativa al paradigma RDF.