RISORSE LINGUISTICHE

Corpora

CORIS/CODIS

CORIS – COrpus di Riferimento per l'Italiano Scritto contemporaneo – è stato sviluppato sotto il coordinamento di Rema Rossini Favretti e Fabio Tamburini a partire dalla fine degli anni '90 ed è disponibile online dal 2001. Si configura come un corpus di riferimento generale sincronico per la lingua scritta, contiene testi autentici e integrali ed è annotato automaticamente rispetto alle categorie grammaticali (PoS-tag) e ai lemmi. La risorsa viene aggiornata ogni tre anni mediante un monitor corpus, così da mantenere il lessico e i rapporti di frequenza tra le varie aree semantiche aggiornati e da cogliere tutte le evoluzioni storiche in corso. Attualmente, con l'ultimo aggiornamento dell'estate 2021, contiene circa 165 milioni di token.

Accanto a CORIS è stato sviluppato CODIS – COrpus Dinamico dell'Italiano Scritto. Pur contenendo gli stessi testi, la struttura dinamica del corpus consente alla/o studiosa/o di selezionare quali porzioni dei materiali di CORIS considerare nelle proprie ricerche, garantendo la possibilità di lavorare su una risorsa costruita secondo criteri di rappresentatività differenti rispetto alla progettazione iniziale e di condurre studi interlinguistici.

CORIS - accesso al corpus

CODIS - accesso al corpus

DiaCORIS

DiaCORIS è corpus diacronico di italiano scritto sviluppato in collaborazione con l'Accademia della Crusca e L'Università di Modena e Reggio Emilia. L'obiettivo della risorsa è di integrare CORIS in una prospettiva diacronica: il corpus contiene testi a partire dall'Unità d'Italia (nel 1861) fino al 2001, inizio temporale dei monitor corpora di CORIS. L'intervallo temporale considerato è suddiviso in cinque sezioni composte da 5 milioni di parole ciascuna, per un totale di 25 milioni di token.

DiaCORIS - accesso al corpus

BoLC - Bononia Legal Corpus

Il Bononia Legal Corpus - BoLC - è un corpus di linguaggio giuridico bilingue raccolto presso l'Università di Bologna sotto il coordinamento da Rema Rossini Favretti e Fabio Tamburini con la consulenza scientifica di John Sinclair. Contiene testi in lingua inglese britannica e in lingua italiana ed è stato strutturato in due sezioni distinte: una prima sezione contiene documenti paralleli, cioè in rapporto di traduzione, ed è basata prevalentemente su documenti dell'Unione Europea (direttive e sentenze); la seconda contiene un corpus comparabile contenente testi estratti dalla giurisprudenza e dalla legislazione dei due paesi. 

BoLC - accesso al subcorpus italiano

BolC - accesso al subcorpus inglese

Corpus UniverS-ITA

All’interno del progetto UniverS-ITA, è attualmente in fase di allestimento un corpus di testi scritti da studenti universitari, costituito da due sezioni.

  • Testi “ad hoc”: testi prodotti appositamente per la creazione del corpus. È stato creato un campione che fosse rappresentativo della popolazione universitaria italiana (in termini di collocazione geografica dell’ateneo e area disciplinare del corso di laurea) e a 2160 studenti è stato chiesto di scrivere un testo formale seguendo una traccia specifica. Il corpus al momento è costituito da 895.332 tokens e i testi sono accompagnati da un ampio corredo di metadati.
  • Testi “non ad hoc”: prime bozze di tesi, relazioni, etc. e articoli estratti da riviste e blog universitari. Questo subcorpus ha dimensioni maggiori del primo (7.550.596 tokens) ma non è costituito da un campione rappresentativo di testi e presenta un numero ridotto di metadati.

Al momento, i due corpora sono consultabili solo dai membri del progetto. Le risorse saranno rese pubbliche sulla piattaforma NoSketch Engine alla conclusione del progetto.

Corpora di parlato patologico

Presso il LLiS sono stati raccolti e vengono attualmente conservati corpora destinati alla descrizione del profilo linguistico di patologie che compromettono la competenza verbale.

  • OPLON [comitato etico Azienda Ospedaliera Reggio Emilia, 2013/0013438]: include le registrazioni audio (trascritte e annotate a livello morfosintattico) del parlato semi-spontaneo di un campione di 48 pazienti con decadimento cognitivo (16 con demenza in fase iniziale e 24 con Mild Cognitive Impairment, reclutati presso l'Arcispedale S.Maria Nuova di Reggio Emilia) e 48 soggetti di controllo bilanciati per sesso, età e scolarità.
  • PMLAN [comitato etico Area Vasta Emilia Centro 683/2019/Oss/AOUBo]: include le produzioni scritte di 53 adolescenti con Anoressia Nervosa (reclutati presso UOS Disturbi dell’alimentazione in età evolutiva - UO  Neuropsichiatria Infantile del Policlinico S. Orsola Malpighi) e 53 coetanei normopeso bilanciati per sesso, età e scolarità.
  • DemCorpus-Basilicata [comitato etico Alma Mater Studiorum - Università di Bologna, n. 0072032 del 29/03/2022]: include le registrazioni audio del parlato semi-spontaneo di un campione di 20 pazienti con decadimento cognitivo (Alzheimer, D. Vascolare, D. fronto-temporale, reclutati presso la Residenza Sanitaria Assistenziale Universo Salute - Opera Don Uva di Potenza) e 20 soggetti di controllo bilanciati per sesso, età e scolarità.
  • ItaASD [comitato etico Alma Mater Studiorum - Università di Bologna, n. 0173455 del 28/07/2022]: attualmente in fase di costruzione, include le registrazioni audio del parlato semi-spontaneo di bambini con Disturbo dello Spettro Autistico (reclutati presso il Centro Medico Riabilitativo di Pompei) e relativi controlli.

Risorse per la Linguistica Clinica

test psicometrici e database

Test del linguaggio

  • T-PEC
    Il test T-PEC è stato sviluppato dal 2016 da un gruppo di linguisti, logopedisti e psicologi delle università di Firenze e Bologna; è finalizzato all’individuazione di bambini con Disturbo Primario di Linguaggio di tipo espressivo in età prescolare
  • SMAAV
    La Batteria SMAAV – Semantic Memory Assessment on Action Verbs si rivolge a (neuro)psicologi e logopedisti che vogliano indagare le competenze semantico-lessicali di pazienti adulti ed anziani nel dominio specifico dei verbi di azione. In particolare, a essere valutate dallo strumento sono le competenze in input e output di tale classe semantica di verbi, che hanno altissima frequenza nelle produzioni spontanee dei parlanti e che dunque costituiscono una componente pivot per il buon funzionamento linguistico, cognitivo e socio-emotivo del paziente. Il test è stato concepito come prova di “secondo livello”: in altri termini, la sua somministrazione è suggerita quando i risultati di un esame neuropsicologico del linguaggio (es. AAT, ENPA) o una batteria finalizzata alla valutazione dello stato cognitivo del soggetto (es. MMSE, MOCA) evidenzino deficit a carico delle abilità lessicali o, più in generale, laddove si intuisca una compromissione della soggiacente competenza semantica.

Database lessicali

  • DILLo - Database Italiano del Lessico per Logopedisti
    DILLo è una risorsa di rete elaborata allo scopo di generare liste di parole filtrate secondo una serie di proprietà linguistiche di tipo fonologico, fonotattico, ortografico, morfologico e relative alla frequenza d’uso. L’applicazione è specificamente progettata sulle esigenze del logopedista, che può, in modo semplice e veloce, effettuare ricerche di parole da proporre al paziente sulla base delle diverse necessità riabilitative. 

Strumenti di annotazione delle produzioni verbali patologiche

  • DLB computational pipeline
    Lo strumento consente di estrarre i cosiddetti "Biomarker Linguistici Digitali" (DLBs, ovvero indici linguistici quantitativi utilizzabili con finalità diagnostica) da testi orali o scritti prodotti da parlanti italofoni. L'architettura software include una serie di moduli integrati (es. ASR, speech segmentation, PoS Tagging, parsing sintattico, estrazione dei DLB) per il calcolo automatico di parametri acustici, ritmici, lessicali e sintattici.