RISORSE LINGUISTICHE

Corpora

CORIS/CODIS

CORIS – COrpus di Riferimento per l'Italiano Scritto contemporaneo – è stato sviluppato sotto il coordinamento di Rema Rossini Favretti e Fabio Tamburini a partire dalla fine degli anni '90 ed è disponibile online dal 2001. Si configura come un corpus di riferimento generale sincronico per la lingua scritta, contiene testi autentici e integrali ed è annotato automaticamente rispetto alle categorie grammaticali (PoS-tag) e ai lemmi. La risorsa viene aggiornata ogni tre anni mediante un monitor corpus, così da mantenere il lessico e i rapporti di frequenza tra le varie aree semantiche aggiornati e da cogliere tutte le evoluzioni storiche in corso. Attualmente, con l'ultimo aggiornamento dell'estate 2021, contiene circa 165 milioni di token.

Accanto a CORIS è stato sviluppato CODIS – COrpus Dinamico dell'Italiano Scritto. Pur contenendo gli stessi testi, la struttura dinamica del corpus consente alla/o studiosa/o di selezionare quali porzioni dei materiali di CORIS considerare nelle proprie ricerche, garantendo la possibilità di lavorare su una risorsa costruita secondo criteri di rappresentatività differenti rispetto alla progettazione iniziale e di condurre studi interlinguistici.

CORIS - accesso al corpus

CODIS - accesso al corpus

DiaCORIS

DiaCORIS è corpus diacronico di italiano scritto sviluppato in collaborazione con l'Accademia della Crusca e L'Università di Modena e Reggio Emilia. L'obiettivo della risorsa è di integrare CORIS in una prospettiva diacronica: il corpus contiene testi a partire dall'Unità d'Italia (nel 1861) fino al 2001, inizio temporale dei monitor corpora di CORIS. L'intervallo temporale considerato è suddiviso in cinque sezioni composte da 5 milioni di parole ciascuna, per un totale di 25 milioni di token.

DiaCORIS - accesso al corpus

BoLC - Bononia Legal Corpus

Il Bononia Legal Corpus - BoLC - è un corpus di linguaggio giuridico bilingue raccolto presso l'Università di Bologna sotto il coordinamento da Rema Rossini Favretti e Fabio Tamburini con la consulenza scientifica di John Sinclair. Contiene testi in lingua inglese britannica e in lingua italiana ed è stato strutturato in due sezioni distinte: una prima sezione contiene documenti paralleli, cioè in rapporto di traduzione, ed è basata prevalentemente su documenti dell'Unione Europea (direttive e sentenze); la seconda contiene un corpus comparabile contenente testi estratti dalla giurisprudenza e dalla legislazione dei due paesi.

BoLC - accesso al subcorpus italiano

BolC - accesso al subcorpus inglese

Corpus UniverS-ITA

Nell'ambito del progetto Univers-ITA (P.I. Nicola Grandi), sono stati creati tre corpora di scritto formale di studenti universitari:

Univers-ITA: raccoglie 2.137 testi (810.715 tokens) redatti da un campione rappresentativo (per collocazione geografica dell'ateneo e area disciplinare del corso di laurea) di studenti italiani.
Gli studenti che hanno partecipato alla raccolta dati hanno scritto un breve testo argomentativo e hanno fornito diverse informazioni di natura sociobiografica che ora, in seguito ad un processo di aggregazione, sono impiegabili come filtri di ricerca.
Univers-ITA_ProUniV: è costituito soprattutto da tesi (nella versione non corretta dal relatore) e da relazioni universitarie (773 testi, per un totale di 6.267.765 tokens). Sono disponibili alcuni metadati come, ad esempio, la collocazione geografica dell'ateneo, l'area disciplinare del corso di laurea dello scrivente, il sesso e la regione di nascita dello scrivente, etc.). È possibile consultare una sottosezione del corpus, bilanciata in modo da rappresentare la popolazione universitaria italiana, utilizzando come parametri la localizzazione geografica dell'ateneo e l'area disciplinare del corso di laurea.
Univers-ITA_ProGior: è costituito da testi tratti da giornali universitari (1.630 testi, per un totale di 1.692.846 tokens). Anche per questi testi, sono disponibili alcuni metadati come l'argomento del testo, l'anno di redazione, etc.).

Univers-ITA accesso ai corpora

Corpora di parlato patologico

Presso il LLiS sono stati raccolti e vengono attualmente conservati corpora destinati alla descrizione del profilo linguistico di patologie che compromettono la competenza verbale.

OPLON [comitato etico Azienda Ospedaliera Reggio Emilia, 2013/0013438]: include le registrazioni audio (trascritte e annotate a livello morfosintattico) del parlato semi-spontaneo di un campione di 48 pazienti con decadimento cognitivo (16 con demenza in fase iniziale e 24 con Mild Cognitive Impairment, reclutati presso l'Arcispedale S.Maria Nuova di Reggio Emilia) e 48 soggetti di controllo bilanciati per sesso, età e scolarità.
PMLAN [comitato etico Area Vasta Emilia Centro 683/2019/Oss/AOUBo]: include le produzioni scritte di 53 adolescenti con Anoressia Nervosa (reclutati presso UOS Disturbi dell’alimentazione in età evolutiva - UO Neuropsichiatria Infantile del Policlinico S. Orsola Malpighi) e 53 coetanei normopeso bilanciati per sesso, età e scolarità.
DemCorpus-Basilicata [comitato etico Alma Mater Studiorum - Università di Bologna, n. 0072032 del 29/03/2022]: include le registrazioni audio del parlato semi-spontaneo di un campione di 20 pazienti con decadimento cognitivo (Alzheimer, D. Vascolare, D. fronto-temporale, reclutati presso la Residenza Sanitaria Assistenziale Universo Salute - Opera Don Uva di Potenza) e 20 soggetti di controllo bilanciati per sesso, età e scolarità.
ItaASD [comitato etico Alma Mater Studiorum - Università di Bologna, n. 0173455 del 28/07/2022]: attualmente in fase di costruzione, include le registrazioni audio del parlato semi-spontaneo di bambini con Disturbo dello Spettro Autistico (reclutati presso il Centro Medico Riabilitativo di Pompei) e relativi controlli.

Corpus KIParla

Il corpus KIParla è una risorsa per lo studio dell'italiano parlato. I responsabili sono Caterina Mauri (LILEC, UniBO), Silvia Ballarè (FICLIT, UniBO), Massimo Cerruti (Studium, UniTO) ed Eugenio Goria (Studium, UniTO).

Il corpus KIParla permette l'accesso a trascrizioni (conversazionali e ortografiche) di parlato, registrazioni audio e metadati (relativi ai parlanti e alla situazione comunicativa) attraverso l'interfaccia di ricerca NoSketch Engine.

Il corpus ha una struttura modulare e incrementale e, ad oggi, sono stati pubblicati 4 moduli:

KIP (2019 - 69h23m08s - 661.175 tokens): interazioni in ambito universitario (lezioni, ricevimenti, esami, conversazioni libere e interviste semi-strutturate) raccolte a Bologna e a Torino.
ParlaTO (2020 - 48h51m14s - 561.388 tokens): interviste semi-strutturate a parlanti con diversa caratterizzazione sociale registrate a Torino.
KIPasti (2024 - 42h49m19s - 482.892 tokens): registrazioni di interazioni a tavola raccolte in 13 regioni italiane.
ParlaBO (2024 - 65h43m25s - 703.392 tokens): interviste semi-strutturate a parlanti con diversa caratterizzazione sociale registrate a Bologna.

È possibile consultare i moduli singolarmente oppure avere accesso all'intero KIParla (modalità congiunta).

Attualmente, sono in fase di allestimento altri due moduli (Stra-ParlaBO e Sra-ParlaTO nell'ambito del progetto DiverS-Ita) e sono in corso collaborazioni con la Libera Università di Bolzano, l'Università di Napoli Federico II e l'Università di Milano Bicocca.

KIParla accesso al corpus

Risorse per la Linguistica Clinica

test psicometrici e database

Test del linguaggio

T-PEC
Il test T-PEC è stato sviluppato dal 2016 da un gruppo di linguisti, logopedisti e psicologi delle università di Firenze e Bologna; è finalizzato all’individuazione di bambini con Disturbo Primario di Linguaggio di tipo espressivo in età prescolare

SMAAV
La Batteria SMAAV – Semantic Memory Assessment on Action Verbs si rivolge a (neuro)psicologi e logopedisti che vogliano indagare le competenze semantico-lessicali di pazienti adulti ed anziani nel dominio specifico dei verbi di azione. In particolare, a essere valutate dallo strumento sono le competenze in input e output di tale classe semantica di verbi, che hanno altissima frequenza nelle produzioni spontanee dei parlanti e che dunque costituiscono una componente pivot per il buon funzionamento linguistico, cognitivo e socio-emotivo del paziente. Il test è stato concepito come prova di “secondo livello”: in altri termini, la sua somministrazione è suggerita quando i risultati di un esame neuropsicologico del linguaggio (es. AAT, ENPA) o una batteria finalizzata alla valutazione dello stato cognitivo del soggetto (es. MMSE, MOCA) evidenzino deficit a carico delle abilità lessicali o, più in generale, laddove si intuisca una compromissione della soggiacente competenza semantica.

Database lessicali

DILLo - Database Italiano del Lessico per Logopedisti
DILLo è una risorsa di rete elaborata allo scopo di generare liste di parole filtrate secondo una serie di proprietà linguistiche di tipo fonologico, fonotattico, ortografico, morfologico e relative alla frequenza d’uso. L’applicazione è specificamente progettata sulle esigenze del logopedista, che può, in modo semplice e veloce, effettuare ricerche di parole da proporre al paziente sulla base delle diverse necessità riabilitative.

Strumenti di annotazione delle produzioni verbali patologiche

DLB computational pipeline
Lo strumento consente di estrarre i cosiddetti "Biomarker Linguistici Digitali" (DLBs, ovvero indici linguistici quantitativi utilizzabili con finalità diagnostica) da testi orali o scritti prodotti da parlanti italofoni. L'architettura software include una serie di moduli integrati (es. ASR, speech segmentation, PoS Tagging, parsing sintattico, estrazione dei DLB) per il calcolo automatico di parametri acustici, ritmici, lessicali e sintattici.