CORIS – COrpus di Riferimento per l'Italiano Scritto contemporaneo – è stato sviluppato sotto il coordinamento di Rema Rossini Favretti e Fabio Tamburini a partire dalla fine degli anni '90 ed è disponibile online dal 2001. Si configura come un corpus di riferimento generale sincronico per la lingua scritta, contiene testi autentici e integrali ed è annotato automaticamente rispetto alle categorie grammaticali (PoS-tag) e ai lemmi. La risorsa viene aggiornata ogni tre anni mediante un monitor corpus, così da mantenere il lessico e i rapporti di frequenza tra le varie aree semantiche aggiornati e da cogliere tutte le evoluzioni storiche in corso. Attualmente, con l'ultimo aggiornamento dell'estate 2021, contiene circa 165 milioni di token.
Accanto a CORIS è stato sviluppato CODIS – COrpus Dinamico dell'Italiano Scritto. Pur contenendo gli stessi testi, la struttura dinamica del corpus consente alla/o studiosa/o di selezionare quali porzioni dei materiali di CORIS considerare nelle proprie ricerche, garantendo la possibilità di lavorare su una risorsa costruita secondo criteri di rappresentatività differenti rispetto alla progettazione iniziale e di condurre studi interlinguistici.
DiaCORIS è corpus diacronico di italiano scritto sviluppato in collaborazione con l'Accademia della Crusca e L'Università di Modena e Reggio Emilia. L'obiettivo della risorsa è di integrare CORIS in una prospettiva diacronica: il corpus contiene testi a partire dall'Unità d'Italia (nel 1861) fino al 2001, inizio temporale dei monitor corpora di CORIS. L'intervallo temporale considerato è suddiviso in cinque sezioni composte da 5 milioni di parole ciascuna, per un totale di 25 milioni di token.
Il Bononia Legal Corpus - BoLC - è un corpus di linguaggio giuridico bilingue raccolto presso l'Università di Bologna sotto il coordinamento da Rema Rossini Favretti e Fabio Tamburini con la consulenza scientifica di John Sinclair. Contiene testi in lingua inglese britannica e in lingua italiana ed è stato strutturato in due sezioni distinte: una prima sezione contiene documenti paralleli, cioè in rapporto di traduzione, ed è basata prevalentemente su documenti dell'Unione Europea (direttive e sentenze); la seconda contiene un corpus comparabile contenente testi estratti dalla giurisprudenza e dalla legislazione dei due paesi.
Nell'ambito del progetto Univers-ITA (P.I. Nicola Grandi), sono stati creati tre corpora di scritto formale di studenti universitari:
Presso il LLiS sono stati raccolti e vengono attualmente conservati corpora destinati alla descrizione del profilo linguistico di patologie che compromettono la competenza verbale.
Il corpus KIParla è una risorsa per lo studio dell'italiano parlato. I responsabili sono Caterina Mauri (LILEC, UniBO), Silvia Ballarè (FICLIT, UniBO), Massimo Cerruti (Studium, UniTO) ed Eugenio Goria (Studium, UniTO).
Il corpus KIParla permette l'accesso a trascrizioni (conversazionali e ortografiche) di parlato, registrazioni audio e metadati (relativi ai parlanti e alla situazione comunicativa) attraverso l'interfaccia di ricerca NoSketch Engine.
Il corpus ha una struttura modulare e incrementale e, ad oggi, sono stati pubblicati 4 moduli:
È possibile consultare i moduli singolarmente oppure avere accesso all'intero KIParla (modalità congiunta).
Attualmente, sono in fase di allestimento altri due moduli (Stra-ParlaBO e Sra-ParlaTO nell'ambito del progetto DiverS-Ita) e sono in corso collaborazioni con la Libera Università di Bolzano, l'Università di Napoli Federico II e l'Università di Milano Bicocca.
test psicometrici e database