CORIS – COrpus di Riferimento per l'Italiano Scritto contemporaneo – è stato sviluppato sotto il coordinamento di Rema Rossini Favretti e Fabio Tamburini a partire dalla fine degli anni '90 ed è disponibile online dal 2001. Si configura come un corpus di riferimento generale sincronico per la lingua scritta, contiene testi autentici e integrali ed è annotato automaticamente rispetto alle categorie grammaticali (PoS-tag) e ai lemmi. La risorsa viene aggiornata ogni tre anni mediante un monitor corpus, così da mantenere il lessico e i rapporti di frequenza tra le varie aree semantiche aggiornati e da cogliere tutte le evoluzioni storiche in corso. Attualmente, con l'ultimo aggiornamento dell'estate 2021, contiene circa 165 milioni di token.
Accanto a CORIS è stato sviluppato CODIS – COrpus Dinamico dell'Italiano Scritto. Pur contenendo gli stessi testi, la struttura dinamica del corpus consente alla/o studiosa/o di selezionare quali porzioni dei materiali di CORIS considerare nelle proprie ricerche, garantendo la possibilità di lavorare su una risorsa costruita secondo criteri di rappresentatività differenti rispetto alla progettazione iniziale e di condurre studi interlinguistici.
DiaCORIS è corpus diacronico di italiano scritto sviluppato in collaborazione con l'Accademia della Crusca e L'Università di Modena e Reggio Emilia. L'obiettivo della risorsa è di integrare CORIS in una prospettiva diacronica: il corpus contiene testi a partire dall'Unità d'Italia (nel 1861) fino al 2001, inizio temporale dei monitor corpora di CORIS. L'intervallo temporale considerato è suddiviso in cinque sezioni composte da 5 milioni di parole ciascuna, per un totale di 25 milioni di token.
Il Bononia Legal Corpus - BoLC - è un corpus di linguaggio giuridico bilingue raccolto presso l'Università di Bologna sotto il coordinamento da Rema Rossini Favretti e Fabio Tamburini con la consulenza scientifica di John Sinclair. Contiene testi in lingua inglese britannica e in lingua italiana ed è stato strutturato in due sezioni distinte: una prima sezione contiene documenti paralleli, cioè in rapporto di traduzione, ed è basata prevalentemente su documenti dell'Unione Europea (direttive e sentenze); la seconda contiene un corpus comparabile contenente testi estratti dalla giurisprudenza e dalla legislazione dei due paesi.
All’interno del progetto UniverS-ITA, è attualmente in fase di allestimento un corpus di testi scritti da studenti universitari, costituito da due sezioni.
Al momento, i due corpora sono consultabili solo dai membri del progetto. Le risorse saranno rese pubbliche sulla piattaforma NoSketch Engine alla conclusione del progetto.
Presso il LLiS sono stati raccolti e vengono attualmente conservati corpora destinati alla descrizione del profilo linguistico di patologie che compromettono la competenza verbale.
test psicometrici e database