I corpora - testi non ad hoc

I due corpora di testi scritti non ad hoc sono stati costruiti grazie alla collaborazione dei e delle tirocinanti dell'Università di Bologna.

 

1. Il corpus UniverS-Ita-ProUniv è costituito soprattutto da tesi (nella versione non corretta dal relatore) e da relazioni universitarie (773 testi, per un totale di 6.267.765 tokens).  Per questi testi, come indicato nel vademecum di consultazione, sono disponibili alcuni metadati come, ad esempio, la collocazione geografica dell'ateneo, l'area disciplinare del corso di laurea dello scrivente, il sesso e la regione di nascita dello scrivente, etc.).

È possibile consultare una sottosezione del corpus, bilanciata in modo da rappresentare la popolazione universitaria italiana, utilizzando come parametri la localizzazione geografica dell'ateneo e l'area disciplinare del corso di laurea (analogamente a quanto fatto per la sezione dei testi ad hoc.

2. Il corpus UniverS-Ita-ProGior è costituito da testi tratti da giornali universitari (1.630 testi, per un totale di 1.692.846 tokens). Anche per questi testi, come indicato nel vademecum di consultazione, sono disponibili alcuni metadati come l'argomento del testo, l'anno di redazione, etc.).

Il corpus è consultabile a questo link.