Il corpus - testi non ad hoc

È attualmente in fase di allestimento un corpus di testi scritti non ad hoc, grazie alla collaborazione dei e delle tirocinanti dell'Università di Bologna.

Sono in raccolta diversi tipi di testi (v. oltre) che vengono ripuliti e classificati.

In particolare, al momento il corpus è costituito da:

  1. Tesi e relazioni universitarie - oltre 750 testi, per un totale di 5.858.087 tokens
    Per questi testi, sono disponibili alcuni metadati come, ad esempio, la collocazione geografica dell'ateneo, l'area disciplinare del corso di laurea dello scrivente, il sesso e la regione di nascita dello scrivente, etc.);
  2. Testi 'giornalistici' stesi da studenti universitari - oltre 1.500 testi, per un totale di 1.692.509 tokens

NOTA BENE

Al momento, i due corpora sono consultabili solo dai membri del progetto. Le risorse saranno rese pubbliche sulla piattaforma NoSketch Engine alla conclusione del progetto.