Dataset

Il dataset contiene il quadro complessivo dei metadati dei 2.137 testi raccolti nell'ambito del progetto Univers-ITA (corpus Univers-ITA). L'italiano scritto degli studenti universitari: quadro sociolinguistico, tendenze tipologiche, implicazioni didattiche. Nella prima colonna compare il numero del testo e, nelle successive, queste informazioni:

ateneo;
corso di studio (area geografica e disciplinare);
profilo personale e familiare dello/della scrivente;
biografia linguistica e educativa dello/della scrivente- consumi culturali dello / della scrivente;
atteggiamenti ed esperienze relativi alla scrittura dello/della scrivente;
informazioni quantitative sul testo;
annotazioni qualitative sul testo perle categorie:

COE – coerenza;

LES – lessico;

MFS – morfosintassi;

MRC – marcatezza;

ORT – ortografia;

PUN – punteggiatura;

REG – registro;

SIN – sintassi e coesione.

Il dataset è alla base di tutte le elaborazioni statistiche prodotte nell'ambito del progetto.