Univers-ITA

Reference:

GRANDI, Nicola, BALLARÈ, Silvia, CHIUSAROLI, Francesca, GALLINA, Francesca, PASCOLI, Matteo, PISTOLESI, Elena; Corpus Univers-ITA. 2023, DOI: https://doi.org/10.60760/unibo/univers-ita

Corpus design and data collection

During the 2020/2021 academic year, data collection was carried out for the construction of the corpus.

Initially, a sample was created to be representative of the Italian university population, using the geographical location of the university and the academic discipline of the degree program as parameters.

A total of 2.160 second-year students from the following academic areas and universities were involved in the data collection:

Economia: Università Politecnica delle Marche, Università della Valle d’Aosta, Università dell’Aquila, Università di Bergamo, Alma Mater Studiorum – Università di Bologna, Libera Università di Bolzano, Università di Bari Aldo Moro, Università della Campania Luigi Vanvitelli, Università di Catania, Università di Firenze, Università di Genova, Università di Macerata, Università Bocconi, Università di Milano Bicocca, Università Cattolica del Sacro Cuore, Università di Milano Statale, Università di Modena e Reggio Emilia, Università di Napoli Federico II, Università di Padova, Università di Palermo, Università di Parma, Università di Pavia, Università di Perugia, Università del Piemonte Orientale, Università di Pisa, Università di Roma La Sapienza, Università di Roma Tre, Università di Torino, Università di Trento, Università di Trieste, Università di Udine, Università di Venezia Ca’ Foscari.
Ingegneria: Università Politecnica delle Marche, Università della Campania Luigi Vanvitelli, Università di Bergamo, Alma Mater Studiorum – Università di Bologna, Università di Catania, Università di Ferrara, Università di Firenze, Politecnico di Milano, Università di Modena e Reggio Emilia, Università del Molise, Università di Napoli Federico II, Università di Padova, Università di Palermo, Università di Parma, Università di Pavia, Università di Pisa, Università di Roma La Sapienza, Università di Roma Tor Vergata, Università di Salerno, Politecnico di Torino, Università di Udine.
Scienze della Formazione primaria: Università di Bergamo, Alma Mater Studiorum – Università di Bologna, Università del Salento, Università di Macerata, Università di Milano Bicocca, Università di Modena e Reggio Emilia, Università del Molise, Università Suor Orsola Benincasa, Università di Perugia, Università di Pisa, Università di Salerno.
Giurisprudenza: Università di Bergamo, Alma Mater Studiorum – Università di Bologna, Università dell’Insubria, Università di Enna Kore, Università di Ferrara, Università di Macerata, Università di Milano Bicocca, Università di Napoli Federico II, Università di Palermo, Università di Perugia, Università di Pisa, Università di Torino.
Lingue: Università di Bergamo, Alma Mater Studiorum – Università di Bologna, Università di Catania, Università di Ferrara, Università di Genova, Università di Macerata, Università di Messina, Università Cattolica del Sacro Cuore, Università di Milano Statale, Università di Napoli L’Orientale, Università di Palermo, Università di Pavia, Università di Perugia, Università di Pisa, Università di Salerno, Università di Venezia Ca’ Foscari
Farmacia: Alma Mater Studiorum – Università di Bologna, Università della Campania Luigi Vanvitelli, Università di Catania, Università di Ferrara, Università di Genova, Università di Milano Statale, Università di Modena e Reggio Emilia, Università di Napoli Federico II, Università di Padova, Università di Parma, Università di Perugia, Università di Pisa, Università di Torino, Università di Trieste.
Infermieristica: Università Politecnica delle Marche, Alma Mater Studiorum – Università di Bologna, Università di Milano Bicocca, Università di Modena e Reggio Emilia, Università di Napoli Federico II, Università di Perugia, Università di Pisa.

During the data collection phase, in order to maintain control over the sample, a username and password were provided to all students to access the website created specifically for data collection.

The data collection was structured in two parts:

1. Text Writing

In the first phase of the collection, students were asked to write a short text. Below are the instructions provided to the respondents.

On the first page, general instructions for writing the text were provided, namely: You must write a text of medium length: between 250 and 500 words. You should try to use a formal style: therefore, write as correctly as possible, as if you were writing to a professor. Since the survey is completely anonymous, it will be impossible to associate the text with your identity, and by participating in the survey, you renounce intellectual property over it. The text will never be published in full and will only be used for research purposes. To accept, click continue and discover the prompt (the topic on which you will write the text).

On the second page, the writing prompt was provided, along with a time counter (maximum time: 60 minutes) and word counter (minimum word count: 250; maximum word count: 500). Imagine that your degree program has opened a survey aimed at all students, with the goal of gathering opinions on the functioning of remote learning during the months of the health emergency. Write a text in which you present, in a non-schematic way, the advantages and disadvantages of remote learning, according to your point of view.
Remaining time: 60:00
Words written: 0
Words remaining: 500

2. Socio-biographical Questionnaire

The socio-biographical questionnaire consisted of over 50 questions, divided into 4 sections:

Personal and Family Profile (age, gender, place of birth, parents' place of origin, parents' educational level and profession, parents' cultural consumption, etc.);
Linguistic and Educational Profile (languages used by parents with different interlocutors, location of schools attended, languages and dialects spoken with different interlocutors and varying levels of competence, type of diploma obtained, etc.);
Cultural Profile (channels used for information, types of reading, extra-university interests, type of internet use, etc.);
Familiarity with Writing (use of writing in extra-university contexts, habit of taking notes, etc.).

The responses collected through the questionnaire allowed for the creation of a very detailed socio-biographical profile of the various respondents. The respondents' metadata could then be used during the analysis phase to verify potential correlations between extra-linguistic characteristics and linguistic traits found in the texts.

Corpus building

The corpus currently consists of a total of 810,715 tokens. The texts in the corpus are accompanied by a wide range of metadata (obtained through the questionnaire). Additionally, it is possible to query the corpus using various search filters, as shown in the image and in the guide for consultation.

The corpus is accessible at this link.