Presupposti teorici

Una parte importante del patrimonio culturale, chiamata patrimonio orale, è rappresentata dall'insieme complesso e diversificato di risorse linguistiche utilizzate nella comunicazione orale quotidiana.
Rispetto alla lingua scritta, la documentazione del patrimonio orale pone una serie di difficoltà, in parte derivanti dalla grande variabilità della lingua parlata, che può essere interpretata come un riflesso della diversità della società. Questo progetto si propone di colmare una lacuna nella documentazione del patrimonio orale italiano, nella convinzione che una migliore rappresentazione della diversità dell'italiano parlato possa essere un passo cruciale verso una società più inclusiva e capace di rappresentare la diversità dei suoi individui.

Alcuni dei corpora e archivi orali esistenti per l'italiano parlato, come ParVa (Guerini 2016), ViVo e Voci (Piccardi et al. 2019), DIA Dialogic ITalian (Mereu & Vietti 2021) o Kontatto (Ciccolone & Dal Negro 2021), sono relativamente piccoli ma ben bilanciati. Altri corpora più ampi e generali, concepiti come risorse di riferimento per la variazione dell'italiano parlato, sono VoLIP (Voghera et al. 2014), LABLITA (Cresti & Moneglia 2005), CLIPS (Sobrero & Tempesta 2007) e Perugia Corpus (Spina 2014). Tuttavia, non tutti sono accessibili online e la maggior parte di essi non fornisce metadati dei parlanti e delle conversazioni, ostacolando così l'analisi della variazione sociolinguistica.
Importanti progressi sono stati introdotti dal corpus KIParla (Mauri et al. 2019), il primo corpus di italiano parlato disponibile online che, in conformità al GDPR, include un'ampia gamma di metadati relativi ai profili dei parlanti e, soprattutto, è stato concepito come un corpus modulare che cresce nel tempo, grazie all'aggiunta di nuove sezioni (Ballarè et al. 2022). Due moduli di KIParla sono già stati pubblici : KIP (Mauri & Goria 2018), composto da interazioni in ambito accademico, e ParlaTO (Cerruti & Ballarè 2021), composto da interviste semi-strutturate a parlanti di diversi contesti socio-educativi. Malgrado queste innovazioni, KIParla è ancora orientato verso parlanti con un multilinguismo autoctono e non ritrae  ancora la realtà in maniera fedele. A causa dell'intensificarsi dei flussi migratori internazionali, l'italiano è infatti parlato da un insieme più eterogeneo di individui e comunità, ed è spesso inserito in un insieme di pratiche multilinguistiche che includono sistemi linguistici indigeni ed esogeni e fanno parte di repertori instabili. Per questo motivo, ci proponiamo di sviluppare il corpus KIParla in modo da fornire una migliore rappresentazione della variegata costellazione di parlanti e delle loro varietà di italiano.

I parlanti con trascorsi di migrazione internazionale (SIMB o parlanti L2) non sono generalmente inclusi nei corpora. Sebbene nel campo dell'acquisizione della seconda lingua (SLA) le varietà di L2 siano state a lungo interpretate come parte del sistema complessivo della lingua di arrivo (Klein 1997), esse sono generalmente rappresentate separatamente solo nei cosiddetti corpus di apprendenti (Learner Corpora, LC). Per quanto riguarda l'italiano L2, sono disponibili sei principali raccolte di LC, di cui solo il Corpus of Chinese Learners of Italian (COLI) e il Lessico dell'italiano parlato per stranieri (LIPS; Gallina 2013) contengono dati orali.

Sebbene i LC siano strumenti preziosi per studiare diversi aspetti dell'acquisizione linguistica, questi non hanno mai avuto un impatto significativo su quest'ambito di ricerca (McEnery et al. 2019), per ragioni tecniche ed epistemologiche. Nel costruire un LC, ci si trova di fronte a un un complesso problema interpretativo e di annotazione: si deve infatti prestare attenzione a come trascrivere e annotare le produzioni dei parlanti L2, specialmente nel caso delle produzioni non target (Andorno & Rastelli 2009, Benazzo & Watorek 2021, Lüdeling & Hirschmann 2015). Inoltre, la ricerca sull'acquisizione linguistica si basa per lo più sullo studio del linguaggio orale spontaneo, ma la maggior parte dei LC disponibili consiste in produzioni elicitate, spesso raccolte in un ambiente educativo o addirittura in condizioni sperimentali (cfr. Gallina 2010, corpus LIPS). In tali contesti, gli apprendenti cercano di controllare la propria performance, di evitare varianti non standard e di nascondere il più possibile la propria L1, evitando ad esempio la commistione e la commutazione di codice, fenomeni altrimenti costitutivi del discorso in L2 (Macaro 2005).

Per questo motivo, questo progetto mira a riunire la metodologia sociolinguistica del corpus KIParla e il corpus di conoscenze della ricerca SLA, nella creazione di una nuova risorsa. Per la prima volta, i dati di parlanti con un background migratorio internazionale saranno registrati con gli stessi metodi utilizzati per i parlanti monolingui e inclusi nella stessa risorsa. Da un punto di vista sociolinguistico, questo ci permetterà di aggiungere i dati delle varietà SIMB alla descrizione sociolinguistica dell'italiano; da un punto di vista SLA, i dati del parlato non supervisionato sono di fondamentale importanza e potrebbero permettere di far emergere le caratteristiche di queste varietà nella loro interezza, sia infra-varietale che multilingue.

Riferimenti bibliografici

Abel, A. (2014). A Trilingual Learner Corpus illustrating European Reference Levels. RiCOGNIZIONI, V. 1, 111-126.
Andorno, C. (2017) ‘Definire l’oggetto: che cos’è una seconda lingua e che cosa significa acquisire una lingua’, in Verso una nuova lingua. Capire l’acquisizione di L2. Torino: UTET Università, pp. 3–28.
Andorno, C. and Rastelli, S. (2009) ‘Un’annotazione orientata alla ricerca acquisizionale’, Corpora di Italiano L2: tecnologie, metodi, spunti teorici, 19(3), pp. 49–70.
Ballarè, S., Goria, E., Mauri, C. (2022). Italiano parlato e variazione lingusitica. Teoria e prassi nella costruzione del corpus KIParla. Bologna: Pàtron.
Ballarè, S., Mauri, C., Cerruti, M., & Goria, E. (2019). Il corpus KIParla. Tra linguistica dei corpora e sociolinguistica dell’italiano. RiCOGNIZIONI, 275-278.
Berruto, G. (2003) ‘Sul parlante nativo (di italiano)’, in H.I. Radatz and R. Schlosser (eds) Donum grammaticorum. Festschrift fur Harro Stammerjohann. Tubingen: Niemeyer, pp. 1–14.
Cerruti, M., Ballarè, S. (2021). ParlaTO: corpus del parlato di Torino. Bollettino dell’Atlante Linguistico Italiano 44. 171-196. Ciccolone, S., & Dal Negro, S. (2021). Comunità bilingui e lingue in contatto: Uno studio sul parlato bilingue in Alto Adige (Prima edizione 2021 nella collana Athenaeum). Caissa Italia.
Corino, E., & Marello, C. (A c. Di). (2009). Valico: Studi di linguistica e didattica (1. ed). Perugia: Guerra.
Cortinovis, E. (2011) ‘Local, Global and Ethnic Orientation in the Communicative Practices of Albaninan Speaking Adolescents in Bolzano, Italy’, Zeitschrift fuer Literaturwissenschaft und Linguistik, 41(164), pp. 121–132.
Cresti, E., & Moneglia, M. (A c. Di). (2005). C-ORAL-ROM: Integrated reference corpora for spoken Romance languages. J. Benjamins. Dewaele, J.-M. (2018). Why the dichotomy ‘L1 versus LX user’ is better than ‘native versus non-native speaker’. Appl. Linguis. 39, 236–240.

Gallina F., 2010, “The LIPS Corpus (Lexicon of Spoken Italian by Foreigners) and the Acquisition of Vocabulary by Learners of Italian as L2” in G. Bota, H. Hargreaves, L. Chia-Chun, R. Rong, Papers from the Lancaster University Postgraduate Conference in Linguistics & Language Teaching, Vol. 4.

Goria, E., & Mauri, C. (2018). Il corpus KIParla: Una nuova risorsa per lo studio dell’italiano parlato. In F. Masini & F. Tamburini (A c. Di), Club working papers in linguistics. Vol II (pp. 96–116). CLUB. Circolo Linguistico dell’Università di Bologna.

Guerini, F. (A c. Di). (2016). Italiano e dialetto bresciano in racconti di partigiani (I edizione). Aracne.
Klein, W. (1997). ‘Learner varieties are the normal case’, The Clarion, 3, pp. 4–6.
Lüdeling, A., & Hirschmann, H. (2015). Error annotation systems. In S. Granger, G. Gilquin, & F. Meunier (A c. Di), The Cambridge Handbook of Learner Corpus Research (1a ed., pp. 135–158). Cambridge University Press.

Macaro, E. (2005). Teaching and Learning a Second Language: A Guide to Recent Research and its Applications (pp. 1-284).

Mauri, C. & Masini, F. & Borghetti C. & Bolognesi, M. (2022). Posizionamento del sé e rappresentazione dell’Altro nel discorso: una prospettiva interculturale. In Sabrina Fusari, Barbara IVancic, Caterina Mauri (eds.), Diversità e inclusione. Quando le parole sono importanti, Milano, Meltemi editore. 51 - 84.
Mauri, C., Ballarè, S., Goria, E., Cerruti, M., & Suriano, F. (2019). KIParla Corpus: A New Resource for Spoken Italian. Proceedings of the Sixth Italian Conference on Computational Linguistics. Bari, Italy, November 13-15, 2019.
McEnery, T., Brezina, V., Gablasova, D., & Banerjee, J. (2019). Corpus Linguistics, Learner Corpora, and SLA: Employing Technology to Analyze Language Use. Annual Review of Applied Linguistics, 39, 74–92.
Mereu, D., & Vietti, A. (2021). Dialogic ItAlian: The creation of a corpus of Italian spontaneous speech. Speech Communication, 130, 1–14.
Sobrero, A. Tempesta, I. (2007). Definizione delle caratteristiche generali del corpus: informatori, località. Documento di progetto. http://www.clips.unina.it/it/documenti.jsp
Spina, S. (2014). Il Perugia Corpus: Una risorsa di riferimento per l’italiano. Composizione, annotazione e valutazione. In R. Basili, A. Lenci, & B. Magnini (A c. Di), Proceedings of the First Italian Conference on Computational Linguistics CLiC-it 2014. Vol. 1 (pp. 197–202). Pisa University Press.
Vietti, A. (2005) Come gli immigrati cambiano l’italiano. L’italiano di peruviane come varietà etnica. Milano: Angeli.
Voghera, M., Iacobini, C., Savy, R., Cutugno, F., Alfano, I., & Rosa, A. (2014). VoLIP: A Searchable Corpus of Spoken Italian. In L. Veselovská & M. Janebová (A c. Di), Complex Visibles Out There. Proceedings of the Olomouc Linguistics Colloquium: Language Use and Linguistic Structure. (pp. 628–640). Palacký University.
Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., ... Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018.