Tipologia token-based in pratica: un laboratorio con "(mini)CIEP+ - a sharable parallel corpus of prose"

Relatore: Dr. Luigi Talamo

  • Data: 08 APRILE 2025  dalle 15:30 alle 17:30

  • Luogo: Laboratorio 76, via Cartoleria 5, Bologna - Evento in presenza e online

Abstract

L'analisi token-based (Levshina, 2019) è una metodologia di ricerca della linguistica tipologica che prevede l'utilizzo di istanze (token) di costruzioni, così come osservate nel reale utilizzo linguistico e approssimate attraverso risultati di esperimenti psicolinguistici, dati raccolti da questionari e corpora, meglio se paralleli.
In questo laboratorio utilizzeremo una selezione di dati da Miniciep+, la versione pubblica del Corpus of Indo-European Prose and more (CIEP+: Talamo & Verkerk, 2022), un corpus parallelo di oltre trenta lingue sviluppato dal 2019 all'Università dello Saarland a partire dalle traduzioni di libri di narrativa. Grazie alla sua annotazione secondo il framework delle Universal Dependencies (UD: de Marneffe et al., 2021), il corpus si presta ad analisi quantitative di tipo morfologico e morfo-sintattico. Discuteremo e sperimenteremo una serie di script in Python ed R per l'estrazione dal corpus di dati relativi all'ordinamento di parola, concetti comparativi (ad es., quantificatori, aggettivi, ...), categorie verbali come la finitezza e pronomi personali.

 

Bibliografia

 

LINK Webinar

https://events.teams.microsoft.com/event/941a78c9-aa38-4663-91fe-59b448fa0cba@e99647dc-1b08-454a-bf8c-699181b389ab

Bio

Luigi Talamo è post doc all'Università dello Saarland, dove svolge attività di ricerca sulla linguistica tipologica con metodi quantitativi e computazionali. È parte del progetto 'Cross-linguistic Information-Theoretic Modelling of Communicative Efficiency' (PI: Annemarie Verkerk), finanziato dall'associazione tedesca per la ricerca (DFG) e volto ad investigare attraverso i metodi della teoria dell'informazione la variazione inter-linguistica, in particolare la struttura informativa e l'ordine delle parole. Si occupa o si è occupato anche dello sviluppo di corpora e treebank per lingue 'a basse risorse' (sardo della prima età moderna, albanese, uzbeko), morfologia derivazionale (combinazioni di affissi e database derivazionali) e categorie miste (nomi de-aggettivali).