Relatore: Dr. Luigi Talamo
Data: 08 APRILE 2025 dalle 15:30 alle 17:30
Luogo: Laboratorio 76, via Cartoleria 5, Bologna - Evento in presenza e online
L'analisi token-based (Levshina, 2019) è una metodologia di ricerca della linguistica tipologica che prevede l'utilizzo di istanze (token) di costruzioni, così come osservate nel reale utilizzo linguistico e approssimate attraverso risultati di esperimenti psicolinguistici, dati raccolti da questionari e corpora, meglio se paralleli.
In questo laboratorio utilizzeremo una selezione di dati da Miniciep+, la versione pubblica del Corpus of Indo-European Prose and more (CIEP+: Talamo & Verkerk, 2022), un corpus parallelo di oltre trenta lingue sviluppato dal 2019 all'Università dello Saarland a partire dalle traduzioni di libri di narrativa. Grazie alla sua annotazione secondo il framework delle Universal Dependencies (UD: de Marneffe et al., 2021), il corpus si presta ad analisi quantitative di tipo morfologico e morfo-sintattico. Discuteremo e sperimenteremo una serie di script in Python ed R per l'estrazione dal corpus di dati relativi all'ordinamento di parola, concetti comparativi (ad es., quantificatori, aggettivi, ...), categorie verbali come la finitezza e pronomi personali.
Luigi Talamo è post doc all'Università dello Saarland, dove svolge attività di ricerca sulla linguistica tipologica con metodi quantitativi e computazionali. È parte del progetto 'Cross-linguistic Information-Theoretic Modelling of Communicative Efficiency' (PI: Annemarie Verkerk), finanziato dall'associazione tedesca per la ricerca (DFG) e volto ad investigare attraverso i metodi della teoria dell'informazione la variazione inter-linguistica, in particolare la struttura informativa e l'ordine delle parole. Si occupa o si è occupato anche dello sviluppo di corpora e treebank per lingue 'a basse risorse' (sardo della prima età moderna, albanese, uzbeko), morfologia derivazionale (combinazioni di affissi e database derivazionali) e categorie miste (nomi de-aggettivali).