Intervista a Aldo Gangemi

A cura di Antonio Matacena

Aldo Gangemi è Professore ordinario all’Università di Bologna. Ha diretto l’Istituto di Scienze e Tecnologie della Cognizione del CNR dal novembre 2019 al novembre 2023, dove ha fondato il Laboratorio di Tecnologie Semantiche nel 2008. La sua ricerca si focalizza sulla rappresentazione e sulla scoperta di pattern di conoscenza nei dati, nel testo e in altri contenuti e applicazioni delle Scienze Umane, nonché di aree come patrimonio culturale, medicina, diritto e agricoltura, integrando metodi di Semantic Web, Natural Language Processing, Data Science e scienze cognitive. Fa parte dei comitati editoriali di Semantic Web Journal, Web Semantics, Data Semantics e Applied Ontology. È stato Conference chair di LREC2006, EKAW2008, WWW2015, ESWC2018 e coordinatore di unità in 8 progetti europei. Ha pubblicato oltre 250 articoli con peer-reviewing internazionale.

Segnalibri Filosofici – Una delle differenze centrali tra intelligenze naturali e artificiali che emerge dalla ricerca sulla pratica narrativa e sulla dimensione estetica dei significati è la dimensione dell’embodiment: questa caratterizza il design dei nostri concetti e significati, non riducibili a simboli amodali e disincarnati. Alla luce di queste considerazioni, cosa può voler dire “significare” per una macchina? In altre parole: in che modo è tenuta in considerazione la dimensione corporea e sensitiva nel campo d’applicazione del natural language processing/understanding?

 

Aldo Gangemi – Questa è una domanda principe nei confronti di tutta la situazione. Il problema, stranamente, va affrontato innanzitutto in una maniera semiotica, sebbene sia un approccio poco usato. Le macchine, prima ancora di arrivare alla mancanza di embodiment, non arrivano neanche al livello del triangolo semiotico (espressione-interpretante-referente). Il punto è che i modelli di cui disponiamo, soprattutto gli attuali, sono degli elaboratori sintattici, là dove però “sintassi” va intesa in un’area interessante, che ci fa tornare indietro, alle origini della semiotica. Noi abbiamo sempre ipotizzato un livello di rappresentazione concettuale e uno denotativo. Quando parliamo di embodiment dobbiamo fare i conti con l’aspetto denotativo. I simboli hanno a che fare col modo in cui noi incorporiamo la realtà, la facciamo diventare nostra e la condividiamo con gli altri. Nel momento in cui l’embodiment, com’è normale, manca nei modelli attuali, compresi quelli di maggior successo, la denotazione è limitata: viene di fatto ricostruita dall’umano che la legge. Tuttavia, la cosa incredibile che accade è che certe cose non ce le aspetteremmo da una macchina che fa soltanto elaborazione sintattica, quindi cos’è che sta accadendo in quel contesto? Innanzitutto manca una rappresentazione interna, concettuale, che permetta di costruire questo triangolo semiotico. Si potrebbe pensare allora che manchi il grounding corporeo, ma che sia presente quello concettuale. Ma in realtà, secondo le teorie attuali delle 4 E (embodied, embedded, enactive, extended), la rappresentazione interna delle intelligenze naturali dipende comunque dalla nostra esperienza. Quindi la denotazione ritorna nella forma esperienziale che noi abbiamo rispetto al mondo. Questa cosa è però da noi costruita internamente, creiamo dei modelli della realtà, che possono essere anche molto lontani da com’è la realtà oggettiva o media, poiché vi sono varie alterazioni che provochiamo: gli studi che partono dalla psicologia della Gestalt sono il primo, minimale esempio che ci può venire in mente.

 

S.F. – Quindi prima di arrivare a un embodiment si dovrebbe anzitutto capire come far arrivare una macchina a una rappresentazione interna più simile all’umano, considerando il carattere denotativo, senza parlare poi del connotativo?

 

A.G. – Si può effettivamente dire in questi termini, però le due cose non sono scisse. Se noi non abbiamo un’esperienza, non usiamo simboli a proposito di qualcosa, ma se lo facciamo è perché siamo anche in grado di costruirci un modello di quella realtà, eccetto nei giochi linguistici di tipo dizionariale. Ad esempio, con Saussure si connetteva un significante (cheval) a un significato oggettivo riscontrato nella figura corrispondente (una raffigurazione di un cavallo). Ma anche Saussure era contrario a questa visione del significato, che è più correttamente da imputare ai suoi allievi. Egli sentiva che questo modo isolato di rappresentare i simboli rispetto a un’immagine fosse assolutamente banale e non rendesse la complessità del significato.

 

S.F. – Quindi, sostanzialmente, il problema della considerazione del vettore corporeo nell’addestramento di una macchina al linguaggio naturale dovrebbe essere preceduto da quello della rappresentazione interna. Stiamo dicendo questo?

 

A.G. – Dovrebbe essere accompagnato. I simboli sono usati in associazione alle esperienze, che fanno riferimento a un ambito culturale e così via. Queste cose sono la base del significato, il significato è fatto di queste cose. È anche intenzionalità, alla Brentano. La macchina non ha niente di questo: non ha né rappresentazione né denotazione, e quindi non ha intenzionalità, né grounding. Adesso è solamente una capacità sintattica incredibilmente potente grazie anche all’ingegnerizzazione (apprendimento per rinforzo anche grazie alla validazione da parte di umani) di modelli che  sono stati addestrati su una quantità enorme di contenuti, come mai avvenuto prima.

 

S.F. – Dunque maneggiano simboli.

 

A.G. – Sono simboli, sì. Spesso si definiscono questi modelli “sub-simbolici”. Ma questo è errato: sono assolutamente simbolici. Il problema è cosa intendiamo per simbolo, semmai. Ma, in generale, è simbolica l’idea tradizionale – rappresentazionale – e simbolica è anche questa di tipo artificiale. Le due cose si possono infatti completare: oggi si lavora su modelli neuro-simbolici ibridi. 

 

S.F. – Alla luce di queste considerazioni, si può ricordare come alcuni pensatori siano convinti che la cognizione umana non sia replicabile da parte di macchine [1]: possono le ricerche sperimentali sull’internet dei sensi o l’implementazione di neuroni sensorimotori artificiali giocare un ruolo in questa tendenza, integrando componenti non-algoritmiche del pensiero che contraddistingue le intelligenze naturali?

 

A.G. – Questa cosa è stata capita nel tempo. Questi modelli sono in grado di addestrarsi su quantità gigantesche di dati. Gli umani, nelle lingue, soprattutto da quando c’è la scrittura e poi gli aspetti digitali, il web, etc., parlano di tutto e il contrario di tutto. È difficile testare quindi una macchina su cose mai dette, ma per noi importanti. Un problema è quello del senso comune, non rappresentato nei manuali ma in prodotti come le fiction, ma non è che sia tanto esplicato. Un problema di chi si occupa di knowledge representation è come recuperare questo senso comune da qualche parte. I primi modelli, come Gpt3 prima della sua reingegnerizzazione in ChatGPT, risultavano disastrosi sul senso comune, privi di un grounding linguistico per poterlo fare. Tuttavia, col tempo e usando in modo molto spinto il reinforcement umano, questa cosa comincia a funzionare meglio. Da una parte allora, sub specie linguistica avrebbe detto Umberto Eco, riusciamo a ricostruire moltissimo, al punto da pensare che quella macchina stia effettivamente significando, ma non lo sta facendo.

 

S.F. – Starebbe simulando mentre gli uomini sono impegnati in un enactment?

 

A.G. – Sì, una simulazione di un enactment, ma in realtà neanche, è persino più basso. Questi modelli sono predittivi. Hanno imparato a comprimere quantità enormi di informazione, in senso computazionale. Anche gli umani lo fanno, con universali, categorie, regole e relazioni tra le cose che mettono nei sistemi. Queste sono compressioni della nostra esperienza e conoscenza. La compressione che fanno le macchine viene usata per predire la cosa più probabile in un momento o contesto. Associano un nostro prompt a tutto il testo che conoscono e producono una risposta che potrebbe aver senso rispetto al prompt ricevuto. A volte non danno una risposta sensata per noi e così le instradiamo nuovamente sul percorso giusto. Hanno imparato anche il meta-livello, poiché i dati che diamo loro comprendono i materiali più disparati: quindi sembra quasi che siano coscienti nel fare le cose, ma in realtà non è così, assolutamente.

Quello che ci si può chiedere, allora è: se è vero che le AI usano features che noi umani non useremmo, non è però possibile pensare che anche gli stessi umani siano delle macchine di information processing, sebbene arricchite da una quantità di segnali multimodali? Questo ci riporta alla domanda. La multimodalità è infatti la frontiera su cui si sta lavorando in questo momento. Nei prossimi giorni sarà possibile, per esempio, dare a ChatGpt immagini, suoni e video, immaginiamo di potergli dare anche odori, suoni, etc.: tutto ciò lo collegherà anche alla lingua, che sebbene parli di tutto, talvolta non riesce a esprimere certe cose. Ma associando il tutto, in teoria, si dovrebbe migliorare.

 

S.F. – Acquisendo così un grado di significazione differente?

 

A.G. – Sì, ma sempre ricostruito. Saranno sempre simboli a entrare all’interno della IA. È tutto simbolico. A quel punto si potrebbe pensare anche al cervello come una macchina di information processing dove tutto è trasformato in informazione a livello locale. Non siamo gli Accademici di Lagado dei viaggi di Gulliver. Se diciamo che sentiamo un odore, quell’odore arriva ai nostri sensi, impressionandoci tanto da venire elaborato con tutto il resto. Se noi riuscissimo a creare una macchina sensibile alle nostre esperienze, che si evolve naturalmente … c’è chi ha provato già in passato. Luc Steels al SonyLab di Parigi e Stefano Nolfi all’ISTC-CNR hanno creato vita artificiale, che impara bottom-up una nuova lingua o impara a fare certe cose. La potenza computazionale era però notevolmente inferiore a quella attuale.

 

S.F. – Comunemente si pensa che le IA ragionino in base agli input di partenza (know that), ma le intelligenze naturali sono dotate anche di competenze apprese tramite la pratica e l’esperienza in alcuni contesti e ambienti (know how), aspetti funzionali per la partecipazione a una narrazione. Alla luce di fenomeni come il machine learning l’apprendimento sembra però essere più flessibile. Come fa una IA ad addestrarsi in autonomia all’insorgere di uno stimolo imprevisto?

 

A.G. – Quello che succede è innanzitutto che queste macchine non sono adattive, almeno non questi modelli coinvolti nel linguaggio e storytelling. Quando si fornisce loro un prompt, esse aggiungono ciò che viene detto fino al riempimento di un certo spazio di memoria. Dopo un certo lasso di tempo smettono e ripartono da capo. La capacità di rielaborare il thread, lo storico della conversazione, è applicata allora ogni volta che si pone loro una domanda, ma dipende dalla memoria a disposizione. Il thread allena in qualche modo, localmente, il modello a rispondere a una cosa. È come se il modello si specializzasse in quel momento, per poi dimenticare in seguito: non c’è quindi adattamento. È il caso di ChatGpt.

C’è un’altra possibilità, il fine tuning. Qui prendiamo una quantità di dati, anche pochissimi in effetti – e obblighiamo la macchina ad addestrarsi anche con quella – che beneficiano dei contenuti pre-addestrati che al contempo vengono modificati in maniera stabile dall’assunzione dei nuovi. Questa architettura si chiama Transformer ed è quella attualmente predominante. Tuttavia, non c’è un’adattività continua in questo tipo di macchine “narranti”, ma sempre un’azione dell’uomo che modifica il modello a una versione aggiornata. Esistono altri modi per addestrare macchine e renderle adattive, ma sono costituiti da algoritmi diversi, che comunque non hanno la scalabilità che hanno quelli in questione. Un modello statico ha la forza di produrre delle regole interne. Questo è un aspetto interessante. La knowledge representation classica in AI esprime le regole in modo logico o analogico, ma questo aspetto diventa stabile e dunque tracciabile. Invece i modelli generativi nelle macchine di cui si parla trovano le regole da sé, ma queste non sono direttamente visibili, a meno che non si pongano domande apposite per tirarle fuori.

 

S.F. – Fanno cioè parte di un’infosfera a cui non abbiamo accesso?

 

A.G. – Io direi più che stiamo creando delle macchine semiotiche che non siamo in grado di controllare completamente né di ispezionare per dare conto di ogni ragionamento. Quello dell’explainability è un problema tecnico, ma più grave mi sembra il problema dell’interpretability. Noi infatti interpretiamo le risposte che riceviamo alla luce di ciò che sappiamo. Ma l’interpretazione fa parte del sistema complesso umano-macchina. È un po’ come diceva Gadda a proposito dell’elica e la nave, in cui l’elica non è un singolo componente, ma il sistema acqua-nave-elica per come opera. La teoria dei sistemi rende più conto di come funzionano i sistemi dinamici. Le lingue naturali hanno il potere metalinguistico di istruire se stesse. Ma in realtà non è proprio così. Siamo noi che le istruiamo e ci auto-istruiamo in questo modo, a imparare modi sempre nuovi di generare contenuto interessante utilizzando la composizionalità della lingua e la composizione della nostra percezione.

 

S.F. – Un domani una AI intraprenderà questo tipo di apprendimento anche non in campo di storytelling?

 

A.G. – Ci sono già architetture molto più leggere. Uno dei problemi delle architetture computazionali attuali è l’addestramento dei modelli e il loro uso generativo costa tantissimo e non è sostenibile in termini di costi-benefici. L’hype si è alzato, ma il fatto che ci sia da guadagnare da questo è ancora tutto da vedere. Nuovi sistemi stanno provando a usare maniere diverse di apprendere e di funzionare anche in modi non solo generativi, così da rendere le macchine più economiche. Oggi si tenta di ammassare grandi quantità di segnali di vario tipo sperando che emerga qualcosa di nuovo. Alcuni stanno cercando di dimostrare che le macchine hanno consapevolezza, che emerga un senso là dove prima non era possibile, ma sono ancora studi locali e non conclusivi. Eppure, prima o poi si potrebbe giungere a produrre qualcosa del genere: forse non un’emergenza nel senso umano, ma quella derivante dalla competenza linguistica più che da una grande massa di segnali aggiuntivi, che potrebbe giungere a costituire qualcosa che potrebbe stupirci.

 

S.F. – Una questione, di carattere etico-politico, è il problema di plasmare una nuova forma di vita intelligente, dunque conferirle inevitabilmente un’impostazione culturale non esente dal rischio del bias. Ma come nasce un bias e quali misure si rivelano efficienti nella relativa revisione? Come combattere poi un tale uso illecito dell’IA, anche in vista di un futuro in cui il discernimento tra IA e utenti umani potrebbe essere più difficile, alla luce di deep fakes e fake news? In questa direzione lavora per esempio l’UE [2], ma la tecnologia gioverà verosimilmente anche alla causa avversa, poiché l’engagement, anche non qualitativo, è ormai una merce preziosa. Si può anche velocemente fare cenno al delicato aspetto dell’autodeterminazione e al modo in cui le nuove tecnologie incideranno sulla definizione della realtà. Basti pensare al ruolo dei socialbot durante le elezioni in USA del 2016. 

 

A.G. – Là dove c’è un’opportunità di sfruttare un sistema che fa cose interessanti, come manipolare comportamenti e concretizzare vantaggi per le aziende, deriva anche una serie di usi distorti e creativi dell’IA, utili a molteplici interessi. Come reagire? Il fact checking è un modo, ma relativamente ai bias si ritorna a noi umani, a come ce li ritroviamo nelle nostre lingue e nel nostro funzionamento neurale e cognitivo. I bias con cui ci scontriamo hanno luogo perché presenti già a partire dalla lingua. È la stessa infosfera che ci riguarda, ma elaborata e compressa da una macchina semiotica che non siamo in grado di descrivere in maniera totale. È importante sottolineare quindi che le AI manipolano informazioni originate in un ambiente umano.

 

S.F. – Un aspetto fondamentale per la comprensione delle storie e di dimensioni peculiari come l’ironia, la distrazione, la metafora e il problem-solving creativo è connesso alla capacità di blending concettuale [3] che la mente umana è in grado di operare, ossia la sua capacità di visualizzare internamente scenari esperiti o esperibili, reali e virtuali, e servirsene per vari scopi. Come differisce quest’aspetto nelle IA, che sembrano poter contemplare quantitativamente più scenari di noi, ma in modo qualitativamente limitato, cioè con meno libertà e possibilità di relazione? Questo chiarirebbe che tipo di engagement esperiscono quando partecipano ad un’attività narrativa, come raccontare una barzelletta, se simulato o effettivamente avvertito come esperienza emotiva e divertente. Le macchine, insomma, immaginano?

 

A.G. – Questo è un caso interessante. Qui c’è in gioco la tacit knowledge, per esempio il paradosso di Moravec. Moravec sosteneva che le macchine sarebbero riuscite a fare cose per noi difficilissime, mentre avrebbero riscontrato problemi in cose e attività per noi ovvie. Questo è quello che oggi sta avvenendo. Non sono in grado per esempio né di arrampicarsi come un gatto su uno scaffale, né di descriverlo. Infatti, funzionano meglio macchine completamente reattive come quelle della Boston Dynamics, che non hanno alcuna conoscenza interna né LLM; esse reagiscono a quello che sentono e riescono a gestire meglio le cose. Questo dice molto sulla varietà di modelli di conoscenza che si dovrebbe utilizzare. Al contempo, cose molto difficili, come generare metafore o essere creativi, anche se a un livello non particolarmente originale, vengono in qualche modo gestite. Per ora la creatività delle macchine è un po’ limitata, fanno cose abbastanza basic. Sebbene ci siano progressi notevoli nell’uso AI in campo musicale, cinematografico, di doppiaggio, per esempio, non ritengo che un mestiere come il doppiatore, che consta anche di trovate e adattamenti efficaci alla cultura e ai giochi linguistici locali, possa oggi venire integralmente sostituito, allo stesso grado qualitativo.

 

S.F. – In che senso allora le intelligenze artificiali possono essere considerate creative?  Del resto, sembra che le IA abbiano notevoli successi in tecniche di content creation, marketing, giornalismo, persino nella scrittura di romanzi [4] e nella rielaborazione di stimoli volti alla produzione di testi, come nel caso di Chat GPT. Oggi questi prodotti possono risultare ancora ripetitivi o troppo tipizzati, ma a fronte di una capacità di analisi superiore all’umano, vale a dire con la possibilità di relazionarsi con più materiali, ma in meno tempo. Cosa si richiede allora perché i sistemi artificiali producano sviluppi narrativi liberi, non ripetitivi e imprevisti [5] rispetto ai loro input e all’eventuale assenza di input predeterminati? In particolare, con l’acquisizione di  skills narrativi da parte di IA si presenta il rischio di conseguenze imprevedibili sul «controllo del discorso – pubblico e privato», fino a giungere in un mondo in cui le macchine saranno più efficienti in attività che includono la scrittura, la stesura di contenuti politici e di leggi [6]. 

 

A.G. – Questa è un po’ la chiusa di tutto. La qualità, in primo luogo, non è ancora accessibile, non per come la intendiamo, almeno in gran parte dei lavori in campo creativo. Il problema maggiore è però quello della sostituzione. Nel momento in cui diventa monetizzabile l’abbassamento della qualità, le macchine potranno sostituirci, anche senza mantenere il medesimo livello qualitativo. Il rischio tocca la cultura generale ed è il seguente: che ci si adatti a quel livello di produzione che penetra nella nostra infosfera, potendo determinare anche un feedback loop negativo, che vedrebbe la macchina (e gli umani) addirittura peggiorare. Insomma, imparare dall’errore è fondamentale. Herbie Hancock e Miles Davis stavano suonando, quando Hancock suonò un accordo sbagliato. Miles lo guardò con occhi di fuoco, producendo però al contempo una configurazione melodica che rese plausibile quell’accordo.

 

S.F. – Qui siamo di nuovo al know how dunque.

 

A.G. – Sì, ma un know how che serve a imparare dagli errori e renderli plausibili. Ho provato a testare una macchina su produzioni musicali, in questo senso. Pur descrivendo la teoria dell’aggiramento dell’errore, non sarebbe capace di eseguirlo per esempio mentre suona con me.

 

S.F. – Manca quindi il carattere performativo dell’esperienza.

 

A.G. – Esatto. Un conto è sapere che una cosa si può fare, ma il know how è diverso, perché ha a che fare con gli aspetti operazionali, embedded, embodied, enactive e extended, cosa di cui la macchina non può avvalersi. Ma a questo punto la distanza tra una macchina che fa information processing e una che lo fa in un corpo vivente si potrebbe ridurre sempre di più.

 

S.F.  – La narrazione è un fenomeno complesso che presuppone ciò che più distingue le IA dalle intelligenze naturali: corpo, esperienza e linguaggio [7]. Il tentativo di dotare un’IA di una competenza narrativa potrebbe allora costituire un banco di prova decisivo per la costituzione di un’intelligenza che ambisce a integrarsi nel mondo umano, come si evince dal largo impiego che i chatbot trovano nel quotidiano. Come si muove la ricerca? Quanto siamo lontani da un automa che integri ognuna di queste dimensioni, un bot in grado cioè di narrare, comprendere, prendere parte dinamicamente a una conversazione o una storia e, in particolare, di avvertire un coinvolgimento?

 

A.G. – Tutto ciò non è da escludere. Accadono a volte delle singolarità legate alla scala o all’ibridazione fra due metodi che possono conseguire risultati anche inaspettati. Un esempio in questa direzione è stato il reinforcement learning applicato all’NLP, utilizzato anche dalla stessa OpenAI sui modelli Transformer.

 

S.F. – La ringrazio molto per il tempo concesso a questa intervista.

 

A.G. – Grazie a lei.

 

NOTE

[1] M. Caracciolo, The Experientiality of Narrative. An Enactivist Approach, de Gruyter, Berlino 2014, p. 58.

[2] Commissione europea, Direzione generale delle Reti di comunicazione, dei contenuti e delle tecnologie, Orientamenti etici per un'IA affidabile, Ufficio delle pubblicazioni, 2019, https://data.europa.eu/doi/10.2759/640340 .

[3] Cfr. G. Fauconnier, M. Turner, The Way We Think: Conceptual Blending and the Mind’s Hidden Complexities, Basic Books, NewYork, 2002; M. Turner, Double Scope Stories, in D. Herman, Narrative Theory and the Cognitive Sciences, Center for the study of Language and Information, Stanford, 2003, pp. 117-142; R. Arp, Scenario Visualization: An Evolutionary Account of Creative Problem Solving, The MIT Press, Cambridge (MA)-London 2008.

[4] J. Sassoon, Storytelling e intelligenza artificiale, Franco Angeli, Milano, 2019, p. 78.

[5] Ivi, p. 75.

[6] Ivi, p. 66; Cfr. anche Y. N. Harari, Yuval Noah Harari argues that AI has hacked the operating system of human civilisation, in “The Economist”, By Invitation, 6 Maggio 2023, disponibile all’URL: https://www.economist.com/by-invitation/2023/04/28/yuval-noah-harari-argues-that-ai-has-hacked-the-operating-system-of-human-civilisation [aggiornato al 01/10/2023]. 

[7] J. Sassoon, Storytelling e intelligenza artificiale, cit., pp. 87-9.

Antonio Matacena ha conseguito la laurea magistrale in Scienze Filosofiche all’Università di Bologna. La sua tesi in Estetica Contemporanea si intitola: “Narrazione come esperienza. La mente estesa nello storytelling”. Essa affronta la narrazione come fenomeno estetico e cognitivo, in un framework fenomenologico e pragmatista, concentrandosi sull’impatto che le storie hanno sull’identità e sulla realtà costituendo così una dinamica mentale estesa, che rende lo storytelling integrabile nei più recenti paradigmi nella filosofia della mente. I principali autori di riferimento sono Mark Johnson, John Dewey e Theodor Adorno. I suoi interessi includono i linguaggi artistici, la comunicazione e le scienze cognitive, in particolare la 4E Cognition, le differenze tra intelligenze naturali e artificiali e la scrittura creativa.