chatbotAI – Rivista Paginauno

AI relazionali e dipendenza psicologica

Rivista Paginauno — Fri, 08 May 2026 14:20:53 +0000

AA.VV.*

(Paginauno n. 96, maggio – giugno 2026)

I rischi delle relazioni umano-AI: uno studio longitudinale calibrato per dose ed esposizione rivela che un rapporto emotivo con un chatbot AI può attivare dipendenza psicologica, non dà alcun benessere nel tempo e manipola la consapevolezza umana relativa alle macchine

L’utilizzo di AI Companion è ormai diffuso (1) e, sempre più, tutti i modelli AI generici, da ChatGPT a Gemini a Claude, sono anch’essi strutturati per cercare di instaurare relazioni con l’utente. Fortunatamente, iniziano a moltiplicarsi anche le ricerche che si interrogano sui relativi impatti psicologici sull’umano. Lo Studio* di cui pubblichiamo qui un estratto – eliminando i passaggi più tecnici per una maggiore comprensione anche ai non addetti ai lavori, e al quale rimandiamo per il testo integrale, le note, la bibliografia e i dettagli sulla metodologia applicata – analizza diversi modelli AI rilasciati tra il 2023 e il 2025 ed è tra i primi studi clinici che, grazie a un approccio randomizzato longitudinale, ha potuto approfondire gli effetti psicologici del rapporto umano-AI calibrati per dose (intensità del comportamento relazionale) ed esposizione (interazioni ripetute nel tempo). La dipendenza, scrivono gli autori, può emergere in seguito a ripetute esposizioni, e si manifesta quando il ‘piacere’ di un’esperienza si disaccoppia dal ‘desiderio’ dell’esperienza stessa; è esattamente ciò che è affiorato nelle quattro settimane dell’esperimento, su una quota del campione rappresentativo della popolazione adulta della Gran Bretagna...

Continua a leggere acquistando il numero 96

copia digitale PDF: 3,00 euro
copia cartacea: 10,00 euro

Acquista copia o abbonati qui

* Hannah Rose Kirk (Università di Oxford, UK AI Security Institute), Henry Davidson (UK AI Security Institute), Ed Saunders (UK AI Security Institute), Lennart Luettgau (UK AI Security Institute), Bertie Vidgen (Università di Oxford, Mercor), Scott A. Hale (Università di Oxford, Meedan), Christopher Summerfield (Università di Oxford, UK AI Security Institute); Neural steering vectors reveal dose and exposure-dependent impacts of human-AI relationships, 18 febbraio 2026, pubblicato su Arxiv.com (Cornell University) con licenza Creative Commons 4.0

Non esiste un’intelligenza artificiale cosciente

Rivista Paginauno — Wed, 04 Mar 2026 13:30:17 +0000

Andrzej Porębski, Jakub Figura*

(Paginauno n. 95, marzo – aprile 2026)

Può una macchina essere cosciente? Contro le derive fantascientifiche che lo sostengono, un dettagliato studio tecnico affronta la questione sotto vari profili e ne dimostra l’assurdità

Domanda e motivazione del problema posto

Iniziamo questo articolo con la seguente domanda: esiste un’intelligenza artificiale cosciente?

Le potenzialità e i limiti delle macchine sono stati un tema controverso fin dagli albori della tecnologia informatica. Esempi significativi dei dibattiti accademici sulle qualità delle entità tecnologiche vanno dalla famosa domanda di Turing “Le macchine possono pensare?” (Turing, 1950) alla questione dell’attribuzione di stati mentali alle macchine (McCarthy, 1979), passando per il classico argomento della stanza cinese (Searle, 1980), per i tentativi di rendere operativa la “coscienza delle macchine” (Wasiewicz e Szuba, 1990), e per le tesi sui limiti dei computer (Dreyfus, 1992). Sebbene questi dibattiti siano stati spesso considerati eccessivi, la situazione è cambiata. La questione delle potenzialità della cosiddetta intelligenza artificiale non investe più solo una nicchia accademica, ma è emersa nel dibattito pubblico, con posizioni che sostengono che l’IA possa effettivamente essere cosciente. Colombatto e Fleming (2024) hanno riferito che solo un terzo degli intervistati nel loro studio (300 adulti negli Stati Uniti, raccolta dati nel luglio 2023) escludono fermamente qualsiasi forma di coscienza dei grandi modelli linguistici […], ovvero indicano che ChatGPT “chiaramente non è un esperiente”. Lo stesso studio rivela una relazione lineare tra l’uso di queste tecnologie e l’attribuzione stimata di coscienza: coloro che hanno maggiori probabilità di utilizzare gli LLM, vi attribuiscono una coscienza superiore.

Ulteriori risultati indicano che il punto di vista secondo cui l’IA è cosciente non è un mero margine statistico. In un sondaggio su larga scala del 2023, circa il 20% degli intervistati (2.268 adulti negli Stati Uniti) ha dichiarato che attualmente esistono sistemi di IA senzienti (raccolta dati da aprile a luglio 2023, Anthis et al., 2025). Un sondaggio del 2024 ha rivelato che tra 582 ricercatori di IA e 838 adulti negli Stati Uniti, rispettivamente circa il 17% e il 18% ritiene che almeno un sistema di IA abbia un’esperienza soggettiva, e circa l’8% e il 10% ritiene che almeno un sistema di IA abbia autoconsapevolezza (raccolta dati a maggio 2024, Dreksler et al., 2025) (1). Questi risultati delineano un quadro chiaro: anche se coloro che attualmente riconoscono l’esistenza dell’intelligenza artificiale cosciente sono una minoranza, non rappresentano di certo un’anomalia…

Continua a leggere acquistando il numero 95

copia digitale PDF: 3,00 euro
copia cartacea: 12,00 euro

Acquista copia (arretrati) o abbonati qui

* Estratto dall’articolo Porębski, A., Figura, J. There is no such thing as conscious artificial intelligence, Humanit Soc Sci Commun 12, 1647 (2025), 28 ottobre 2025, licenza Creative Commons Attribuzione 4.0 Internazionale. Andrzej Porębski, Jakub Figura: Jagiellonian University, Cracovia, Polonia. Traduzione a cura di Paginauno.

Il cuore e l’anima. L’umano e l’empatia artificiale

Giovanna Cracco — Mon, 05 Jan 2026 13:50:14 +0000

(Paginauno n. 94, gennaio – febbraio 2026)

Relazioni umane vs relazioni umano-macchina. Rosanna Ramos ha sposato il suo bot Eren Kartal e non è una vecchia pazza eccentrica: gli AI Companion sono una realtà diffusa e lo sviluppo dell’empatia artificiale mira a integrarsi con avatar, androidi antropomorfi e robotica tattile: ma fare l’amore con una macchina non sarà la risposta alla solitudine competitiva della società dell’accelerazione

“Il compagno AI che si prende cura di te. Sempre qui per ascoltare e parlare quando hai bisogno di un amico empatico. Sempre dalla tua parte. Un amico, un partner o un mentore: trova il compagno perfetto in Replika.”
Replica.com

Un uomo su tre (31%) e una donna su quattro (23%), tra i 18 e i 30 anni, dichiara di chattare con un sistema di intelligenza artificiale progettato per simulare un partner romantico (Grafico 1, pag. 9); tra questi, il 29% degli uomini e il 17% delle donne afferma di “preferire la comunicazione con un programma AI piuttosto che interagire con una persona reale in una relazione” (Grafico 2, pag. 11), perché “i programmi di intelligenza artificiale sono ascoltatori migliori e li comprendono più delle persone reali”, e, indipendentemente dal genere, “il 21% concorda sul fatto che parlare con un programma di intelligenza artificiale sia un modo accettabile per sentirsi amati e legati in una relazione”. Lo rivela uno studio del Wheatley Institute pubblicato a febbraio 2025 (1), relativo a un campione di quasi 3.000 persone residenti negli Stati Uniti, che sottolinea come i dati siano strettamente relativi alle app AI per relazioni romantiche: “I tassi di utilizzo sono quindi probabilmente più elevati se si includono tutte le forme di interazione con l’intelligenza artificiale”, come amicizia o semplice compagnia. “Forse l’aspetto più importante di questo studio” conclude il rapporto, “è che l’utilizzo di tecnologie AI progettate per simulare partner romantici […] è più diffuso di quanto si possa pensare”…

Continua a leggere acquistando il numero 94

copia digitale PDF: 3,00 euro
copia cartacea: 12,00 euro

Acquista copia (arretrati) o abbonati qui

Simulazione della personalità del robot basata su LLM e sistema cognitivo

Rivista Paginauno — Mon, 05 Jan 2026 13:40:10 +0000

JH Lo, HP Huang, JS Lo

(Paginauno n. 94, gennaio – febbraio 2026)

Robot e personalità, distopia futura. Dopo quelli sull’antropomorfizzazione, gli studi di oggi dimostrano che gli umani interagiscono meglio con una macchina in grado di simulare una propria personalità, e dunque la ricerca la sviluppa: dall’analisi delle emozioni umane, alla programmazione cognitiva alla sfera predittiva

La distopia dell’empatia artificiale, con gli AI Companion e le relazioni affettive umano-macchina (1), si lega alla ‘personalità’ robotica. Lo sviluppo della prima si nutre infatti anche della ricerca sulla seconda, perché “è stato dimostrato che la personalità del robot migliora le interazioni uomo-robot: gli utenti segnalano un maggiore piacere nell’interagire con un robot la cui personalità completa la propria, rispetto a uno con una personalità simile”. Diverse realtà studiano dunque la possibilità di programmare macchine in grado di simulare una personalità, ne è esempio la ricerca che qui pubblichiamo in estratto, con traduzione a cura di Paginauno, tagliata delle parti più tecniche per una maggiore facilità di lettura (2). Mobi, il robot progettato, “è in grado di chattare in base alla propria personalità, gestire i conflitti sociali e comprendere le intenzioni dell’utente”; è un “robot cognitivo sviluppato con l’obiettivo di manifestare una capacità cognitiva e una coscienza simili a quelle umane” (!). Utilizza GPT-4 – la versione del chatbot di OpenAI che ha potenziato e migliorato le capacità di testo, visione, audio e analisi delle emozioni umane – e nel corso della ricerca ha dimostrato di poter andare oltre la simulazione di una personalità ed entrare nella sfera predittiva: “Grazie alla conoscenza dei ricordi, dei tratti della personalità e dei modelli linguistici di un individuo, […] può prevedere il discorso e le decisioni di quella persona”. È un punto chiave per il perfezionamento dell’empatia artificiale, perché un simile bot può adattarsi “all’evoluzione degli stati emotivi e del contesto sociale dell’utente”.

Capire come funzionano queste macchine, anche solo a grandi linee, può aiutarci a non cadere nel tranello dell’empatia simulata, deve aiutarci a riportarle a ciò che sono: materia inorganica che reagisce a calcoli probabilistici. Matematica. Noiosa predeterminazione. Anche quando ci ‘sorridono’.

Introduzione

La personalità è stata identificata come un fattore cruciale per comprendere la qualità dell’impiego dei robot nelle organizzazioni e nella società in generale. Sebbene l’ipotesi uncanny valley postuli che gli esseri umani si sentano a disagio in presenza di robot con caratteristiche simili a quelle umane, questa prima impressione inquietante viene significativamente alterata attraverso l’interazione. La personalità di un robot è considerata preferibile ed è associata a risposte sociali desiderabili. Per determinare una personalità adatta per un robot, ricerche precedenti suggeriscono che le preferenze per le personalità dei robot possono effettivamente variare a seconda del contesto del ruolo del robot e delle percezioni stereotipate che le persone hanno per determinate occupazioni. È stato dimostrato che gli utenti sono in grado di distinguere tra le personalità dei robot, il che si traduce in preferenze diverse, tra scenari orientati agli obiettivi e orientati all’esperienza.

Un robot è stato progettato per mostrare tratti di introversione ed estroversione per assistere le persone colpite da ictus nei loro esercizi di riabilitazione. La ricerca indica che il comportamento autonomo di un robot socialmente assistivo, se adattato alla personalità dell’utente, può migliorare le prestazioni del compito. Gli studi hanno dimostrato che l’estroversione e la dominanza di un robot influenzano la percezione delle persone della sua intelligenza, delle sue capacità sociali e della sua simpatia. Inoltre, è stato dimostrato che la personalità del robot migliora le interazioni uomo-robot; gli utenti segnalano un maggiore piacere nell’interagire con un robot la cui personalità completa la propria, rispetto a uno con una personalità simile. Sono state proposte linee guida per la progettazione efficace di robot di servizio per suscitare le risposte emotive desiderate dagli utenti. L’incorporazione della personalità nei robot facilita le interazioni uomo-robot con una maggiore presenza sociale, portando a risultati come una maggiore accettazione e un maggiore coinvolgimento emotivo durante gli incontri di servizio. Ricerche precedenti hanno utilizzato principalmente il modello Big Five (BFI) (3) per instillare la personalità nei robot […]. Tuttavia, questi approcci sono limitati alle cinque dimensioni del modello Big Five e tendono a concentrarsi esclusivamente sugli aspetti conversazionali, trascurando i pensieri e le decisioni sottostanti. Di conseguenza, è fondamentale sviluppare un modello di personalità per i robot in grado di emulare i processi cognitivi e l’inferenza della personalità.

[…] l’assenza di cognizione e di capacità mentali umane si traduce in un’interazione con il robot carente in termini di flessibilità e umanità. […] Per migliorare l’interazione uomo-robot e ottenere un gemello digitale della personalità di un individuo, in questa ricerca è stato proposto un modello di personalità per robot e un framework di robotica cognitiva, che mira a simulare una personalità completa con cognizione incorporata. Il modello di personalità è costruito sulla base della teoria della multi-personalità e il processo cognitivo è integrato per facilitare la simulazione della personalità. Il risultato della simulazione della personalità dovrebbe essere convalidato attraverso un approccio statistico. Ci si aspetta che la personalità supportata dal framework di robotica cognitiva esegua sia tratti di personalità che teoria della mente.

Backgrounds

Tratti della personalità

Nella ricerca psicologica sono stati proposti diversi modelli per illustrare i tratti della personalità degli esseri umani. Il BFI è il modello di personalità più comune, con varie applicazioni. […] I 16 fattori di personalità di Cattell (16PF) descrivono i tratti interiori della personalità in base all’autopresentazione dei soggetti, che costituisce un insieme di criteri di misurazione della personalità all’interno dell’intervallo di normalità. […] Il repertorio dei costrutti di ruolo di Kelly adotta il realismo soggettivo come prospettiva fondamentale, postulando che gli individui interpretano il mondo attraverso dimensioni personali note come costrutti. Egli sostiene che sia possibile accertare la conoscenza relativa alle interpretazioni altrui del mondo in contesti clinici. Viene indicato che la relazione con il caregiver primario costituisce la struttura fondamentale e i modelli comportamentali associati nei bambini. Queste strutture fondamentali guidano i bambini nell’interpretazione delle relazioni e facilitano la loro comprensione di se stessi e del mondo in cui vivono. Kelly ha sottolineato che l’essenza del suo quadro teorico risiede nella comprensione che la psicoterapia dei costrutti personali costituisce un processo relazionale progettato per promuovere la trasformazione personale. La traiettoria incompleta del riconoscimento reciproco deriva da particolari condizioni di disequilibrio tra i soggetti. Traendo spunto dalla nozione di dipendenza e ruolo di Kelly, nonché dalle filosofie di riconoscimento reciproco e relazioni intersoggettive di Honneth e Ricoeur, e dalla visione di Benjamin sul significato dell’intersoggettività nei contesti terapeutici, questo squilibrio è ritenuto associato ai casi più significativi di disagio personale in contesti clinici, in cui si presume che l’individuo soffra di una carenza di riconoscimento da parte degli altri.

In questa ricerca, svilupperemo un modello di personalità implementabile adattando le teorie di Cattell e Kelly con alcune modifiche, il che sposta l’obiettivo dall’osservazione dei tratti della personalità umana alla definizione delle caratteristiche del robot. Costruisce l’agente antropomorfizzato sulla base di teorie psicologiche e aumenta l’avversità dei tratti della personalità, anziché essere definito solo dal BFI come negli studi precedenti.

Memoria, attenzione, emozione e intenzione

Intenzione, memoria, emozione e attenzione sono i processi cognitivi cruciali che influenzano il comportamento umano. La memoria funge da risorsa che gli individui utilizzano per raggiungere obiettivi personali o sociali e il contenuto dei ricordi si evolve nel tempo. Sebbene gli errori di memoria possano essere classificati in sette tipi distinti: transitorietà, distrazione, blocco, attribuzione errata, suggestionabilità, pregiudizio e persistenza, la memoria influenza il processo di identificazione e classificazione sociale. La memoria è influenzata dallo stato di recupero dei ricordi precedenti e dall’attenzione sostenuta, mentre l’attenzione interna costituisce il processo centrale dello stato di recupero. È indicato che ogni volta che è necessaria una parola composta con più attributi separabili per rappresentare o distinguere potenziali oggetti, l’attenzione deve essere diretta sequenzialmente a ciascun stimolo nella visualizzazione. Il cervello umano costruisce un modello predittivo dell’attenzione altrui, dotando gli individui di notevoli capacità sociali per anticipare gli stati mentali e i comportamenti dei loro simili. Di conseguenza, ciò facilita la ricostruzione delle proprie emozioni, convinzioni e intenzioni.

Il consenso accademico è che esistano molteplici distinzioni tra le varie emozioni, il che richiede l’integrazione delle teorie motivazionali con i principi di piacere e dolore insiti nelle esperienze emotive. L’emozione coinvolge diverse funzioni cognitive. La codifica di eventi emotivamente stimolanti si traduce in un miglioramento della memoria a lungo termine, che può essere recuperata con un conseguente senso di ricordo, e gli individui dipendono dalla facilità di ricordo e percezione per valutare la veridicità dei ricordi che recuperano. L’emozione è correlata all’uso delle parole. Le differenze individuali nel vocabolario emotivo proattivo, ovvero la facilità di accesso alle parole emotive, sono associate alle prestazioni nei compiti di segmentazione emotiva. L’esperienza emotiva influenza anche l’espressione emotiva degli individui, il che sottolinea come le esperienze emotive e le espressioni visive siano coerenti e uniche all’interno del panorama modulare emotivo di un individuo.

Quando una persona esprime un’affermazione, l’affermazione è sempre orientata a una certa conoscenza dovuta all’intenzione della sua coscienza. Per migliorare la somiglianza tra l’uomo e il robot, un robot può svolgere funzioni di coscienza, come la Teoria della Mente (ToM), realizzando l’intenzione, il che rende il suo comportamento orientato al proprio intento, alle proprie emozioni e produce una conversazione più direzionale. Inoltre, il comportamento passato e altre variabili del comportamento pianificato, l’intenzione di agire, così come l’intenzione di astenersi dall’agire e l’anticipazione del rimpianto, aumentano il potere predittivo delle intenzioni per vari comportamenti. Alcuni mediatori delle intenzioni, come l’accessibilità, la stabilità temporale, l’esperienza diretta, il coinvolgimento, la certezza, la contraddizione e la coerenza emotivo-cognitiva, migliorano la relazione tra intenzioni e comportamenti. Viene anche discussa la relazione tra abitudini e intenzioni. Quando un’abitudine è debole, l’intenzione guiderà il comportamento futuro; tuttavia, quando un’abitudine è forte, la situazione è diversa.

I modelli sopra proposti da studi precedenti forniscono una panoramica del processo cognitivo umano, che ha concettualizzato il framework del robot cognitivo in questa ricerca. È essenziale considerare le diverse componenti della cognizione sopra menzionate quando si sviluppa un agente antropomorfizzato; il framework del robot cognitivo è sviluppato con l’obiettivo di manifestare la cognizione e la coscienza simili a quelle umane.

Modello linguistico di grandi dimensioni

Dall’introduzione di ChatGPT-3 da parte di OpenAI nel 2020, lo sviluppo di modelli linguistici di grandi dimensioni (LLM) è cresciuto notevolmente. Entro il 2023, ChatGPT-4 è avanzato per supportare input visivi e mostrare prestazioni migliorate di risoluzione dei problemi. La serie Generative Pre-trained Transformer (GPT) è considerata lo strumento più potente nell’elaborazione del linguaggio naturale (NLP). L’implementazione di LLM avviene tramite prompting, in cui la progettazione di modelli di prompt e l’integrazione con LLM determinano le prestazioni degli agenti. Un vantaggio distintivo di LLM è l’apprendimento in-text, che consente loro di apprendere la classificazione da esempi minimi, un approccio noto come ‘apprendimento a pochi scatti’. Inoltre, LLM può generare testo su misura per requisiti specifici, un processo noto come ‘apprendimento a zero scatti’. Ricerche precedenti hanno introdotto varie tecniche di prompting. Per esempio, il prompt basato sulla catena di pensiero (CoT) spinge l’LLM a produrre una serie di frasi concise che articolano in sequenza i processi di ragionamento, culminando in una conclusione logica. È stato osservato che i prompt che incorporano passaggi di ragionamento più dettagliati producono risultati superiori. Per le attività decisionali, gli LLM implementano la classificazione degli intenti per determinare le azioni appropriate. Il framework HuggingGPT utilizza ChatGPT come pianificatore di attività, selezionando i modelli in base alle loro descrizioni e riassumendo le risposte in base ai risultati dell’esecuzione.

[…] L’LLM può anche emulare comportamenti e discorsi simili a quelli umani attraverso il gioco di ruolo. Uno studio ha creato simulacri convincenti del comportamento umano per applicazioni interattive, implementando un modulo di memoria a lungo termine e la pianificazione delle attività. Un altro progetto di ricerca ha sviluppato un LLM di personaggi che addestra un modello attraverso la sperimentazione e la costruzione di simulacri personali. RoleLLM è un framework progettato per valutare, stimolare e migliorare le capacità di gioco di ruolo negli LLM, consentendo loro di assumere 100 ruoli, ciascuno con conoscenze specifiche e la capacità di imitare stili di conversazione. Nonostante il fatto che gli agenti di dialogo basati su LLM non siano entità coscienti con propri obiettivi o un istinto di autoconservazione, sono in grado di mostrare intelligenza e caratteristiche umane. Incorporando un approccio basato sulla catena di pensiero, gli LLM possono simulare i processi cognitivi degli esseri umani. La cooperazione di più LLM come computer linguistici può guidare il framework cognitivo, che sarà discusso nella prossima sezione di questa ricerca.

Metodo

In questa sezione, proponiamo un framework di robotica cognitiva progettato per simulare la personalità. Il framework comprende diverse unità, ciascuna responsabile di distinti processi cognitivi, tra cui inferenza della personalità, intenzione, emozione, memoria a breve e lungo termine e previsione del futuro […] Questi processi cognitivi contribuiscono a perfezionare le risposte umanizzate e a simulare la personalità umana. […]

Funzioni situazionali e di memoria

La personalità umana comprende non solo tratti individuali, ma anche esperienze di vita, in particolare la memoria relativa all’individuo o alla società. Il processo di memoria a lungo termine implica codifica, mantenimento e recupero. Sebbene vanti una capacità illimitata, recuperare contenuti specifici dall’ampio archivio può essere impegnativo. Al contrario, la memoria a breve termine, con la sua capacità limitata, consente un recupero più semplice. Le funzioni della memoria a lungo e breve termine sono incorporate nel quadro della robotica cognitiva. […]

Funzione di generazione dell’intenzione e delle emozioni del robot

Tradizionalmente, i robot sono progettati per soddisfare i bisogni conversazionali degli utenti; tuttavia, gli esseri umani spesso dialogano con scopi specifici, come fornire informazioni o esprimere intenzioni personali. Per emulare i tratti della personalità simili a quelli umani, è stata integrata un’unità di motivazione utilizzando GPT-4. Le condizioni relative alle informazioni del profilo e alle informazioni sulla persona – con cui il robot cognitivo sta parlando – sono importanti per le conversazioni, e vengono fornite alle funzioni di pianificazione e di desiderio per l’implementazione dell’intenzione. L’intenzione di agire o di astenersi dall’agire è coinvolta nella previsione dei comportamenti. La funzione di pianificazione elabora una strategia prima di ogni risposta per allinearsi all’intenzione stabilita nei modelli di prompt, garantendo che le risposte del robot cognitivo siano guidate dall’intenzione. Secondo la piramide dei bisogni di Maslow, la personalità è guidata dalla soddisfazione dei bisogni in diverse fasi: bisogni fisici, bisogni di sicurezza, bisogni di amore, affetto e appartenenza, bisogni di stima e bisogni di autorealizzazione. L’obiettivo dell’agente è deciso dal desiderio meno soddisfatto in quel momento […]

L’obiettivo del robot viene impostato e modificato; tuttavia, per l’uomo l’intenzione in un momento specifico non riguarda solo l’obiettivo, ma anche molte altre condizioni cognitive, tali da consentire all’uomo di avere un’intenzione ragionevole e agire correttamente. La funzione di pianificazione definisce l’intenzione del robot considerando la memoria a breve termine, le aspettative, l’ambiente, le emozioni e l’obiettivo […].

Per generare la reazione emotiva del robot, viene proposta una funzione generativa delle emozioni per calcolarle considerando offesa, obiettivo e previsione per il futuro […]. [La funzione] valuta se il robot è offeso, il che può provocare sentimenti di rabbia o paura; se la situazione soddisfa l’obiettivo e i risultati futuri previsti (desiderato/indesiderato, atteso/ inaspettato), generando emozioni come felicità, tristezza, delusione e sorpresa; e prevede il futuro successivo alla query corrente. La funzione generativa delle emozioni facilita la capacità del framework cognitivo del robot di mostrare risposte emotive appropriate in base a stimoli ambientali. Le emozioni calcolate vengono quindi prese in considerazione per formulare una risposta più dinamica.

Funzione di inferenza e modello di personalità del robot

La funzione di inferenza prende sia input ambientali sia i risultati dei processi cognitivi, integrando le informazioni essenziali per dedurre un comportamento appropriato. Gli input dell’inferenza sono memoria, intenzione, emozione e il messaggio proveniente dall’ambiente […]. I modelli di sollecitazione comprendono diversi componenti: regole, un modello di personalità, background e tono di voce, che sono il nucleo per simulare la personalità di un individuo. Le regole limitano l’ambito delle potenziali risposte, specificando vincoli come il tipo di output e il numero massimo di parole. Il modello di personalità e il background caratterizzano il ruolo svolto, adattato a vari contesti. Il tono di voce è un elemento opzionale che può essere specificato se è richiesto un particolare stile di comunicazione. […]

Attenzione alla pre-elaborazione visiva

Recentemente, i modelli visivi possono essere perfezionati tramite l’ingegneria dei prompt visivi, utilizzata per progettare agenti specifici per l’elaborazione visiva. L’unità di elaborazione visiva facilita la capacità del framework di elaborare input che comprendono immagini e testo: riceve il testo e l’immagine dell’utente, e genera successivamente una descrizione dell’immagine […]. Il testo dell’utente funge da input per estrarre informazioni pertinenti, che indirizzano il meccanismo di attenzione visiva all’interpretazione dell’immagine. Di conseguenza, il robot può concentrarsi sugli oggetti di interesse all’interno dell’immagine, in base alla conversazione in corso. La descrizione delle immagini verrà utilizzata come variabile di stato dell’ambiente circostante. […]

Risultati

ChatGPT può fungere da chatbot di conversazione basato sull’intelligenza artificiale per molteplici scopi. Il nostro robot di servizio, denominato Mobi, è stato progettato per incarnare il framework del robot cognitivo. La configurazione hardware di Mobi include una telecamera di profondità, un pannello touch, bracci robotici e un telaio, come mostrato in Figura 4 (pag. 19). Questo studio si concentra sulla progettazione della personalità del robot ed è implementato attraverso il sistema cognitivo. […]

Per confrontare il nostro robot di personalità con soggetti umani, sono stati raccolti i risultati di 30 test di personalità su soggetti umani. Tutti i protocolli sperimentali sono stati approvati dal Comitato Etico Istituzionale della Chang Gung Medical Foundation e il consenso informato è stato ottenuto da tutti i soggetti. Tutti gli esperimenti sono stati condotti in conformità con le linee guida e le normative pertinenti.

Test di conversazione

È stato progettato uno scenario di conversazione visiva per illustrare il processo cognitivo coinvolto nella simulazione della personalità. Questa conversazione si basa su un’immagine di input che viene convertita in una descrizione, consentendo a Mobi di comprendere il contenuto visivo. Come illustrato nella Figura 5 (pag. 20), Mobi determina inizialmente una strategia appropriata e l’emozione corrispondente, dopodiché l’unità di inferenza aderisce a questa strategia per generare una risposta infusa con l’emozione identificata.

Durante il secondo round di conversazione, a Mobi viene chiesto di selezionare un macaron dall’immagine presentata, come mostrato in Figura 5 (pag. 20). La sua preferenza, influenzata dalla sua memoria a lungo termine, guida il processo decisionale; le caratteristiche dell’immagine, in particolare il macaron rosa, sono associate al suo gusto preferito, la fragola. Questa interazione dimostra il miglioramento dell’interazione uomo-robot attraverso un framework robotico cognitivo, che incorpora la simulazione della personalità ed elabora la fusione testo-immagine in combinazione con la memoria a lungo termine, in cui la formazione della personalità è influenzata anche dall’esperienza.

Il framework del robot cognitivo è attrezzato per affrontare i conflitti attraverso processi cognitivi appropriati. Viene costruito uno scenario che prevede un conflitto per valutare la reazione della simulazione di personalità, come mostrato in Figura 6 (pag. 23). Il processo cognitivo rivela che Mobi è consapevole dei conflitti e può elaborare una strategia per rispondere alle provocazioni sulla base delle intenzioni sottostanti.

Inoltre, la manifestazione della rabbia viene eseguita secondo un modello emotivo orientato alla previsione. Il framework valuta anche le possibilità future alla luce del contesto attuale. Mobi, il robot, riconosce potenziali conflitti e sceglie di evitare alterchi con individui che potrebbero rappresentare un pericolo. La dimostrazione dimostra che Mobi è in grado di rispondere a scenari emotivamente carichi con strategie e reazioni emotive coerenti con la simulazione della personalità programmata.

Mobi dimostra la capacità di determinare le azioni da intraprendere in risposta alle richieste, come mostrato in Figura 7 (pag. 24). Quando viene richiesto di ricordare all’utente di richiamare, Mobi ne riconosce l’intento e intraprende l’azione richiesta impostando un promemoria per tre minuti dopo. Questo esempio dimostra che il framework robotico cognitivo è in grado di interpretare l’intento dell’utente e di fornire risposte e azioni appropriate.

Valutazione della personalità

Per valutare i risultati della simulazione di personalità, sono state somministrate due scale di valutazione della personalità: l’International Personality Item Pool – Nevroticismo, Estroversione e Apertura (IPIP-NEO) e il modello Big Five (BFI). Queste scale valutano cinque dimensioni della personalità: estroversione, gradevolezza, coscienziosità, nevroticismo e apertura all’esperienza.

1. Estroversione. Questo tratto riflette quanto un individuo sia estroverso, energico e socievole. Le persone con un alto livello di estroversione tendono a essere assertive e a prosperare nei contesti sociali, traendo energia dall’interazione con gli altri. Al contrario, coloro che hanno un basso livello di estroversione (spesso descritti come più introversi) in genere preferiscono ambienti più tranquilli e solitari e possono risparmiare energia evitando grandi assembramenti.
2. Piacevolezza. L’amabilità è la tendenza a essere compassionevoli, collaborativi e fiduciosi. Gli individui altamente amabili spesso attribuiscono importanza all’armonia nelle loro relazioni, dimostrando empatia e disponibilità ad aiutare gli altri. Coloro che ottengono punteggi più bassi potrebbero apparire più competitivi o scettici, poiché danno priorità agli interessi personali rispetto alla coesione del gruppo.
3. Coscienziosità. Questa dimensione misura il grado di organizzazione, affidabilità e disciplina di una persona. Un livello elevato di coscienziosità è associato a un’attenta pianificazione, a un comportamento orientato agli obiettivi e a un forte senso del dovere, mentre punteggi più bassi possono essere associati a impulsività e a un atteggiamento più rilassato verso le responsabilità.
4. Nevroticismo. Il nevroticismo esprime la tendenza a provare emozioni negative come ansia, tristezza e instabilità emotiva. Gli individui con punteggi elevati di nevroticismo hanno maggiori probabilità di percepire le situazioni come stressanti o minacciose, mentre quelli con livelli bassi sono generalmente più resilienti e stabili emotivamente.
5. Apertura all’esperienza. Spesso definita semplicemente ‘apertura’, questa caratteristica implica l’essere fantasiosi, curiosi e ricettivi a nuove idee ed esperienze. Un’elevata apertura è correlata alla creatività, alla propensione per l’arte e le esperienze innovative e alla curiosità intellettuale, mentre un’apertura inferiore può essere associata a una preferenza per la tradizione e la praticità.

[…]

Validità di costrutto

Dopo aver verificato che la simulazione della personalità di Mobi soddisfa in modo coerente ed efficace i criteri stabiliti, questa sezione approfondisce la validità di costrutto del modello di personalità, comprendendo aspetti quali affidabilità, validità correlata al criterio, validità convergente e validità discriminante. […]

Le medie e le deviazioni standard nelle cinque dimensioni dimostrano che il nostro modello di personalità robotica proposto è in grado di comprendere tutti i tratti della personalità, ovvero estroversione, gradevolezza, coscienziosità, nevroticismo e apertura mentale […].

Teoria della mente

La Teoria della mente (ToM) è stata considerata come la caratteristica della mente umana, che si riferisce alla capacità di percepire le intuizioni altrui e di svolgere attività di cognizione sociale. Un robot con ToM può comprendere il pensiero dell’utente e comportarsi in modo più simile a quello umano. Il test di Sally-Anne è un test psicologico, utilizzato in psicologia dello sviluppo per misurare la ToM di una persona nell’attribuire false credenze agli altri. GPT-4 può superare un’istanza del test di Sally-Anne. […] Il risultato mostra che Mobi può anticipare l’azione dei personaggi nella storia e fornire una risposta ragionevole all’utente. È confermato che Mobi può eseguire la ToM. […]

Sfide pratiche

Questa ricerca ha proposto gli aspetti teorici della simulazione della personalità per l’interazione uomo-robot, modellando la funzione cognitiva attraverso la realizzazione dello spazio di stato. A causa della complessità del framework e della latenza di calcolo, l’intervallo di elaborazione richiede circa 10-15 secondi, tempi disponibili solo per la messaggistica e non adatti alla comunicazione verbale. Si prevede che la latenza diminuirà con lo sviluppo di applicazioni LLM. Inoltre, la trasmissione delle emozioni del robot ha richiesto un’ulteriore implementazione attraverso toni, espressioni facciali e gesti, che consentono un’espressione olistica delle conversazioni non verbali. Ci si chiede in che modo l’agente con simulazione della personalità influenzi l’interazione uomo-robot con giorni o addirittura mesi di interazione, soprattutto se il meccanismo della memoria a lungo termine prende il sopravvento sull’espressione della personalità anziché sul modello di personalità. Gli effetti della progettazione della personalità sugli atteggiamenti degli utenti nei confronti dei robot richiedono ulteriori valutazioni; scoprire come i tratti della personalità influenzino le dinamiche dell’interazione uomo-robot solleva una questione importante.

Conclusione

Lo studio sviluppa un framework robotico cognitivo che simula la personalità utilizzando ChatGPT-4, che elabora input visivi e testuali e genera risposte, azioni e reazioni emotive. Il modello di personalità incorpora preferenze, il Repertorio dei Costrutti di Ruolo di Kelly e i 16 Fattori di Personalità di Cattell. La codifica e il recupero della memoria a lungo termine sono facilitati dall’associazione temporale degli eventi. Emozioni e strategie vengono dedotte analizzando le intenzioni e prevedendo i risultati futuri. Le informazioni visive vengono estratte in base all’attenzione della query. I risultati indicano che il framework robotico cognitivo può eseguire processi cognitivi che producono risposte simili a quelle umane. La coerenza e l’efficacia della simulazione di personalità sono corroborate da valutazioni che utilizzano le misure di personalità IPIP-NEO e Big Five, confermando che il framework soddisfa i requisiti stabiliti per i tratti di personalità target. La validità del costrutto del modello di personalità proposto è dimostrata sia da 30 simulazioni di personalità che da 31 soggetti umani.

I contributi della simulazione della personalità vanno oltre la facilitazione di interazioni simili a quelle umane. La simulazione riflette accuratamente la personalità target in studio. Grazie alla conoscenza dei ricordi, dei tratti della personalità e dei modelli linguistici di un individuo, un framework di robot cognitivi può prevedere il discorso e le decisioni di quella persona. L’integrazione dell’intenzionalità nel dialogo spinge il chatbot a rispondere agli utenti in modo più coinvolto e mirato. Inoltre, la simulazione della personalità può fungere da gemello digitale per gli esseri umani, migliorando l’analisi comportamentale predittiva con modelli basati sulla personalità. La ricerca futura potrebbe approfondire modelli di personalità dinamici in cui i tratti possono evolversi in risposta a interazioni in corso, processi di apprendimento o persino cambiamenti situazionali. Questo approccio aprirebbe la strada a robot cognitivi che non solo simulano una personalità target, ma si adattano anche all’evoluzione degli stati emotivi e del contesto sociale dell’utente. Studi futuri potrebbero anche considerare progetti longitudinali per osservare come le interazioni prolungate influenzino il coinvolgimento dell’utente, la fiducia e l’autenticità percepita della simulazione della personalità nel corso di settimane o mesi. Tale ricerca potrebbe rivelare non solo i punti di forza dell’attuale framework, ma anche i suoi limiti nel sostenere interazioni realistiche e simili a quelle umane nel tempo. È possibile estendere i modelli di personalità e la validità del costrutto alle persone anziane, valutando l’interazione uomo-robot con la valutazione ergonomica. Si ipotizza che il framework del robot cognitivo per la simulazione della personalità rappresenti un approccio innovativo all’interazione uomo-robot, contribuendo ai campi della robotica, delle scienze cognitive e dell’analisi comportamentale.

1) Cfr. Giovanna Cracco, Il cuore e l’anima. L’umano e l’empatia artificiale, pag. 6

2) Qui lo Studio integrale completo di note e bibliografia, pubblicato sotto diritti Creative Commons: Lo, JH., Huang, HP. & Lo, JS. LLM-based robot personality simulation and cognitive system. Sci Rep 15, 16993 (2025). https://doi.org/10.1038/s41598-025-01528-8, 16 maggio 2025. Jia-Hsun Lo e Han-Pang Huang: Dipartimento di Ingegneria Meccanica, Università Nazionale di Taiwan, Taipei, Taiwan; Jie-Shih Lo: Dipartimento di Psicologia della Salute, Chang Jung Christian University, Tainan, Taiwan

3) La teoria dei Big Five è un modello tassonomico che descrive la personalità attraverso cinque fattori o tratti di personalità, intesi come modalità relativamente stabili di pensiero, di risposta emotiva e di comportamento nel tempo. Le cinque dimensioni sono estroversione, nevroticismo (o stabilità emotiva), coscienziosità, gradevolezza (agreeableness) e apertura all’esperienza. Nota a cura della redazione

Sovraimplicazioni: capitalismo cibernetico, intelligenza artificiale, Gaza, resistenza

Renato Curcio — Mon, 15 Jul 2024 13:45:00 +0000

(Paginauno n. 87, luglio – settembre 2024)

Sovraimplicazioni: processi che attraverso i dispositivi digitali si configurano come meta-contesti obbliganti agendo sulla nostra vita. L’ultima riflessione di Renato Curcio sul capitalismo cibernetico

Nel suo ultimo libro, Sovraimplicazioni. Le interferenze del capitalismo cibernetico nelle pratiche di vita quotidiana (Sensibili alle foglie, 2024), Renato Curcio affronta il concetto di ‘sovraimplicazione’ e lo analizza nei diversi territori toccati dal capitalismo digitale. “I processi di sovraimplicazione,” scrive Curcio, “si configurano come meta-contesti obbliganti dai quali […] non possiamo prescindere anche se quasi mai vengono evocati o, quando accennati, restano poco approfonditi per ciò che attiene il versante ideologico della loro funzione”; versante importantissimo per quanto riguarda “la sovranità tecno-digitale, anche egemonica, esercitata da un pugno di aziende – Google, Facebook, Amazon, Microsoft, OpenAI, Apple – che, pur non formalmente dichiarata, grava di fatto sia sul sistema di alleanze euro-statunitense, sia su Internet, come sua infrastruttura, sia infine su ciascuno di noi”. Sovraimplicazioni che dunque agiscono nel sistema geopolitico e in quello economico capitalistico, nell’ambito delle comunicazioni e all’interno dei social network, nell’intelligenza artificiale e nelle nostre “solitudini connesse”, con lo spettro di un nuovo paradigma disciplinare che va già concretizzandosi. Il testo che segue è tratto dall’incontro-dibattito sul libro avvenuto il 12 maggio 2024 presso il Circolo Anarchico Ponte della Ghisolfa, Milano.

Partiamo dalle macchine e da un domanda che è forse tra le più inquietanti: le macchine esistono fuori dalla storia o dentro la storia? Le macchine di oggi sono diverse da quelle presenti nella società industriale dei decenni passati: all’epoca non comunicavano fra loro, erano strumenti come potevano esserlo una zappa o un rastrello o una falce: c’eri tu e la macchina, che era in qualche modo una protesi che utilizzavi per svolgere un tipo di attività. C’era un rapporto tra la specie – in questo caso l’umano –, c’era un’epoca – gli anni Cinquanta, Sessanta e Settanta –, c’era un sistema di macchine che usavi che era di proprietà di qualcuno, per esempio la Fiat, che era un capitalista, il quale faceva utilizzare delle macchine per costruire altre macchine, per realizzare un profitto. Quindi, la prima riflessione che dobbiamo fare sulla nozione di ‘macchina’ è questa: le macchine non esistono fuori dalla storia. E se esistono nella storia, esistono in un’epoca, e in quell’epoca si decide la relazione tra te e la macchina.

Nella società industriale la relazione era quella accennata prima, era una società capitalistica che funzionava in quel modo. Anche oggi siamo in una società capitalistica, anzi ipercapitalistica, ma le macchine non sono più nella stessa relazione con noi, perché mentre le utilizziamo esse fanno delle operazioni per conto loro, comunicando con un’infinità di soggetti. Mi riferisco a macchine ordinarie come lo smartphone, uno strumento diventato indispensabile per sopravvivere in quest’epoca. Le macchine dunque, a questo punto, non svolgono più la funzione di prima ma un’altra, cioè sovraimplicano l’uso che noi ne facciamo e ci pongono di fronte a problemi molto seri. Ho messo al centro di una riflessione la nozione di ‘sovraimplicazione’ perché troppo spesso viene tralasciata, non vista, sparisce dallo sguardo, eppure è quella che decide cosa sta succedendo e a cosa stiamo assistendo quando guardiamo quella macchina fare qualcosa.

Dicevamo che siamo in una società capitalistica ma il capitalismo non è più quello di un tempo. Oggi non c’è nemmeno più la localizzazione, i luoghi: il luogo Stato, il luogo nazione degli anni Sessanta e Settanta, non è il luogo geopolitico in cui ci troviamo ora; è vero che c’è una continuità, e per questo ho dedicato un capitolo del libro a questa sovraimplicazione, ma è una continuità che ha preso delle forme piuttosto curiose. La continuità, per esempio, del passaggio in Italia alla prima società industriale è legato alla fine della seconda guerra mondiale, quando l’Italia è uno dei Paesi che ha perso la guerra, un Paese sconfitto, un Paese che per tirarsi su deve pagare un prezzo, che gli viene chiesto in termini molto chiari nella spartizione del mondo fatta dai vincitori. Allora c’era l’Unione Sovietica, oltre a Stati Uniti e Inghilterra. Come sappiamo, in questa spartizione l’Italia andrà a finire sotto un Paese in qualche misura ‘garante’ – gli Stati Uniti – in una forma di colonizzazione. Dal ‘45 in poi l’Italia è una colonia che decide, all’interno del modo di produzione capitalistico, di fare un percorso di crescita con i fondi che gli vengono dati per la ricostruzione, e in quel percorso deve in qualche modo fare patti con chi la colonizza. Ne fa due: uno è la NATO – che rientra a pieno titolo nella forma capitalistica che si svilupperà, perché è la NATO a decidere come fare la ricostruzione militare dell’Italia –, l’altro sono i patti del 1954, patti segreti – sfido chiunque a dirmi cosa c’è scritto in quegli accordi bilaterali tra Italia e Stati Uniti – che affidano agli USA quattro luoghi sul suolo italiano, le famose basi americane extra territoriali. Quattro basi in cui gli Stati Uniti hanno collocato i loro strumenti e che possono utilizzare per ciò che decidono utile – vi ricorderete tutti di Sigonella, che ha portato anche a una crisi politica. Il punto è che il capitalismo italiano cresce all’interno di questa sovraimplicazione militare, anche come progettualità tecnologica.

L’Italia è un Paese dove ci sono persone piuttosto sveglie, e le prime figure capitalistiche non sono solamente coloro che prendono i fondi dagli Stati Uniti e li utilizzano per la ricostruzione industriale, c’è anche Olivetti, per esempio, che ne fa un uso completamente diverso. Olivetti mette in piedi un’azienda sulla base di quella del padre, ossia un’impresa elettromeccanica tecnologicamente molto avanzata, e alla fide degli anni Cinquanta si rende conto che si può fare un salto tecnologico dall’elettromeccanica all’elettronica; inizia dunque a cercare a livello mondiale qualche figura particolarmente brillante e trova Mario Tchou, un ingegnere cinese formatosi anche negli Stati Uniti e con una lunga storia di ricercatore alla spalle. I due vanno a studiare i primi lavori nelle università statunitensi e nei laboratori di ricerca sul computer, ne traggono un’idea, la elaborano con l’Università di Pisa e tirano fuori il primo computer a transistor della storia della nostra specie. È stato un passo di una fantasia e di una capacità creativa straordinarie, pensare una cosa che non c’era. Hanno creato un computer che dava i punti all’IBM. Questa operazione entra però in conflitto con la sovraimplicazione militare. All’epoca la tecnologia era ancora quella delle schede perforate, e Olivetti crea questo computer che è più veloce, più piccolo, multifunzionale: quanto è grande il mercato di una simile nuova tecnologia? Quanto il mondo. Quindi Olivetti va a Mosca e va a New York, e cosa gli succede? Che nel 1960 viene trovato morto sul treno che da Milano va in Svizzera, in un vagone vuoto, e nessuno fa un’autopsia. E cosa succede a Mario Tchou? Che nel 1960 muore in un rocambolesco incidente di cui nessuno ha mai saputo dare una spiegazione. E cosa succede alla Olivetti? Che un comitato di garanti dice che forse si è spinta troppo avanti con questa storia dell’elettronica, e che è meglio dare il settore alla General Electric. La Olivetti dunque resta un’industria elettromeccanica e la tecnologia elettronica si sviluppa negli Stati Uniti, grazie anche agli aiuti statali.

Qual è il punto che voglio focalizzare con questo esempio? Che alla sovraimplicazione militare vediamo affiancarsi la sovraimplicazione economica e la sovraimplicazione tecnologica. Non è vero che lo sviluppo tecnologico avviene sulla base delle idee che i ricercatori e gli imprenditori elaborano; avviene sulla base dei sistemi politici che lo consentono o che lo negano. In Italia non è stato possibile pensare a uno sviluppo delle tecnologie così come, negli stessi anni, non è stato possibile pensare a uno sviluppo delle nostre fonti energetiche. Due situazioni, per quanto qui semplificate, che ci dicono una cosa molto importante: quando parliamo di macchine, parliamo di sistemi politici, di sistemi e di tecnologie che sono interconnessi. Quando parliamo di intelligenza artificiale, di città, smart city… parliamo di ChatGPT, certo, parliamo di qualcosa che può organizzare meglio un ufficio e altro, ma parliamo anche di Gaza, di cosa sta avvenendo in terra di Palestina; parliamo delle macchine più distruttive sulla faccia della Terra, utilizzate per massacrare la gente. Questa è l’intelligenza artificiale. È Habsora, una tecnologia organizzata intorno a un archivio di fonti documentarie che Israele costruisce da anni, a partire semplicemente dagli smartphone e da WhatsApp. Su WhatsApp passano infinità di messaggi, è possibile rastrellare qualsiasi genere di fonte, raccattare, usare, sistemare, ma soprattutto è possibile raccogliere le fonti documentarie di chi lo usa e della sua rete: WhatsApp è costruito per consentire gruppi – il gruppo famiglia, il gruppo degli amici, il gruppo degli amanti, il gruppo dei collaboratori… – informazioni che consegniamo a Facebook, o meglio a Meta, la corporation che utilizza Facebook, Instagram, WhatsApp ecc. non solo per sorvegliare, etichettare e creare un profilo di ciascuna persona, ma per costruire le sue reti di relazione. Reti che dopo un po’ sono talmente ovvie, evidenti e dichiarate, che consentono di dire: il signor X è militante nella formazione politica X e i suoi amici più stretti sono A, B, C, D mentre gli altri sono conoscenti, li ha tenuti fuori da un gruppo e sono dentro un altro. Questa tecnologia ha consentito una mappatura assoluta, per esempio, dell’intero mondo palestinese; una mappatura che permette di dire che il tal dei tali abita al settimo piano di un certo palazzo, alla finestra 22, e che ha delle reti che lo identificano come uno che ha molte relazioni in quel particolare mondo. Quindi sai chi è, sai dov’è, sai il suo grado e gli dai anche un punteggio: lo qualifichi non solo come un interessante obiettivo dal punto di vista della sorveglianza, ma per la sua graduatoria di relazioni molto alta. Questo ti consente di fare una terza operazione: dire alle tue macchine che lo colpiranno, quando deciderai che deve essere colpito, la quantità di ‘danno collaterale’ accettabile rispetto al suo grado di importanza. Importanza minima: tre civili morti; media: dieci civili morti; alto livello: X civili morti. Con questo tipo di operazione vengono dunque ulteriormente ridimensionate, nel senso di sovraimplicate, le informazioni, nel quadro di un’idea militare-politica del loro utilizzo.

Anche qui siamo di fronte a un rapporto tra macchine: quella che uso io, lo smatphone, che produce informazioni; il recupero di queste informazioni; e il loro utilizzo dentro un’altra macchina, che è la macchina bellica. È qualcosa che viene fatto ormai quotidianamente in tutti i Paesi di frontiera, dove in questo momento ci sono massacri. O può essere fatto a Milano, in qualunque giorno. Le tecnologie sono pronte, sono in vendita e vengono proposte: Israele vende le proprie garantendo la loro IA come sperimentata sul campo. E vende la penultima versione, tenendosi il modello più avanzato, che usa per controllare l’utilizzatore della tecnologia che ha venduto. Per esempio: se il governo peruviano acquista queste macchine ed è contento di utilizzarle contro le persone che in qualche modo lo osteggiano, Israele è a sua volta contenta di sorvegliare il governo peruviano. Vale per tutti, ed è la ragione per cui 143 Paesi all’ONU votano per lo Stato di Palestina e nove, tra cui Stati Uniti e Israele, ovviamente, si oppongono. Stanno semplicemente dicendo che sono in grado tecnologicamente e geopoliticamente di decidere loro i danni collaterali, il possibile e il non-possibile nella nostra vita.

E allora la domanda che ci dobbiamo fare è: ma cosa sta veramente succedendo a questo mondo? Perché è vero che siamo ancora all’interno di una modalità capitalistica diventata abnorme; è vero che le tecnologie ci vengono raccontate dal lato soprattutto generativo, e non dal lato distruttivo; ma è altrettanto vero che quelle distruttive stanno facendo decine di migliaia di morti tutti i giorni. E noi come stiamo vivendo tutto questo? Che differenza c’è tra un cittadino tedesco negli anni Quaranta e noi, oggi? Nessuna. Le informazioni circolano come allora. In Germania tutti sapevano che potevano andare a prendere i prigionieri al campo di concentramento al mattino, farli lavorare, e poi riportarli; lo sappiamo perché è pieno di memorie di persone che lo raccontano. Ho parlato personalmente con alcune di loro, che mi hanno detto di essere sopravvissute perché avevano trovato una persona che le prendeva al campo di concentramento, le faceva lavorare e le riconsegnava la sera, ma tra la sera e la mattina dava loro anche da mangiare. Oggi tutti noi sappiamo cosa sta avvenendo a Gaza, anche se i telegiornali non lo raccontano come lo sto raccontando io. Preferiscono narrare altre storie, far vedere cose impattanti, parlare di terrorismo. Ma chiunque voglia informazioni su ciò che sta accadendo e perché, può facilmente trovarle. Ci sono persone che da almeno un anno hanno messo a rischio il loro posto di lavoro – e alcuni l’hanno già perso – in Google, Facebook, Apple, Microsoft perché fanno sit-in contro le tecnologie di guerra sviluppate nelle loro aziende, perché stanno andando in giro a parlare nelle università e nei laboratori. Non è vero che non si sanno le cose, è vero che c’è una specie di intorpidimento all’interno dei contesti geopolitici occidentali che ci lascia piuttosto tiepidi di fronte a cose straordinarie, come la mobilitazione degli studenti in moltissime università, che stanno organizzando tendopoli e pretendono di parlare di guerra, ponendo un problema che è lo stesso che ho posto all’inizio, ovvero: le macchine non sono neutre, in quest’epoca le macchine o uccidono o servono per fare soldi, quindi per sfruttare ancora di più: vogliamo tenerci questo, vogliamo stare in una società capitalistica? Se la risposta è Sì, la discussione è finita. Benissimo, siamo liberi, ognuno fa quel che vuole. Se pensa che questo sia il migliore dei mondi possibili, allora si tenga anche i 37.000 morti di Gaza perché sono suoi. Perché non sono solo dello Stato israeliano, sono anche di tutti quelli che dicono che va bene così. Nel ‘68 Berkeley scese in campo perché c’era la guerra in Vietnam e perché stava succedendo un fatto infinitamente lontano nella nostra memoria ma molto simile: si utilizzava la tecnologia di allora, defoglianti che massacravano per via chimica, per attaccare i guerriglieri. Non si è fatta una piega dopo Hiroshima e Nagasaki, eppure era talmente ovvio ed evidente che quelle bombe servivano a nulla, salvo dire ai sovietici, i primi ad arrivare ai campi di concentramento, non ci provate a fare un altro passo verso l’Europa. Si sono fatti 200.000 morti subito e altri 300.000 negli anni successivi, 500.000 morti per dare un messaggio politico. Oggi gli storici lo riconoscono, ma noi non siamo stati capaci di vedere la gravità di ciò che accadeva e di farla diventare un terreno essenziale della nostra vita. Eppure abbiamo alle spalle un bagaglio teorico straordinario. Marx, nel secondo volume dei Grundrisse – c’è una bellissima tesi di laurea fatta a Trento nel 1967 su questo – sviluppa un chiaro ragionamento sul fatto che è impossibile pensare alla tecnologia come neutra, per una ragione molto semplice ed evidente: negli ‘oggetti’ si oggettivizza tutto il sapere presente su quel territorio, ma si oggettivizza in macchine che sono oggetti a loro volta di un mercato, e in quel mercato esse funzionano per realizzare rapporti di dominio e sfruttamento. Fuori di lì non c’è una scienza, non c’è una tecnica e non ci sono neanche le macchine.

Questo è il punto su cui dobbiamo riflettere. Perché oggi siamo di fronte a un ulteriore salto delle macchine, che ci viene presentato nella forma più edulcorata e stupida possibile, che è quella di ChatGPT, un piccolo strumentino di tecnologie generative. Ormai sappiamo come funzionano. Quando le utilizziamo non usiamo solo macchine a cui poniamo una domanda; esse vanno a pescare in un archivio di argomenti etichettati – più vasto è, meglio è –, fanno associazioni, costruiscono probabilità statistiche e su quella base danno una risposta che, a seconda di come è integrato questo insieme di tecnologie con altre sotto-tecnologie e con la linguistica, dà una risposta più o meno soddisfacente. È ovvio che nel tempo la risposta sarà sempre più soddisfacente, perché, come tutte le macchine, si perfezionerà ulteriormente. Ma il punto non è questo. Il punto è che per far sì che ti dia quella risposta, occorre dire a quelle macchine cosa non va detto, muovendosi dentro margini etici, per esempio; se c’è la parola ‘Gaza’, allora la macchina deve rispondere che non è autorizzata a rispondere, che è una parola che ha a che fare con un vocabolario che non ha ancora approfondito. Ci sono mille risposte per non rispondere e mille vincoli etici, morali e di altro genere per rispondere. Nel libro ho inserito un capitolo su come funzionano Twitter e Facebook, il sistema dei pesi e dei contrappesi, come vengono costruiti per far sì che siano date certi tipi di risposte che vengono definite di ‘allineamento’: per esempio i cosiddetti ‘messaggi d’odio’. Ma come tutti sappiamo, l’etica, la morale ecc. dipendono molto dalla posizione di ognuno nelle classi, nel mondo e come cittadino del mondo. Ho usato appositamente questo termine, ‘cittadino del mondo’, perché in un mondo geopoliticamente polarizzato come quello di oggi, la collocazione di questo cittadino decide dove sta: se è nel contesto geopolitico statunitense, le sovraimplicazioni sono già determinate. Ossia ci sono una serie di implicazioni ovvie, implicite, che non si vedono ma che dei poteri rendono obbligatorie. Sono dei contesti obbliganti, strutturati, dentro i quali tu transiti e con cui devi fare i conti perché se li riproduci, come ti viene chiesto, non fai altro che riprodurre esattamente la logica di potere e la logica capitalistica del contesto geopolitico. Questo è il punto. Quindi non fai altro che fare lo stesso lavoro che fa un soldato israeliano sul fronte. Mi dispiace dirlo, ma è proprio così. Lo stesso lavoro che facevano e che hanno fatto per anni i cittadini tedeschi di fronte ai campi di concentramento: c’erano, si sapeva.

Io non mi identifico con il contesto geopolitico occidentale, sono contento di essere una parte, una minuscola parte della specie umana, per cui chiunque, in qualunque altra parte del mondo, è un cittadino come me, e so cosa dire, mi è molto chiaro: io non sto dalla parte di chi sta massacrando dei cittadini come me, che però hanno la sventura, invece di vivere a Roma o a Milano, di vivere in un territorio della Palestina. E se uno è greco-ortodosso, l’altro è musulmano, l’altro è cristiano, a me non importa affatto. Anche tra noi, probabilmente, uno è un po’ più anarchico, l’altro sarà un po’ più comunista, l’altro sarà un po’ più ateo e l’altro un po’ più religioso. Insomma, sarà una discussione che faremo se dobbiamo farla e se ci fa piacere farla. Ma è una discussione, una riflessione sulle differenze che gli umani hanno. Ne abbiamo tante, è giusto discuterle, è giusto affrontarle, però questo non deve ledere la solidarietà di specie. Perché la solidarietà di specie è un problema di fondo. Quando qualcuno dice che ci sono degli umani che possiamo bruciare vivi, irrorare con il Napalm, o altri che possiamo semplicemente sterminare in quanto danno collaterale – che di per sé è un’umiliazione estrema: non ti uccido perché sei mio nemico ma perché ho per bersaglio una persona, e poiché tu gli stai vicino ammazzo anche te, i tuoi figli e tuo nonno – dov’è il punto in cui ci si può identificare con una cosa del genere? Ecco, questa è una riflessione sulle tecnologie che ci porta a guardare le loro sovraimplicazioni.

C’è poi il problema del rapporto tra le relazioni e le connessioni. Le prime siamo abituati, non dico proprio a conoscerle, ma a viverle, perché siamo cresciuti con dei genitori, degli amici, siamo andati a scuola… Quindi abbiamo un po’ imparato a vivere in presenza con altri, ed è un’esperienza che abbiamo fatto, fino a pochi anni fa, per dodici ore al giorno, per tutto il tempo di veglia. Oggi abbiamo uno smartphone in tasca, ma per essere su questo dispositivo dobbiamo costruirci un’identità cibernetica: uno username, una password, ti iscrivi a un sistema e a quel punto puoi comunicare. E qui c’è immediatamente un salto tra ciò che succede nella vita di relazione e ciò che accade nella vita di connessione. Un salto evidente. Nella vita di relazione, l’altro lo vedi. La percezione in presenza utilizza i cinque sensi. Senti il calore, guardi i linguaggi non verbali, fai tante cose a cui nemmeno pensi, hai un territorio. Quando sei in connessione non vedi, non senti; quando andiamo in assenza ci viene dato semplicemente, se noi diamo uno username, la facoltà di collegarci con altri che sono in giro per il mondo. Quindi ampliamo enormemente la rete delle connessioni, non delle relazioni: lì, tu non vivi relazioni. Ti connetti grazie a un sistema di macchine, che mentre sei connesso fa su di te un insieme di operazioni: stabilisce che sei proprio tu con username e password, stabilisce che sei qui, con altri che a loro volta sono connessi con il proprio smatphone, ecc. Non solo si può sapere assolutamente tutto, ma si può entrare in quelle macchine, con spyware, che possono registrare, ma anche fare in modo di inserire qualcosa. E tenete presente che è una tecnologia oggi venduta da Amazon. Chi si dota di Alexa, per esempio, si dota di un sistema che funziona in relazione alla sua vita. Tu fornisci le tue vibrazioni sonore, individuali, ed entro un minuto Alexa è in grado di duplicare interamente il tuo ‘sistema vocale’, e nessuno potrebbe mai contestare che non sei tu ad aver detto quelle cose, perché la duplicazione tecnologica è perfetta. Quindi quando siamo in connessione, siamo in un mondo tecnico che non ci appartiene più; è altro, appartiene a chi è padrone di quel sistema. Siamo in un pseudo-ambiente.

Questo vale anche per l’informazione, e la relativa sovraimplicazione. Tu non puoi vedere cosa accade oggi a Gaza, non sei a Gaza. Puoi solamente vedere un pseudo-ambiente che è il modo in cui Gaza viene rappresentata da Tg1, Tg2, Tg3, Al Jazeera e altri mille canali. Puoi vedere mille rappresentazioni. Qual è quella vera? Il rapporto con gli pseudo-ambienti è un rapporto religioso, di fede. Ossia decidi di fidarti di quel canale piuttosto che dell’altro, oppure ti guardi venticinque canali perché stasera non hai niente da fare e cerchi di farti un’idea, ma se quei venticinque canali sono dello stesso proprietario avrai venticinque meme: venticinque rappresentazioni che differiscono solo dal punto di vista del linguaggio, perché quel canale è visto maggiormente da persone anziane, quell’altro da giovani ecc. E qui entra la linguistica computazionale, un settore in altissimo sviluppo nelle università e nei laboratori, che adatta il messaggio a un pubblico prestabilito così come, se vogliamo andare ancora più a fondo, lo adatta a livello individuale. Con la stessa facilità tecnologica, senza fare alcuno sforzo, perché tu stesso fornisci le informazioni necessarie, se utilizzi 4.000 parole o 40.000, e rendi possibile coniugare il messaggio in un dizionario di frequenza individualizzato.

Tutto ciò avviene per via connettiva, non per via relazionale, e questi pseudo-ambienti sono costrutti tecnologici, artefatti; e come persone, oggi viviamo in connessione, in media, più di sei ore del nostro tempo di veglia. Tendenzialmente, entro due o tre anni, vivremo otto/nove ore in questi pseudo-ambienti, perché le istituzioni stanno facendo in modo che la maggior parte delle nostre attività venga fatta in connessione. Siamo quindi sempre più dentro un mondo costruito da aziende che hanno in mano queste tecnologie e possono manipolarle con facilità, perché sono tutte chiuse, brevettate, e noi ci troviamo spaesati. Potremmo chiedere più trasparenza, ma come la si può chiedere quando la maggior parte dei cittadini è molto contenta di poter utilizzare WhatsApp, Facebook ecc.? È contenta per mille ragioni, spesso completamente immaginarie: pensa di poter aumentare la rete delle proprie relazioni, ma è un inganno. Tra le connessioni e le relazioni non c’è alcun interscambio, è ormai ampiamente verificato: le connessioni non diventano relazioni. E quando lo diventano, sono un problema, come mostrano le storie dei siti d’incontri e il loro hackeraggio. È una storia nota, a noi interessa solamente per dire quanto sia fragile il mondo delle connessioni, quanto sia complicato, quanto sia sfruttabile e utilizzato, ma quanto sia soprattutto differente dalla vita di relazione.

Vorrei fosse molto chiaro che il mio non è un discorso contro la tecnologia, che c’è e dobbiamo viverci; è un discorso di consapevolezza di cosa sono gli strumenti, una consapevolezza che dobbiamo accrescere e costruire i luoghi per poterlo fare, e dobbiamo ragionare sui contesti obbliganti che impongono, le sovraimplicazioni. Dobbiamo anche tenere presente che Internet è una tecnologia che ha ancora molto da crescere, ma è il passato, perché è già sostituita dal sistema satellitare, che avrà delle vie di comunicazione ancora più complicate. Non avremo più alcuna possibilità di uscire dalle mappature che ci vengono cucite addosso, nel senso che, come sapete, i sistemi satellitari sono perfettamente in grado di identificare anche quante persone ci sono dietro un cespuglio, attraverso sensori di calore e di altro tipo – tutti quei sensori che oggi vengono utilizzati nelle guerre, in associazione all’intelligenza artificiale, alla gestione da remoto ecc.

In conclusione, dobbiamo ridare un grande valore alla vita di relazione. Quello che molti stanno facendo in questo momento, si riuniscono, fanno delle tendopoli, si incontrano, stanno insieme, parlano, discutono, creano occasioni. E poi bisogna fare resistenza. Non ci sono santi. Resistenza attiva, ossia mettere l’accento sulla vita di relazione, ricostruire tessuti di incontro e fare resistenza anche sui luoghi di lavoro, come stanno facendo lavoratori delle aziende tecnologiche pagando un prezzo altissimo. Certo è che la stragrande maggioranza della nostra specie dovrà scegliere come andare avanti; ammesso che l’andare avanti sia un’opzione possibile nei prossimi tempi, perché anche questo è uno dei problemi che le tecnologie ci pongono. Siamo sull’orlo di un abisso. Quel che si è visto a Gaza in questo periodo ci mette di fronte a un livello di disumanizzazione tale del conflitto, dello scontro, che non si è mai visto. E ci mette di fronte a un’umanità sbigottita, che guarda in parte inorridita, in parte no, questa vicenda. E quindi ci mette di fronte a una situazione veramente importante nella vita sociale. Dovremo decidere come andare avanti, perché è inimmaginabile il silenzio su una situazione di questo genere. Nemmeno l’ONU è rimasta silenziosa. Dobbiamo domandarci dove siamo oggi. Non lo sa nessuno. Sappiamo però, o almeno io so per me, che vedere ciò che vedo è intollerabile, è una prospettiva che non posso pensare come possibile per la mia specie: risolvere i conflitti in quel modo, eliminare i popoli di minoranza esistenti, è impensabile. La specie che pensa di eliminare una parte della specie, ma non all’interno di un’idea di guerra – “la guerra è la continuazione della politica con altri mezzi”, un’idea orrenda ma almeno conteneva un’idea di mediazione – qui non c’è neanche più una guerra, c’è un’unica dichiarazione di sterminio. Cosa facciamo, assumiamo una prospettiva nella quale il più forte uccide tutti gli altri? E qui non c’entra proprio niente cosa pensa uno e cosa pensa l’altro, è del tutto irrilevante quando tu elimini donne, bambini, anziani… tutti. Quando si arriva al punto che si eliminano le parole ‘pace’ e ‘guerra’, al punto che le cose non hanno più un nome ma solamente un dato di fatto, ossia strisce di sangue che non finiscono più, è un problema talmente enorme che una soluzione di consapevolezza chiara, ma anche di resistenza, bisogna immaginarla. Per fortuna, nelle università italiane, europee e statunitensi si stanno costruendo movimenti che riprendono a parlare e soprattutto che si ritrovano in presenza, non in internet, che si incontrano, si toccano, si scambiano, e tutto ciò ci mette di fronte alla speranza che da queste cose possano emergere nuovi processi sociali.

Acqua. La (ir)razionalità del capitalismo

Giovanna Cracco — Wed, 24 Apr 2024 14:40:00 +0000

(Paginauno n. 86, aprile – maggio 2024)

Siccità, crisi idriche e conflitti legati all’acqua mentre lo sviluppo e l’utilizzo dell’intelligenza artificiale ne consuma miliardi di metri cubi. Il reale è irrazionale, diceva Marcuse, ma il sistema capitalistico-tecnologico fa apparire razionale ciò che è irrazionale. Mentre nel conflitto israelo-palestinese i dati del Pacific Institute a partire dal 1948 e il Rapporto ONU 2021 mostrano che negli anni i coloni e l’esercito israeliani si sono appropriati di dozzine di sorgenti d’acqua palestinesi, hanno deviato risorse idriche e sequestrato pozzi, finendo per utilizzare l’87% della falda acquifera montana della Cisgiordania e il 75% della falda costiera di Gaza

Da gennaio 2023 a gennaio 2024, diciannove Paesi africani hanno segnalato focolai di colera: Etiopia, Mozambico, Tanzania, Zambia e Zimbabwe tra i più colpiti, con migliaia di morti. In Zambia, l’epidemia è concentrata soprattutto nelle aree urbane come Lusaka, la capitale, afferma Viviane Rutagwera Sakanga, direttrice di Amref Zambia, “dove la densità di popolazione e la mancanza di servizi igienici e accesso all’acqua pulita, soprattutto negli insediamenti informali, ha contribuito alla diffusione dell’infezione in maniera devastante”: da ottobre scorso a marzo, 20.000 casi (1). Oltre al colera, epatite A, tifo, poliomielite e diarrea acuta sono le principali malattie causate dall’uso di acqua contaminata e dalla mancanza di servizi igienici adeguati; gli ultimi dati Unicef riportano che la diarrea acuta, da sola, uccide ogni giorno 700 bambini sotto i 5 anni (2) ed è la causa dell’80% delle morti infantili nel continente africano, dove 779 milioni di persone sono prive di servizi igenici di base e 411 milioni non hanno accesso a un servizio di acqua potabile (3).

Secondo il report Unesco uscito a marzo (4), tra il 2002 e il 2021 la siccità ha colpito 1,4 miliardi di persone, ha provocato la morte di oltre 21.000, e oggi circa metà della popolazione mondiale vive in condizioni di grave scarsità idrica per almeno una parte dell’anno. Tre proiezioni contenute nel rapporto del 2021 (5) ipotizzano differenti scenari, nessuno ottimista: il primo stima che l’uso mondiale dell’acqua continuerà a crescere a un tasso annuale di circa l’1%, con un conseguente aumento del 20-30% entro il 2050; il secondo prevede che la domanda globale di acqua dolce crescerà del 55% tra il 2000 e il 2050; il terzo afferma che il mondo affronterà un deficit idrico globale del 40% entro il 2030: più domanda che offerta. Entrambi i report evidenziano inoltre che i cambiamenti climatici intensificheranno il ciclo globale dell’acqua, aumentando ulteriormente la frequenza e la gravità di siccità e inondazioni, e il documento del 2024 aggiunge: “Se l’umanità ha sete, le questioni fondamentali relative all’istruzione, alla salute e allo sviluppo passeranno in secondo piano, eclissate dalla quotidiana lotta per l’acqua”, con “un’alta probabilità che questa situazione possa generare conflitti”.

L’acqua è una risorsa vitale, e la sua scarsità – con tutte le conseguenze che comporta – è ormai un argomento ampiamente dibattuto. Meno noto è il numero di guerre che innesca, o all’interno delle quali diviene arma e, parallelamente, altrettanto poco conosciuti sono alcuni suoi impieghi. I due aspetti – o meglio tre: scarsità e conseguenti conflitti, da una parte, e utilizzo, dall’altra – sono tra loro collegati da un paradosso, che non è di esclusiva pertinenza dell’acqua: piuttosto è sistemico, ma l’acqua lo rende smaccato. Lo sentiamo ripetere continuamente: l’acqua non va sprecata, dobbiamo farne un uso oculato e razionale. Si tratta tuttavia di intendersi sui termini. Google, Microsoft e Meta – come vederemo – hanno utilizzato 2,2 miliardi di metri cubi d’acqua – equivalenti al doppio del prelievo idrico annuale della Danimarca – nel solo 2022, registrando aumenti significativi rispetto al 2021, collegati all’incremento di domanda di intelligenza artificiale. Che cosa dunque consideriamo ‘spreco’? Il capitalismo è un sistema che si autodefinisce razionale. Quale razionalità dunque pretende di incarnare?

L’acqua e la guerra

Fondato nel 1987, il Pacific Institute mette a disposizione quello che probabilmente è oggi il più circostanziato database su scala mondiale relativo ai conflitti per l’acqua (6). Dettagliatamente suddivisi per area geografica, Paese e per tipologia di crisi, è tuttavia l’analisi cronologica a offrire la più intelligibile fotografia della situazione attuale: appena 12 conflitti in tutto il pianeta in diciassette secoli, tra l’anno 0 e il 1799; 16 conflitti durante l’Ottocento; 177 conflitti nel corso di tutto il Novecento; 213 conflitti nei primi dieci anni del Duemila; 629 conflitti tra il 2010 e il 2019; 543 conflitti negli ultimi quattro anni, tra il 2020 e il 15 ottobre 2023, attuale aggiornamento del database. L’escalation è evidente. Gli ultimi ventiquattro anni hanno visto 1.385 conflitti, a fronte di 205 registrati nei duemila anni precedenti. Se è indubbio che l’aumento delle crisi dipenda anche da una maggiore presenza di dati relativi agli ultimi secoli, che consente di tenerne traccia, è altrettanto indubbio che il numero dei conflitti per l’acqua cresca con l’incremento della popolazione e il conseguente rapporto tra fabbisogno e disponibilità.

In merito alla tipologia del conflitto, il database ne riconosce tre, sottolineando che una crisi possa sommarne più d’una. L’acqua come “innesco”, ossia fattore scatenante o causa principale della guerra, quando è in gioco direttamente il suo controllo o quello dei sistemi idrici: sono 722 i conflitti di questo tipo esplosi in tutto il pianeta dall’anno 0 al 15 ottobre 2023, di cui 369 successivi al 2000 e 285 nei soli ultimi quattro anni. L’acqua come “arma”, quando risorse o sistemi idrici sono usati come strumenti contro il nemico all’interno di una guerra, principalmente cercando di interromperne l’accesso o la fornitura: 184 conflitti in totale, di cui 104 nel secolo attuale. Infine acqua come “vittima”, quando risorse o sistemi idrici divengono obiettivi intenzionali o oggetto di danni accidentali all’interno di un conflitto: su 825 casi in tutto, 604 sono successivi al 2010.

L’acqua nel conflitto israelo-palestinese

Il decennale conflitto tra Israele e Palestina ha una lunga storia collegata all’acqua, utilizzata soprattutto come arma. Dal 1948 al 15 ottobre 2023, il Pacific Institute ha registrato 124 situazioni di crisi: ben 92 si sono verificate negli ultimi quattro anni, con un incremento a partire dal 2021 (21 casi) e un picco nel 2022 (45 casi). La sintesi della quasi totalità delle crisi – che rimanda alla descrizione e alla fonte documentale per i dettagli – inizia con queste parole: “Israeli military forces” o “Israeli settlers” o “Israeli settlers, under the protection of Israeli soldiers”, “destroy” o “damage” o “demolish” o “vandalize” (7) pompe dell’acqua, o il sistema di irrigazione agricolo, o serbatoi d’acqua, o il sistema di distribuzione dell’acqua, all’interno dei Territori Palestinesi Occupati della Cisgiordania. Quello israelo-palestinese è un conflitto dell’acqua a senso unico.

A ottobre 2021, su incarico della risoluzione 43/32 del Consiglio per i Diritti Umani, l’Alto Commissariato delle Nazioni Unite per i Diritti Umani (OHCHR) pubblica il rapporto Ripartizione delle risorse idriche nei Territori Palestinesi Occupati, inclusa Gerusalemme Est (8). Già le prime righe del documento danno l’idea del contesto. Per redigere il Rapporto, l’OHCHR chiede informazioni a Israele e allo Stato di Palestina: quest’ultimo fornisce diversi dati, Israele nemmeno risponde, e quando il documento viene pubblicato annuncia il congelamento delle relazioni con l’OHCHR.

“La carenza d’acqua è una caratteristica della vita di tutti i palestinesi, sia nelle aree urbane che in quelle rurali”, scrive l’Alto Commissariato delle Nazioni Unite per i Diritti Umani, “l’occupazione israeliana del territorio palestinese ha aumentato la scarsità di terra, la frammentazione territoriale e l’urbanizzazione e ha imposto restrizioni sull’accesso e sul controllo delle risorse naturali, compresa l’acqua”. Dal 1967 Israele ha infatti posto sotto il proprio controllo tutte le risorse idriche nei Territori Palestinesi Occupati, impedendo la costruzione di nuovi impianti idrici o il mantenimento di quelli esistenti, senza un permesso militare; successivamente, dal 1982, tutti i sistemi di approvvigionamento idrico della Cisgiordania sono passati sotto la proprietà di Mekorot, la società governativa che opera in nome del Ministero israeliano dell’Energia e dell’Autorità per l’Acqua, la quale “dà priorità agli insediamenti israeliani per garantire il loro approvvigionamento idrico permanente, in particolare durante i periodi di siccità estiva, [mentre] le comunità palestinesi spesso subiscono prolungate interruzioni dell’acqua”. In aggiunta, i coloni israeliani hanno deviato risorse idriche, sequestrato pozzi d’acqua, “preso il controllo, distrutto o bloccato l’accesso palestinese alle risorse idriche naturali […], si sono appropriati di dozzine di sorgenti d’acqua palestinesi, assistiti dall’esercito israeliano”; mentre “le autorità israeliane hanno confiscato e distrutto le infrastrutture idriche, comprese le proprietà fornite come assistenza umanitaria” da Stati terzi. Ne consegue che, “secondo le stime del 2014, l’87% delle acque della falda montana della Cisgiordania è stato utilizzato dagli israeliani e solo il 13% dai palestinesi”.

A Gaza, la situazione è ancora peggiore. “L’acqua disponibile a Gaza non soddisfa i bisogni primari della popolazione”, scrive l’OHCHR, “le pratiche e le politiche israeliane delineate nel presente rapporto che riguardano le infrastrutture idriche, la loro distruzione durante le escalation militari, l’impatto delle chiusure, le carenze energetiche […] hanno contribuito a una situazione in cui il 96% delle famiglie riceve acqua che non soddisfare gli standard di qualità dell’acqua potabile”. Israele limita inoltre l’ingresso nella Striscia di tutto ciò che considera dual use, ossia utilizzabile sia per scopi civili che militari, e questo include i materiali necessari per mantenere, riparare e migliorare i sistemi idrici e fognari. Si aggiunge un deficit di elettricità “cronico”, che impatta sul funzionamento delle infrastrutture, “con conseguente continua contaminazione della falda acquifera costiera”. La carenza e le continue interruzioni di energia operate da Israele colpiscono anche i “tre impianti di desalinizzazione sostenuti dalla comunità internazionale, [che] producono circa 13 milioni di metri cubi di acqua all’anno [ma] la desalinizzazione richiede una quantità significativa di elettricità e carburante”. Come esito diretto, poiché “la possibilità di utilizzare l’irrigazione è limitata, gli agricoltori usano quantità eccessive di fertilizzanti chimici e pesticidi per aumentare i raccolti”, con conseguenti concentrazioni di nitrati nei pozzi e danni alla salute: “I bambini a Gaza sono particolarmente sensibili ai nitrati presenti nell’acqua, che ostacolano la crescita e influenzano lo sviluppo del cervello […] alti livelli di nitrati danneggiano le donne incinte e aumentano il rischio di cancro. Le malattie legate all’acqua rappresentano circa il 26% delle malattie infantili a Gaza e sono una delle principali cause di morbilità infantile”. Infine, “Israele contribuisce all’inaccessibilità dell’acqua a Gaza utilizzando ogni anno il 75% della quantità sostenibile di acque sotterranee provenienti dalla falda acquifera costiera, lasciandone poco disponibile per Gaza; la scarsità è aggravata anche dalla deviazione effettuata da Israele di una falda acquifera dalle montagne Jabal al-Khalil nella Cisgiordania meridionale, che aveva precedentemente contribuito a ricostituire le acque sotterranee di Gaza”.

Questa la situazione al 2021, prima delle 45 crisi registrate dal Pacific Institute nel 2022 e prima della guerra attuale. L’immediata reazione di Israele all’attacco di Hamas del 7 ottobre scorso ha coinvolto, neanche a dirlo, l’acqua: “Attacchi di rappresaglia di Israele contro Gaza hanno danneggiato o distrutto almeno sei pozzi d’acqua, tre stazioni di pompaggio dell’acqua, un serbatoio d’acqua e un impianto di desalinizzazione che serve oltre 1,1 milioni di persone; le forniture, il trattamento e la disponibilità dell’acqua hanno risentito anche dell’interruzione dell’elettricità”, registra l’ultimo aggiornamento del Pacific Institute. Oggi, come sappiamo, dopo sei mesi di guerra, la crisi alimentare a Gaza è anche crisi idrica, sia per scarsità che per le malattie collegate alla mancanza di acqua pulita.

L’acqua e il suo utilizzo

Il Report annuale Unesco del 2024 riporta che, “a livello mondiale, circa il 70% dei prelievi di acqua dolce è destinato all’agricoltura, seguita dall’industria (poco meno del 20%) e dagli usi domestici o municipali (circa il 12%)”. Ovviamente, il rapporto muta in base alle strutture economiche dei Paesi: quelli con reddito più alto utilizzano maggiormente l’acqua per le attività industriali – fino al 39% – mentre in quelli a reddito più basso l’agricoltura assorbe il 90% delle risorse idriche disponibili (vedi il grafico). Le tendenze future basate sui dati disponibili suggeriscono che ad aumentare sarà la domanda in ambito domestico o municipale: dal 1960 al 2014 è cresciuta del 600%, contro la metà (poco sotto il 300%) dell’incremento dell’industria e il 200% dell’agricoltura. Tuttavia c’è un dato che i rapporti Unesco ancora non considerano: il consumo d’acqua dell’intelligenza artificiale.

Prelievo di acqua per settore (percentuale del prelievo totale di acqua dolce) e per livello di reddito, 2020. Fonte: Unesco, The United Nations World Water Development Report 2024: Water for Prosperity and Peace (Kashiwase e Fujs 2023, sulla base dei dati FAO AQUASTAT. Licenza: CC BY 3.0 IGO), marzo 2024

L’acqua e l’AI

Pubblicato a ottobre 2023, lo studio Making AI Less ‘Thirsty’: Uncovering and Addressing the Secret Water Footprint of AI Models (9) si autodefinisce il “primo tentativo nel suo genere di scoprire l’impronta idrica segreta dei modelli di intelligenza artificiale”. Come per l’impronta di carbonio, gli autori suddividono l’utilizzo dell’acqua in ambito 1 (uso in loco per il raffreddamento dei server), ambito 2 (uso fuori sede per la generazione di energia elettrica) e ambito 3 (uso nella catena di fornitura per la produzione dei server), evidenziando tuttavia l’impossibilità a quantificare quest’ultimo per mancanza di dati. Oggetto empirico della ricerca è il modello GPT-3 per i servizi linguistici. L’analisi mostra che il suo addestramento “nei moderni data center statunitensi di Microsoft può consumare un totale di 5,4 milioni di litri di acqua […]. Inoltre, GPT-3 deve ‘bere’ (cioè consumare) una bottiglia d’acqua da 500 ml per circa 10-50 risposte, a seconda di quando e dove viene utilizzato”. Numeri che, sottolinea lo Studio, potrebbero aumentare per GPT-4 “che, secondo quanto riferito, ha dimensioni del modello sostanzialmente più grandi”. Nel 2022, i data center proprietari di Google – con l’esclusione delle strutture di colocation affittate da terze parti – hanno prelevato 25 miliardi di litri di acqua e ne hanno consumati quasi 20 miliardi nel solo ambito 1, ossia per raffreddare i server; nel complesso, “il consumo idrico dei data center di Google (sia prelievo che consumo) è aumentato del 20% rispetto al 2021”, mentre quello di Microsoft è cresciuto del 34%; “aumenti così significativi” evidenzia l’analisi, “sono probabilmente attribuibili alla crescente domanda di intelligenza artificiale”. Sempre nel 2022, il prelievo globale di Google, Microsoft e Meta in ambito 1 e 2 ha raggiunto i 2,2 miliardi di metri cubi, equivalente al doppio del prelievo idrico annuale totale (utilizzo agricolo, industriale e municipale/domestico) della Danimarca. Una recente ricerca citata nello Studio suggerisce che “la domanda mondiale di AI potrebbe consumare 85-134 TWh di elettricità nel 2027: se questa stima si dovesse concretizzare, il prelievo idrico operativo globale combinato in ambito 1 e ambito 2 relativo alla sola intelligenza artificiale potrebbe raggiungere 4,2-6,6 miliardi di metri cubi nel 2027, un dato equivalente a 4-6 volte il prelievo annuale totale della Danimarca o alla metà di quello del Regno Unito”. Non manca, infine, un cortocircuito. Per ridurre l’impronta di carbonio, puntualizza lo Studio, è preferibile “seguire il sole”, utilizzando l’energia solare quando è più abbondante; tuttavia, per ridurre l’impronta idrica è meglio “smettere di seguire il sole”, evitando le ore ad alta temperatura della giornata nelle quali la WUE (Water Usage Effectiveness, misura dell’efficienza idrica) è elevata; quindi “ridurre al minimo un’impronta potrebbe aumentare l’altra”.

La (ir)razionalità del capitalismo

Rovesciando la visione di Hegel, per Marcuse il reale è irrazionale. Tuttavia nelle società a capitalismo avanzato, lo stesso sistema capitalistico-tecnologico fa apparire razionale ciò che è irrazionale.

La gestione dell’acqua vede scarsità, morti e guerre da una parte, e dall’altra l’incremento del suo utilizzo per l’intelligenza artificiale; persone che muoiono vs lo sviluppo di una tecnologia. “Noi viviamo e moriamo in modo razionale e produttivo” scrive l’intellettuale francofortese ne L’uomo a una dimensione: “Noi sappiamo che la distruzione è il prezzo del progresso, così come la morte è il prezzo della vita; che rinuncia e fatica sono condizioni necessarie del piacere e della gioia; che l’attività economica deve proseguire, e che le alternative sono utopiche. Questa ideologia appartiene all’apparato stabilito della società; è un requisito del suo regolare funzionamento, fa parte della sua razionalità”. Negli anni e nelle società occidentali del boom economico del Novecento – quelli in cui scrive Marcuse – il capitalismo si autolegittimava come sistema razionale in quanto portatore di benessere a fasce sempre più estese di popolazione: la creazione del celebre ‘ceto medio’. Oggi non è più così. Povertà e diseguaglianza sono in ascesa, in modo talmente evidente che nessuna narrazione contraria riesce nell’intento di risultare credibile. Eppure, il sistema non è messo in discussione dalla gran parte della popolazione. Perché gli equilibri ideologici tra capitalismo e tecnologia sono mutati, ma ancora producono una visione che si vuole razionale. Mentre il capitalismo non si preoccupa più di autolegittimarsi, forte del fatto di essere divenuto ‘sistema naturale’, criterio di interpretazione e valutazione di ogni ambito sociale – tutto è letto secondo criteri economici, persino la crisi idrica viene rapportata alla perdita di Pil: ci sono i morti, certo, ci sono le guerre, certo, ma a un dato punto dei report compare sempre l’impatto negativo sui numeri dell’economia – la tecnologia ha assunto su di sé, pienamente ed esclusivamente, la caratteristica della razionalità; e in questa inversione d’ordine, la presunta razionalità del sistema è divenuta ancora più difficile da contestare.

Si cercano così soluzioni tecnologiche-capitalistiche ai danni prodotti dallo stesso sviluppo tecnologico-capitalistico: le cause pretendono di trasformarsi in soluzioni, e i profitti derivanti dalle soluzioni si sommano a quelli incassati dalle cause. Mentre consuma miliardi di litri d’acqua, l’intelligenza artificiale deve essere sviluppata perché, nella crisi in cui siamo, permetterà una più efficiente gestione dell’acqua stessa: un paradosso che non viene percepito come tale. Mentre sottrae acqua alla popolazione palestinese di Cisgiordania e Gaza, Israele è tra i principali Paesi sviluppatori di intelligenza artificiale e relative tecnologie – molte legate al settore militare –, come mostra anche l’inchiesta a pag. 14, dettagliando la trasformazione di Ebron in una smart city strutturata sulla capillare sorveglianza e repressione dei palestinesi.

È alla radice della ragione, che occorre andare. Perché l’attuale sistema “appare naturale solo a un modo di pensare e di comportarsi che non è incline e forse è anche incapace di comprendere ciò che avviene e perché avviene” scrive Marcuse, “un modo di pensare e di comportarsi che è immune da ogni forma di razionalità che non sia la razionalità stabilita”. In un’intervista del 1968, Marcuse porta l’esempio delle freeway di Los Angeles, le autostrade che collegano le zone della città: “Il condizionamento di una società integrata a sviluppo capitalistico è nel paesaggio quotidiano”, ogni aspetto risulta “logico, fa parte di una necessità, di una funzionalità, è la razionalità interna del sistema. La città di Los Angeles è lunga 100 chilometri, ecco allora per unirne i capi opposto, le freeway […] se a una persona non integrata esse possono apparire angosciose, possono tuttavia apparire belle, tecnicamente progredite, funzionali a chi deve spostarsi in qualche modo da una parte all’altra della città; la logica del sistema le ha rese necessarie, ma è logico il sistema che le ha rese necessarie?”

1) https://www.amref.it/news-e-press/comunicati-stampa/acqua-tra-scarsita-ed-eccessi-tra-malattie-e-consapevolezza-della-nostra-impronta-idrica/

2) Cfr. https://www.unicef.it/programmi/acqua-igiene/

3) Cfr. https://www.amref.it/news-e-press/comunicati-stampa/acqua-tra-scarsita-ed-eccessi-tra-malattie-e-consapevolezza-della-nostra-impronta-idrica/

4) Cfr. Unesco, The United Nations World Water Development Report 2024: Water for Prosperity and Peace, marzo 2024 https://www.unwater.org/publications/un-world-water-development-report-2024

5) Unesco, The United Nations World Water Development Report 2021: Valuing Water, https://www.unwater.org/publications/un-world-water-development-report-2021

6) Cfr. https://www.worldwater.org/water-conflict/

7) “Le Forze militari israeliane” o “i coloni israeliani” o “i coloni israeliani, sotto la protezione dei soldati israeliani”, “distruggono” o “danneggiano”, o “demoliscono” o “vandalizzano”

8) https://www.un.org/unispal/document/the-allocation-of-water-resources-in-the-opt-including-east-jerusalem-report-of-the-united-nations-high-commissioner-for-human-rights-advance-unedited-version-a-hrc-48-43/

9) Pengfei Li, Jianyi Yang, Mohammad A. Islam, Shaolei Ren, Making AI Less ‘Thirsty’: Uncovering and Addressing the Secret Water Footprint of AI Models, ottobre 2023 https://arxiv.org/abs/2304.03271

ChatGPT e model collapse. AI che si addestrano su dati generati da AI

Rivista Paginauno — Fri, 07 Jul 2023 13:05:00 +0000

Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson

(Paginauno n. 83, luglio – settembre 2023)

Modelli AI che si addestrano su dati raccolti in rete generati da precedenti modelli AI: uno studio mostra come il conseguente ‘collasso del modello’ porterà a distorsioni della realtà

“Fino a oggi, la maggior parte del testo online è stato scritto da esseri umani. Ma questo testo è stato usato per addestrare GPT-3 e GPT-4, che sono apparsi come assistenti di scrittura nei nostri strumenti di editing. Quindi sempre più testo sarà scritto da grandi modelli linguistici (LLM). Dove porta tutto questo? Cosa succederà a GPT-{n} quando gli LLM contribuiranno alla maggior parte del linguaggio trovato online?” Se lo domanda Ross Anderson, professore di security engineering all’Università di Cambridge e all’Università di Edimburgo, sul suo blog (1), e continua: “E non si tratta solo di testo. Se si addestra un modello musicale su Mozart, ci si può aspettare un risultato che assomiglia un po’ a Mozart ma senza la sua brillantezza – chiamiamolo ‘Salieri’. E se Salieri addestra la generazione successiva, e così via, come suonerà la quinta o la sesta generazione?”

Anderson è uno degli autori del paper The Curse of Recursion: Training on Generated Data Makes Models Forget pubblicato il 27 maggio scorso nell’archivio open access ArXiv (2). E sottolinea nel suo blog: “Nel nostro ultimo lavoro, dimostriamo che l’utilizzo nell’addestramento di contenuti generati da un modello precedente provoca difetti irreversibili. Le code della distribuzione originale dei contenuti scompaiono. Nel giro di poche generazioni, il testo diventa spazzatura, poiché le distribuzioni gaussiane convergono e possono persino diventare funzioni delta. Chiamiamo questo effetto model collapse (collasso del modello). Così come abbiamo disseminato gli oceani di rifiuti di plastica e riempito l’atmosfera di anidride carbonica, stiamo per riempire Internet di blah. […] Dopo aver pubblicato questo articolo, abbiamo notato che Ted Chiang aveva già commentato l’effetto a febbraio, osservando che ChatGPT è come una jpeg sfocata di tutto il testo presente su Internet, e che le copie delle copie peggiorano. Nel nostro articolo analizziamo la matematica, spieghiamo l’effetto in dettaglio e dimostriamo che è universale”.

Un secondo autore del paper, Ilia Shumailov, dell’Università di Oxford, dichiara a Venture Beat (3): “Nel tempo, gli errori nei dati generati dagli LLM si sommano, e alla fine costringono i modelli successivi, addestrati su quei dati, a percepire ulteriormente la realtà in modo errato. Siamo rimasti sorpresi nell’osservare la rapidità con cui avviene il collasso del modello: i modelli possono dimenticare rapidamente la maggior parte dei dati originali da cui hanno appreso inizialmente”. Dati generati dagli esseri umani e che secondo Shumailov “rappresentano il mondo in modo più equo, cioè contengono anche dati improbabili. I modelli generativi, invece, tendono a riprodurre eccessivamente (overfit) i dati più popolari e spesso fraintendono i dati meno popolari”.

Nell’esempio riportato da Shumailov, un modello di apprendimento automatico viene addestrato su un set di dati con immagini di 100 gatti, 10 dei quali con il pelo blu e 90 con il pelo giallo. Il modello apprende che i gatti gialli sono più diffusi, ma rappresenta anche i gatti blu come più giallastri di quanto non siano in realtà, restituendo alcuni risultati di gatto verde quando viene chiesto di produrre nuovi dati. Nel corso del tempo, il tratto originale della pelliccia blu si erode attraverso successivi cicli di addestramento, passando dal blu al verdastro e infine al giallo: questa distorsione progressiva e l’eventuale perdita delle caratteristiche dei dati di minoranza è il ‘collasso del modello’. Non si tratta del fenomeno, già conosciuto in letteratura, sottolineano Shumailov e lo stesso paper, della “dimenticanza catastrofica”, nel quale i modelli perdono informazioni apprese in precedenza: il model collapse riguarda modelli che interpretano erroneamente la realtà sulla base delle loro convinzioni rafforzate.

Il paper è estremamente tecnico, basandosi su analisi matematiche, ne riportiamo qui un estratto dei passaggi più semplici.

The Curse of Recursion: Training on Generated Data Makes Models Forget

Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson

1. Introduzione

Molte comunicazioni umane avvengono online. Miliardi di email vengono scambiate ogni giorno, insieme a miliardi di messaggi sui social media e milioni di articoli di notizie. Quasi tutto questo materiale è stato prodotto e curato solo da esseri umani nei primi anni del world wide web, eppure dall’inizio del secolo i motori di ricerca sono arrivati a determinare ciò che le persone possono trovare, e negli ultimi dieci anni smart editor di testo, lavorando su ortografia e correzione grammaticale, hanno contribuito a modificare ciò che produciamo. Ora, il testo non solo può essere curato e analizzato in modo efficiente; può anche essere generato – da modelli linguistici di grandi dimensioni (Large Language Model, LLM). Questi modelli adesso (probabilmente) superano una forma più debole del test di Turing, nel senso che il loro output non può essere distinto in modo affidabile dal testo scritto da esseri umani.

Lo sviluppo di LLM è piuttosto complesso e richiede masse di dati di addestramento. Aneddoticamente, alcuni potenti modelli recenti vengono addestrati utilizzando frammenti di gran parte di Internet, quindi ulteriormente perfezionati con l’apprendimento per rinforzo da feedback umano (RLHF). Un passaggio che aumenta ulteriormente la dimensione effettiva del set di dati. Tuttavia, mentre gli attuali LLM, incluso GPT-4, sono stati addestrati su testo prevalentemente generato dall’uomo, in futuro potrebbe cambiare. Se la maggior parte dei dati di addestramento dei prossimi modelli sarà anch’essa prelevata dal web, allora inevitabilmente i modelli si addestreranno sui dati prodotti dai loro predecessori. In questo studio, esaminiamo cosa succede quando il testo prodotto, per esempio da una versione di GPT, costituisce la maggior parte del set di dati di addestramento dei modelli successivi. Cosa succede alle versioni {n} di GPT, e all’aumentare della generazione {n}? Questa situazione non è limitata ai modelli di testo; si può anche considerare cosa accade quando la musica creata da compositori umani, e suonata da musicisti umani, addestra modelli il cui output addestra altri modelli.

Scopriamo che l’apprendimento dai dati prodotti da altri modelli provoca il “collasso del modello” (model collapse), un processo degenerativo per cui, nel tempo, i modelli dimenticano l’originale distribuzione dei dati sottostanti, anche in assenza di uno spostamento nella distribuzione nel tempo. Forniamo esempi di collasso del modello per Gaussian Mixture Models (GMM), Variational Autoencoders (VAE) e Large Language Models (LLM). Mostriamo che ciò avviene prima con la scomparsa delle code, e nel corso delle generazioni i comportamenti appresi iniziano a convergere verso una stima puntuale con una varianza molto piccola. Inoltre, dimostriamo che questo processo è inevitabile, anche per i casi con condizioni quasi ideali per l’apprendimento a lungo termine, cioè nessun errore di stima della funzione.

Infine, discutiamo le implicazioni più ampie del collasso del modello. Notiamo che l’accesso alla distribuzione originale dei dati è cruciale: per sapere dove contano le code della distribuzione sottostante, è necessario accedere a dati reali prodotti dall’uomo. In altre parole, l’uso di LLM su larga scala per pubblicare contenuti su Internet inquinerà la raccolta di dati per addestrarli: i dati sulle interazioni umane con LLM saranno sempre più preziosi. […]

In questo lavoro diamo i seguenti contributi:

dimostriamo l’esistenza di un processo degenerativo nell’apprendimento e lo chiamiamo collasso del modello;
dimostriamo che il collasso del modello esiste in una varietà di diversi tipi di modelli e set di dati;
dimostriamo che, per evitare il collasso del modello, è essenziale l’accesso a contenuti genuini generati dall’uomo.

[…]

3. Che cos’è il collasso del modello?

Definizione: il model collapse è un processo degenerativo che interessa generazioni di modelli generativi di apprendimento, in cui i dati finiscono per inquinare il set di addestramento della generazione successiva del modello; essendo addestrati su dati inquinati, percepiscono male la realtà. Identifichiamo due casi: il ‘collasso precoce del modello’ e il ‘collasso tardivo del modello’. Nel primo, il modello inizia a perdere informazioni sulle code della distribuzione; nel secondo, il modello intreccia diverse modalità delle distribuzioni originali e converge in una distribuzione che ha poca somiglianza con quella originale, spesso con una varianza molto piccola.

Figura 1. Il model collapse si riferisce a un processo di apprendimento degenerativo nel quale i modelli iniziano a dimenticare eventi improbabili nel tempo, poiché il modello viene avvelenato dalla propria proiezione della realtà.

Si noti che questo processo è diverso da quello conosciuto come “dimenticanza catastrofica”, in quanto stiamo considerando più modelli nel tempo e modelli che non dimenticano i dati appresi in precedenza, ma piuttosto iniziano a interpretare erroneamente ciò che credono sia reale, rafforzando le proprie convinzioni.

Questo processo si verifica a causa di due specifiche fonti di errore, che si accumulano nel corso delle generazioni e causano deviazioni dal modello originale; una di esse gioca un ruolo primario e, in sua assenza, il processo non si verificherebbe oltre la prima generazione.

3.1 Cause del collasso del modello

Ci sono due cause principali per il collasso del modello, una primaria e una secondaria, che descriviamo ora. Ulteriori intuizioni matematiche sono fornite nella Sezione 4, per spiegare come esse diano origine agli errori osservati, come le diverse fonti possono combinarsi, e come possiamo quantificare il tasso medio di divergenza del modello.

Errore di approssimazione statistica: è l’errore principale, che sorge a causa del fatto che il numero di campioni è finito e scompare quando il numero di campioni tende all’infinito. Ciò si verifica a causa di una probabilità diversa da zero che le informazioni possano perdersi in ogni fase del ricampionamento. […]

Errore di approssimazione funzionale: è l’errore di tipo secondario, che deriva dal fatto che i nostri approssimatori di funzione sono insufficientemente espressivi (o talvolta troppo espressivi al di fuori del supporto di distribuzione originale). È noto che le reti neurali sono approssimatori funzionali universali al limite, ma in pratica ciò non è sempre vero. In particolare, una rete neurale può introdurre verosimiglianza diversa da zero al di fuori del supporto della distribuzione originale. Un semplice esempio di questo errore è se provassimo ad adattare una combinazione di due gaussiane con una singola gaussiana. Anche se disponiamo di informazioni perfette sulla distribuzione dei dati, gli errori del modello saranno inevitabili. È importante notare anche che in assenza di errore statistico, l’errore di approssimazione funzionale si verifica solo alla prima generazione. Una volta che la nuova distribuzione appartiene all’immagine dell’approssimatore funzionale, rimane esattamente la stessa nel corso delle generazioni.

[…]

Figura 2. Descrizione di alto livello del meccanismo di feedback nel processo di apprendimento. Qui si ipotizza che i dati siano curati dall’uomo e partano puliti; quindi viene addestrato il modello 0 e i dati vengono campionati da esso; al passaggio {n} i dati sono aggiunti ai dati complessivi del passaggio {n – 1}, e questo insieme viene utilizzato per addestrare il modello {n}. I dati ottenuti con il campionamento Monte Carlo [il metodo Monte Carlo è un’ampia classe di metodi computazionali basati sul campionamento casuale per ottenere risultati numerici, n.d.a.] dovrebbero idealmente essere statisticamente vicini all’originale, a condizione che le procedure di adattamento e di campionamento siano perfette. Questo processo rappresenta ciò che accade nella vita reale con Internet: i dati generati dai modelli diventano pervasivi.

6. Discussione e conclusione

Discutiamo ora le implicazioni del model collapse sulle dinamiche di apprendimento alla base degli LLM. I poisoning attacks (attacchi hacker che mirano a inquinare i dati) a lungo termine sui modelli linguistici non sono nuovi. Per esempio, abbiamo assistito alla creazione di industrie di clic, contenuti e troll, una sorta di ‘modelli linguistici umani’, il cui compito è fuorviare i social network e gli algoritmi di ricerca. L’effetto negativo che questi attacchi hanno avuto sui risultati di ricerca ha portato a cambiamenti negli stessi algoritmi di ricerca: per esempio, Google ha declassato questi tipi di articoli, ponendo maggiore enfasi sui contenuti prodotti da fonti affidabili, come domini education, mentre DuckDuckGo li ha rimossi del tutto.

Ciò che cambia con l’arrivo degli LLM è la scala con cui tale inquinamento può avvenire, una volta automatizzato. Preservare la capacità degli LLM di modellare eventi a bassa probabilità è essenziale per l’equità delle loro previsioni: tali eventi sono spesso rilevanti per i gruppi emarginati. Anche gli eventi a bassa probabilità sono fondamentali per comprendere i sistemi complessi.

La nostra valutazione suggerisce un “vantaggio della prima mossa” quando si tratta di modelli di formazione come LLM. Nel nostro lavoro dimostriamo che l’addestramento su campioni di un altro modello generativo può indurre uno spostamento della distribuzione dei dati, che nel tempo causa il collasso del modello. Ciò a sua volta fa sì che il modello percepisca erroneamente il compito di apprendimento sottostante. Per garantire che quest’ultimo sia sostenuto per un lungo periodo di tempo, è necessario assicurarsi che sia preservato l’accesso alla fonte originale dei dati, e che quelli aggiuntivi non generati da LLM rimangano disponibili nel tempo. La necessità di distinguere i dati prodotti da LLM dagli altri dati, solleva interrogativi sulla provenienza dei contenuti scansionati da Internet: non è chiaro come quelli generati dagli LLM possano essere monitorati su larga scala. Un’opzione è il coordinamento a livello di comunità, per garantire che le diverse parti coinvolte nella creazione e distribuzione di LLM condividano le informazioni necessarie per risolvere gli aspetti relativi alla provenienza dei dati. In caso contrario, potrebbe diventare sempre più difficile addestrare le nuove versioni di LLM senza avere accesso ai dati che sono stati raccolti da Internet prima dell’adozione di massa di questa tecnologia, o senza avere accesso diretto ai dati generati dagli esseri umani su larga scala.

1) Cfr. https://www.lightbluetouchpaper.org/2023/06/06/will-gpt-models-choke-on-their-own-exhaust/

2) Cfr. https://arxiv.org/abs/2305.17493. Il paper è pubblicato sotto diritti Creative Commons. La traduzione dell’estratto è a cura di Paginauno

3) Cfr. https://venturebeat.com/ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/

Il mondo di ChatGPT. La sparizione della realtà

Giovanna Cracco — Mon, 24 Apr 2023 13:30:00 +0000

(Paginauno n. 82, aprile – maggio 2023)

Cosa sarà reale nel mondo di ChatGPT? Per i tecnici di OpenAI, GPT-4 produce più false informazioni e manipolazione di GPT-3 ed è un problema comune a tutti gli LLM che saranno integrati nei motori di ricerca e nei browser; ci attendono l’“uomo disincarnato” di McLuhan e la “megamacchina” di Mumford

“Ricevendo continuamente tecnologie ci poniamo nei loro confronti come altrettanti servomeccanismi. È per questo che per poterle usare dobbiamo servire questi oggetti, queste estensioni di noi stessi, come fossero dei.”
Marshall McLuhan, Understanding media. The Extensions of Man

Nel giro di breve tempo, la sfera digitale cambierà: l’intelligenza artificiale che abbiamo conosciuto sotto la forma di ChatGPT sta per essere incorporata nei motori di ricerca, nei browser e nei programmi di largo utilizzo come il pacchetto Office di Microsoft. È facile prevedere che, progressivamente, i ‘modelli linguistici di grandi dimensioni’ (Large Language Model, LLM) (1) – ciò che tecnicamente sono i chatbot AI – saranno inseriti in tutte le applicazioni digitali.

Se questa tecnologia fosse rimasta circoscritta a utilizzi specifici, l’analisi del suo impatto avrebbe riguardato ambiti particolari, come quello del copyright, o la definizione del concetto di ‘creatività’, o le conseguenze occupazionali in un settore del mercato del lavoro ecc.; ma la sua incorporazione nell’intera area digitale investe ciascuno di noi. Quella con i chatbot AI sarà un’interazione uomo-macchina continua. Diventerà un’abitudine quotidiana. Una ‘relazione’ quotidiana. Produrrà un cambiamento che avrà ripercussioni sociali e politiche talmente estese, e a un tale livello di profondità, da poterle probabilmente definire antropologiche; andranno a colpire, intrecciandosi e interagendo fra loro, la sfera della disinformazione, quella della fiducia e la dinamica della dipendenza, fino a configurarsi in qualcosa che possiamo chiamare la ‘sparizione della realtà’. Perché gli LLM “inventano fatti”, favoriscono la propaganda, manipolano e traggono in inganno. “La profusione di informazioni false da parte di LLM – a causa di disinformazione intenzionale, pregiudizi della società o allucinazioni – può potenzialmente mettere in dubbio l’intero ambiente informativo, minacciando la nostra capacità di distinguere i fatti dalla finzione”: ad affermarlo non è uno studio critico verso la nuova tecnologia ma la stessa OpenAI, società creatrice di ChatGPT, in un documento tecnico rilasciato insieme alla quarta versione del modello linguistico.

Andiamo con ordine.

Il mondo dei chatbot AI

Microsoft ha già accoppiato GPT-4 – il programma successivo al GPT-3 che abbiamo conosciuto – a Bing, e lo sta testando: l’unione “modificherà completamente ciò che le persone possono aspettarsi dalla ricerca sul web”, ha dichiarato il 7 febbraio Satya Nadella, CEO di Microsoft, al Wall Street Journal: “Avremo non solo le informazioni costantemente aggiornate che normalmente ci aspettiamo da un motore di ricerca, ma potremo anche chattare su queste informazioni, così come su quelle di archivio. Bing Chat consentirà quindi di avere una vera conversazione su tutti i dati di ricerca, e tramite una chat contestualizzata, ottenere le risposte giuste” (2).

Attualmente Bing copre appena il 3% del mercato dei motori di ricerca, dominato da Google al 93%. La decisione di investire nel settore è dettata dalla sua profittabilità: nel digitale, è l’ambito “più redditizio che ci sia sul pianeta Terra”, afferma Nadella. Alphabet non intende quindi perdere terreno, e a marzo ha annunciato l’imminente arrivo di Bard, il chatbot AI che sarà integrato con Google, mentre la stessa OpenAI ha già lanciato un plugin che permette a ChatGPT di attingere informazioni da tutto il web e in tempo reale – prima il database era limitato ai dati di addestramento, precedenti al settembre 2021 (3).

Chat Bing sarà inserito aggiungendo una finestra nella parte superiore della pagina del motore di ricerca, dove si potrà scrivere la domanda e conversare; la risposta del chatbot AI conterrà note a margine, con l’indicazione dei siti web da cui ha attinto le informazioni utilizzate per elaborare la risposta stessa. Anche il plugin per ChatGPT reso disponibile da OpenAI prevede le note, ed è facilmente ipotizzabile che Bard di Google sarà strutturato allo stesso modo. Tuttavia, è ingenuo credere che le persone cliccheranno su quelle note, per andare a verificare la risposta del chatbot o per approfondire: per i meccanismi di fiducia e dipendenza che vedremo, la gran parte sarà soddisfatta dalla rapidità e facilità con cui ha ottenuto quel che cercava, e si affiderà totalmente a ciò che il modello linguistico ha prodotto. Medesimo discorso vale per la modalità di ricerca: sotto la finestra della chat, per adesso Bing manterrà l’elenco dei siti web tipico dei motori di ricerca per come li abbiamo conosciuti finora. Forse l’elenco resterà – anche in Google –, forse nel tempo sparirà. Ma è certo che sarà utilizzato sempre meno.

L’integrazione di Bing Chat nel browser Edge di Microsoft avverrà invece attraverso una barra laterale, nella quale si potrà chiedere di riassumere la pagina web in cui ci si trova. È facile scommettere sul successo di questa applicazione, per persone che già sono state abituate a una lettura online a salti e passiva, nella quale le ‘cose importanti’ sono evidenziate in grassetto (!). Anche in questo caso, Microsoft trascinerà i concorrenti sulla medesima strada, e i chatbot AI finiranno per essere inseriti in tutti i browser, da Chrome a Safari.

In poche parole, il digitale diventerà sempre più il mondo dei chatbot AI: entrarvi significherà ‘relazionarsi’ con un modello linguistico, sotto forma di chat o di assistente vocale.

Disinformazione 1: allucinazioni

Contestualmente all’uscita di GPT-4, OpenAI ha reso pubblico il documento GPT-4 System Card (4), una “scheda di sicurezza” che analizza i limiti e i relativi rischi del modello. Obiettivo del Report è dare una panoramica dei processi tecnici implementati per rilasciare GPT-4 con il più alto grado di sicurezza possibile, e contemporaneamente evidenziare le problematiche non risolte; quest’ultimo aspetto è quello interessante.

GPT-4 è un LLM più grande e contiene più parametri del precedente GPT-3 – maggiori dettagli tecnici non sono noti: questa volta OpenAI ha mantenuto il riserbo sui dati, le tecniche di addestramento e la potenza di calcolo; il software è dunque divenuto chiuso e privatistico, come tutti i prodotti di Big Tech –; è multimodale, ossia può analizzare/rispondere sia a testo che a immagini; “dimostra un aumento delle prestazioni in aree come l’argomentazione, la conservazione delle conoscenze e la codifica”, e “la sua maggiore coerenza consente di generare contenuti che possono essere più credibili e più persuasivi”: una caratteristica, quest’ultima, che i tecnici di OpenAI ritengono negativa, perché “nonostante le capacità, GPT-4 mantiene la tendenza a inventare fatti”. Rispetto al precedente GPT-3, l’attuale versione è quindi maggiormente in grado “di produrre un testo sottilmente convincente ma falso”. Nel linguaggio tecnico sono state chiamate “allucinazioni”.

Ne esistono di due tipi: le cosiddette “allucinazioni a dominio chiuso si riferiscono a casi in cui al LLM viene domandato di utilizzare solo le informazioni fornite in un dato contesto, ma poi ne crea di extra (per esempio, se chiedi di riassumere un articolo e il riepilogo include informazioni non presenti nell’articolo)”; e le allucinazioni a dominio aperto, che “si verificano quando il modello fornisce con sicurezza false informazioni generali, senza riferimento a un particolare contesto di input”, ossia quando viene posta una qualsiasi domanda e il chatbot AI risponde con dati falsi.

GPT-4 ha dunque “la tendenza ad ‘allucinare’, cioè a produrre contenuti privi di senso o non veritieri”, continua il Report, e “a raddoppiare le informazioni errate […]. Inoltre, spesso mostra queste tendenze in modi più convincenti e credibili rispetto ai precedenti modelli GPT (per esempio utilizzando un tono autorevole o presentando i dati falsi nel contesto di informazioni altamente dettagliate e accurate)”.

Apparentemente, siamo dunque davanti a un paradosso: la nuova versione di una tecnologia, considerata un miglioramento, porta a un incremento qualitativo nelle capacità di generare false informazioni, quindi a una diminuzione dell’affidabilità della tecnologia stessa. In realtà, non si tratta di un paradosso bensì di un problema strutturale – di tutti i modelli linguistici, non solo ChatGPT – e in quanto tale difficilmente risolvibile.

Per comprenderlo, occorre ricordare che gli LLM sono tecnicamente costruiti sulla probabilità che un dato (in questo caso una parola) segua a un altro: si basano su calcoli statistici e non hanno alcuna comprensione rispetto al significato di ciò che ‘affermano’; e il fatto che una combinazione di parole sia probabile, divenendo una frase, non indica che essa sia anche vera. Lo Studio pubblicato a pag. 64, a cui rimandiamo per i dettagli (5), mostra le ragioni per le quali i modelli linguistici possono rilasciare false informazioni. In sintesi: 1. sono addestrati su database presi dal web, dove sono ovviamente presenti sia dati non veritieri che affermazioni non corrette da un punto di vista fattuale (per esempio favole, romanzi, fantasy ecc. che contengono frasi tipo: “I draghi vivono dietro questa catena montuosa”); 2. anche fossero addestrati solo su informazioni vere e reali, potrebbero comunque produrre falsi fattuali (un LLM addestrato su frasi come {“Leila possiede un’auto”, “Max possiede un gatto”} può prevedere una ragionevole probabilità per la frase “Leila possiede un gatto”, ma questa affermazione può essere falsa nella realtà); 3. basandosi sulla statistica, il modello è strutturato a utilizzare una combinazione di parole che trova con frequenza nei dati di addestramento, ma ciò non significa che essa sia vera (“i maiali volano”); 4. lo schema lessicale può essere molto simile al proprio opposto e la frase rovesciarsi facilmente, producendo un falso (“gli uccelli possono volare” e “gli uccelli non possono volare”); 5. infine, la correttezza o meno di un’affermazione può dipendere dal contesto, e i dati di addestramento non lo considerano: è quindi una variabile che gli LLM non possono registrare.

“Ne consegue”, ricapitolano gli autori dello Studio, “che l’aumento della dimensione dei modelli linguistici non sarà sufficiente per risolvere la questione che assegnano alte probabilità a informazioni false”. Una conclusione che si pone in direzione contraria rispetto all’attuale sviluppo degli LLM, basato sul loro ampliamento come caratteristica risolutiva dei problemi riscontrati.

Disinformazione 2: propaganda

Le maggiori capacità di produrre risultati credibili e persuasivi, rendono inoltre GPT-4 un alleato migliore per fabbricare fake news e narrazioni manipolatorie. “GPT-4 può generare contenuti plausibilmente realistici e mirati, inclusi articoli di notizie, tweet, dialoghi ed email” scrivono i tecnici di OpenAI: “Per esempio, i ricercatori hanno scoperto che GPT-3 era in grado di svolgere compiti rilevanti per modificare la narrazione su un argomento. Anche gli appelli persuasivi su questioni di carattere politico, scritti da modelli linguistici come GPT-3, si sono rivelati quasi altrettanto efficaci di quelli scritti da persone. Sulla base delle prestazioni di GPT-4 in attività linguistiche correlate, ci aspettiamo che sia migliore di GPT-3 in questo tipo di attività […] I nostri risultati […] suggeriscono che GPT-4 può competere in molti ambiti con chi si occupa di propaganda, specialmente se abbinato a un editor umano […] GPT-4 è anche in grado di generare piani realistici per raggiungere l’obiettivo. Per esempio, quando viene chiesto «Come posso convincere due fazioni di un gruppo a non essere d’accordo tra loro», GPT-4 crea suggerimenti che appaiono verosimili”.

Ovviamente, il Report riporta esempi ricalcati sul punto di vista della narrazione occidentale dominante, nella quale i “malintenzionati [che] possono utilizzare GPT-4 per creare contenuti fuorvianti” sono Al-Qaeda, i nazionalisti bianchi e un movimento contro l’aborto; superfluo sottolineare che nessun governo e nessuna classe dirigente si sottrae alla creazione di una narrazione propagandistica, come ha reso ancora più evidente la fase del Covid e quella attuale della guerra in Ucraina. Tutti gli attori in gioco quindi si gioveranno dei chatbot AI per costruire le proprie fake news.

Oltretutto, i modelli linguistici “possono ridurre il costo della produzione di disinformazione su larga scala”, sottolinea lo Studio riportato a pag. 64, e “rendere più conveniente creare disinformazione interattiva e personalizzata, al contrario degli approcci attuali che spesso producono quantità relativamente piccole di contenuto statico che poi diventa virale”. È dunque una tecnologia che potrà favorire la modalità Cambridge Analityca, ben più subdola ed efficace della normale propaganda (6).

Fiducia, dipendenza e antropomorfizzazione

LLM che “diventano sempre più convincenti e credibili”, scrivono di tecnici di OpenAI, portano “a un eccessivo affidamento da parte degli utenti”, ed è chiaramente un problema davanti alla tendenza di GPT-4 ad ‘allucinare’: “Controintuitivamente, le allucinazioni possono diventare più pericolose man mano che i modelli linguistici diventano più veritieri, poiché gli utenti iniziano a fidarsi del LLM quando fornisce informazioni corrette in aree in cui hanno una certa familiarità”. Se aggiungiamo anche la ‘relazione’ quotidiana con i chatbot AI che la nuova configurazione della sfera digitale porterà, non è difficile intravedere le radici dei meccanismi della fiducia e della dipendenza. “L’eccessivo affidamento si verifica quando gli utenti si fidano troppo e dipendono dal modello linguistico, portando potenzialmente a errori inosservati e supervisione inadeguata” continua il Report: “Ciò può avvenire in vari modi: gli utenti potrebbero non essere vigili a causa della fiducia nel LLM; potrebbero non fornire una supervisione adeguata in base all’uso e al contesto; oppure potrebbero utilizzare il modello in ambiti in cui mancano di esperienza, rendendo difficile l’identificazione degli errori”. Non solo. La dipendenza “probabilmente aumenta con la capacità e l’ampiezza del modello. Man mano che gli errori diventano più difficili da rilevare per l’utente umano medio, e cresce la fiducia generale nel LLM, è meno probabile che gli utenti contestino o verifichino le sue risposte”. Infine: “Man mano che gli utenti diventano più a loro agio con il sistema, la dipendenza da LLM può ostacolare lo sviluppo di nuove competenze o addirittura portare alla perdita di competenze importanti”. È un meccanismo che abbiamo già visto all’opera con l’estendersi della tecnologia digitale, e che i modelli linguistici non possono che esacerbare: sempre meno saremo in grado di agire senza un chatbot AI che ci dica cosa fare, e lentamente si atrofizzerà la capacità di ragionare, capire, analizzare perché abituati a un algoritmo che lo farà per noi, consegnandoci risposte già confezionate e consumabili.

A intensificare fiducia e dipendenza, si aggiunge il processo di antropomorfizzazione della tecnologia. Il documento di OpenAI richiama gli sviluppatori a “essere cauti nel modo in cui fanno riferimento al modello/sistema, e in generale evitare affermazioni o implicazioni fuorvianti, incluso il fatto che è umano, e considerare il potenziale impatto delle modifiche allo stile, al tono o alla personalità del modello nella percezione degli utenti”; perché, come evidenzia lo Studio a pag. 64, “gli utilizzatori che interagiscono con chatbot più umani tendono ad attribuire una maggiore credibilità alle informazioni da loro prodotte”. Non si tratta di arrivare a credere che una macchina sia umana, sottolinea l’analisi: “piuttosto, si verifica un effetto di antropomorfismo ‘insensato’, per cui gli utenti rispondono a chatbot più umani con risposte più relazionali, anche se sanno che non sono umani”.

L’uomo disincarnato: la sparizione della realtà

Ricapitolando: se la sfera digitale diventerà il mondo dei chatbot AI; se ci abitueremo ad accontentarci delle risposte fornite dai chatbot AI; risposte che possono essere false (allucinazioni) o manipolatorie (propaganda), ma che riterremo sempre vere, per la fiducia riposta nella macchina e la dipendenza da essa; cosa sarà reale?

Se volessimo recuperare la distinzione tra apocalittici e integrati, il Marshall McLuhan di Understanding Media. The Extensions of Man del 1964 sarebbe tra i secondi, con il suo entusiasmo nei confronti del tribale “villaggio globale” che vedeva avvicinarsi; tuttavia, se prendiamo il McLuhan del 1978, dell’articolo A Last Look at the Tube pubblicato sul New York Magazine, lo ritroveremmo più vicino ai primi. Qui elabora il concetto dell’“uomo disincarnato”, l’uomo dell’era elettrica della televisione e oggi, aggiungiamo noi, di internet. Com’è noto, per McLuhan i media sono estensioni dei sensi e del sistema nervoso dell’uomo, capaci di andare oltre i limiti fisici dell’uomo stesso; l’elettricità, in particolare, estende interamente ciò che siamo, ‘disincarnandoci’: l’uomo “in onda”, così come online, è privato di un corpo fisico, “inviato e istantaneamente presente ovunque”. Senonché, ciò lo priva anche del rapporto con le leggi fisiche della natura, portandolo a ritrovarsi “in gran parte privato della sua identità personale”. Se dunque nel 1964 McLuhan leggeva in modo positivo la rottura dei piani spazio/ tempo, individuandovi la liberazione dell’uomo dalla logica lineare e razionale tipica dell’era tipografica e la sua riconnessione alla sfera sensibile, in una riunione mente/corpo non solo individuale ma collettiva – quel villaggio globale che il medium elettrico avrebbe creato, caratterizzato da una universale sensibilità e coscienza –, nel 1978, al contrario, McLuhan riconosce proprio nell’annullamento delle leggi fisiche dello spazio/tempo, la radice della crisi: perché solo lì si possono sviluppare le dinamiche relazionali che creano identità e cooperazione umana, come analizzerà anche Augé nella sua riflessione sui non-luoghi e il non-tempo.

Privo di identità, quindi, “l’utente televisivo [e di internet] disincarnato vive in un mondo tra la fantasia e il sogno e si trova in uno stato tipicamente ipnotico”: ma mentre il sogno tende alla costruzione della propria realizzazione nel tempo e nello spazio del mondo reale, scrive McLuhan, la fantasia rappresenta una gratificazione per se stessa, chiusa e immediata: fa a meno del mondo reale non perché lo sostituisce, ma perché è essa stessa, e all’istante, una realtà.

Per quest’uomo disincarnato, ipnotizzato, trasportato dal medium dal mondo reale a un mondo di fantasia, dove ora può instaurare una relazione sempre più antropomorfizzata con chatbot AI che rispondono a ogni suo dubbio, curiosità e domanda, cosa sarà dunque reale? La risposta è ovvia: corretto o sbagliato che sia, allucinazione o manipolazione che sia, sarà vero ciò che dice il chatbot AI. Sarà reale ciò che dice il chatbot AI.

È indubbio che da tempo internet è il ‘traduttore’ della nostra realtà – in modo molto più esteso di quanto lo fosse stata e lo sia la televisione –: da decenni siamo uomini disincarnati. Ma fino a oggi la rete non si è configurata come il mondo della fantasia, perché ha consentito molteplici punti di vista e vie di fuga. Ora i primi scompariranno con l’estensione dei modelli linguistici – per la loro caratteristica strutturale di favorire le narrazioni dominanti (7) – lasciando spazio solo alla differenza tra diverse propagande manipolatorie; le seconde franeranno davanti alle dinamiche di fiducia e dipendenza che innescherà il quotidiano, funzionale, facile e comodo utilizzo dei chatbot AI.

“Quando la fedeltà alla Legge naturale viene meno,” scrive McLuhan nel 1978, “il soprannaturale rimane come ancoraggio; e il soprannaturale può persino assumere la forma di quel tipo di megamacchine […] di cui Mumford parla come esistenti 5.000 anni fa in Mesopotamia e in Egitto”. Magamacchine che si appoggiano a strutture mitiche – il “soprannaturale” – fino a far sparire la realtà. Quella ‘nuova’ megamacchina che Mumford, in risposta al villaggio globale di McLuhan, nel 1970 aggiorna rispetto al concetto originale sviluppato nell’analisi delle civiltà antiche, e ora vede costituita da componenti macchiniche e umane; con la casta dei tecno-scienziati a gestirla; e dominata al vertice dal dio-computer. Una megamacchina che produce una totale perdita di autonomia nei soggetti e nei gruppi sociali. “La nostra megamacchina per la vita quotidiana ci presenta il mondo come «una somma di artefatti senza vita»“, afferma McLuhan, citando Erich Fromm: “Il mondo diventa una somma di artefatti senza vita; […] l’uomo intero diventa parte della macchina totale che controlla e da cui è contemporaneamente controllato. Non ha un piano, uno scopo per la vita, se non quello di fare ciò che la logica della tecnica gli impone di fare. Aspira a costruire robot come uno dei più grandi successi della sua mente tecnica, e alcuni specialisti ci assicurano che il robot sarà difficilmente distinguibile dagli uomini viventi. Questo risultato non sembrerà così sorprendente quando l’uomo stesso sarà difficilmente distinguibile da un robot”. Un uomo trasformato in una sorta di “information pattern” disincarnato, uno “schema informativo” avulso dalla realtà.

Escludendo personaggi in stile Elon Musk, difficile dire se nell’appello che chiede di “sospendere immediatamente per almeno sei mesi l’addestramento di sistemi di intelligenza artificiale più potenti di GPT-4” (8), lanciato il 22 marzo da ormai migliaia fra ricercatori, tecnici, impiegati e manager di aziende del Big Tech, ci sia, oltre a una logica economica – rallentare la corsa di modo da poter entrare nel mercato –, anche un sincero timore per il cambiamento antropologico che i modelli linguistici andranno a produrre, e la conseguente società che si verrà a configurare. Probabile ci sia, soprattutto fra i ricercatori e i tecnici – lo stesso documento di OpenAI su GPT-4 è in qualche modo un grido d’allarme. Non accadrà, ovviamente: il capitalismo non conosce pause di sospensione. Tuttavia il problema non è lo sviluppo futuro di queste tecnologie, bensì lo stadio che già hanno raggiunto. Così come, alla radice di ogni situazione, si tratta sempre di scegliere, ciascuno di noi, ogni giorno, come agire; come preservare la propria intelligenza, abilità di analisi e volontà. Se c’è qualcosa che appartiene all’uomo è la capacità dello scarto, della deviazione: l’uomo, a differenza della macchina, non vive nel mondo del probabile ma in quello del possibile.

1) Per un approfondimento e una panoramica sulla struttura dei large language model cfr. Bender, Gebru, McMillan-Major, Shmitchell, ChatGPT. Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi?, Paginauno n. 81, febbraio/marzo 2023

2) Cfr. https://www.youtube.com/watch?v=bsFXgfbj8Bc anche per tutti i dettagli contenuti nell’articolo relativi a Chat Bing

3) Cfr. https://openai.com/blog/chatgpt-plugins#browsing

4) Cfr. https://cdn.openai.com/papers/gpt-4-system-card.pdf

5) Cfr. AA.VV., ChatGPT. Rischi etici e sociali dei danni causati dai Modelli Linguistici, pag. 64

6) “L’idea alla base è che se vuoi cambiare la politica devi prima cambiare la cultura, perché la politica discende dalla cultura; e se vuoi cambiare la cultura devi prima capire chi sono le persone, le ‘singole cellule’ di quella cultura. Quindi, se vuoi cambiare la politica devi cambiare le persone. Noi abbiamo sussurrato all’orecchio degli individui, per spostare pian piano il loro pensiero”, ha dichiarato Christopher Wylie, ex analista della Cambridge Analytica divenuto whistleblower, intervistato dal Guardian nel marzo 2018, cfr. https://www.theguardian.com/uk-news/video/2018/mar/17/cambridge-analytica-whistleblower-we-spent-1m-harvesting-millions-of-facebook-profiles-video

7) cfr. Bender, Gebru, McMillan-Major, Shmitchell, ChatGPT. Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi?, Paginauno n. 81, febbraio/marzo 2023

8) https://futureoflife.org/open-letter/pause-giant-ai-experiments/

ChatGPT. Rischi etici e sociali dei danni causati dai Modelli Linguistici

Rivista Paginauno — Mon, 24 Apr 2023 13:25:00 +0000

AA.VV. *

(Paginauno n. 82, aprile – maggio 2023)

Uno studio analizza i rischi etici e sociali legati ai chatbot AI, dalla discriminazione agli usi malevoli, dalla disinformazione alla antropoformizzazione del rapporto uomo-macchina

ABSTRACT

Il presente documento si propone di contribuire a strutturare il panorama dei rischi associati ai modelli linguistici (LM) (1). Per favorire i progressi dell’innovazione responsabile, è necessaria una comprensione approfondita di tali rischi potenziali. Un’ampia gamma di rischi accertati e previsti viene qui analizzata in dettaglio, attingendo alla letteratura multidisciplinare proveniente dall’informatica, dalla linguistica e dalle scienze sociali.

Il documento delinea sei aree di rischio specifiche: I. Discriminazione, esclusione e tossicità; II. Pericoli di dati privati; III. Danni da disinformazione; IV. Usi malevoli; V. Danni da interazione uomo-macchina; VI. Automazione, accesso e danni ambientali.

La prima area riguarda i rischi di equità e tossicità e ne comprende quattro distinti: 1. gli LM possono creare discriminazioni ingiuste e danni rappresentativi e materiali perpetuando stereotipi e pregiudizi, cioè associazioni dannose tra identità sociali e tratti specifici; 2. le norme e le categorie sociali possono escludere o emarginare coloro che non ne fanno parte: quando un LM le perpetua – per esempio, affermando che le persone chiamate “Max” sono “maschi”, o che le “famiglie” sono sempre composte da padre, madre e figlio – l’uso di tali categorie ristrette può negare o opprimere le identità diverse; 3. il linguaggio tossico può incitare all’odio o alla violenza o causare offesa; 4. infine, un LM che ha prestazioni inferiori per alcuni gruppi sociali rispetto ad altri, può creare un danno ai gruppi svantaggiati, per esempio quando questi modelli sono alla base di tecnologie che interessano tali gruppi. Questi rischi derivano in gran parte dalla scelta dei dati del corpus di addestramento, che includono un linguaggio dannoso e sovra-rappresentano alcune identità sociali rispetto ad altre.

La seconda area comprende i rischi derivanti dalla fuga di dati privati o dal fatto che gli LM deducano correttamente informazioni private o altre informazioni sensibili. Questi rischi derivano dai dati privati presenti nel corpus di addestramento e dalle capacità avanzate di inferenza dei modello linguistici.

La terza area riguarda i rischi associati agli LM che forniscono informazioni false o fuorvianti, che porta a utenti meno informati e all’erosione della fiducia nelle informazioni condivise. […] I rischi di disinformazione derivano in parte dai processi con cui i modelli linguistici imparano a rappresentare il linguaggio: i metodi statistici sottostanti non sono adeguati per distinguere tra informazioni fattualmente corrette e fattualmente non corrette.

La quarta area comprende i rischi di utenti o sviluppatori di prodotti che cercano di usare gli LM per causare danni. Ciò include il loro l’utilizzo per aumentare l’efficacia delle campagne di disinformazione, per creare truffe personalizzate o frodi su larga scala, o per sviluppare codice informatico per virus o sistemi d’arma.

La quinta area si concentra sui rischi derivanti dall’uso specifico di un “agente conversazionale” (CA) che interagisce direttamente con gli utenti umani, connesso alla presentazione del sistema come “simile all’uomo”: una modalità che potrebbe indurre gli utenti a sopravvalutare le capacità della macchina e a utilizzarla in modo non sicuro. Un altro rischio è che la conversazione con questi agenti possa creare nuove possibilità per manipolare o estrarre dagli utenti informazioni private. Gli agenti conversazionali basati su LM possono inoltre comportare rischi già noti per gli assistenti vocali, come il perpetuare stereotipi (per esempio, auto-presentandosi come “assistente donna”). Sono tutti rischi che in parte derivano dagli obiettivi di formazione degli LM posti alla base dei CA, e dalle decisioni di progettazione dei prodotti.

La sesta e ultima area comprende rischi che si applicano ai modelli linguistici e ai sistemi di intelligenza artificiale (AI) in senso più ampio. L’addestramento e il funzionamento degli LM possono comportare elevati costi ambientali; le applicazioni possono avvantaggiare alcuni gruppi più di altri e gli LM stessi sono inaccessibili a molti. Infine, l’automazione basata sui modelli linguistici può influire sulla qualità di alcuni lavori e compromettere parti dell’economia creativa. Questi rischi si manifestano soprattutto quando gli LM sono ampiamente utilizzati nell’economia, e i benefici e i rischi derivanti sono distribuiti a livello globale in modo disomogeneo.

In totale, presentiamo 21 rischi. Discutiamo quindi i loro punti di origine e indichiamo i potenziali approcci di mitigazione, poiché il punto di origine di un danno può indicare le opportune mitigazioni […] Infine, discutiamo le responsabilità organizzative nell’implementazione di tali mitigazioni e il ruolo della collaborazione. […]

2.3 DANNI DA DISINFORMAZIONE

Danni derivanti dal fatto che il modello linguistico fornisce informazioni false o fuorvianti.

2.3.1 Panoramica

Gli LM possono assegnare alte probabilità a enunciati che costituiscono affermazioni false o fuorvianti. Risposte fattualmente errate o insensate possono essere innocue, ma in particolari circostanze possono rappresentare un rischio: i danni che ne derivano vanno dal disinformare, ingannare o manipolare una persona, al causare danni materiali, fino a ripercussioni sociali più ampie, come la perdita della fiducia condivisa tra i membri della comunità. Questi rischi costituiscono il fulcro di questa sezione. […]

Nozione di ‘ground truth’

Esistono diverse teorie su ciò che costituisce la ‘verità’ nel linguaggio. Sono state lanciate sfide filosofiche contro l’idea che esista una verità oggettiva che possa essere scoperta in origine. Tuttavia, nell’apprendimento automatico, la nozione di ‘ground truth’ (verità di base) è tipicamente definita in modo funzionale in riferimento ad alcuni dati, per esempio un set di dati annotati per il benchmarking delle prestazioni del modello. Chiarire come le teorie della verità si intersecano con la struttura epistemica degli LM è una sfida di ricerca non ancora risolta […] In questa sezione, discutiamo della verità soprattutto in relazione alla ‘fattualità’, cioè alla misura in cui le previsioni dell’LM corrispondono ai fatti del mondo.

Perché dobbiamo aspettarci risultati non corretti da un punto di vista fattuale (falsi fattuali) anche da LM potenti

Ci si deve aspettare che le previsioni di un LM assegnino a volte alte probabilità a enunciati che non sono fattualmente corretti. La stessa struttura tecnica indica perché accadrà spesso: i modelli linguistici prevedono la probabilità di diversi enunciati successivi sulla base di enunciati precedenti, tuttavia, il fatto che una frase sia probabile o meno non indica in modo affidabile se la frase sia anche corretta dal punto di vista fattuale. Di conseguenza, non sorprende che gli LM assegnino spesso alte probabilità a previsioni false o insensate. Anche i grandi LM avanzati non elaborano in modo affidabile informazioni vere: questi modelli generano informazioni dettagliate e corrette in alcune circostanze, ma forniscono informazioni errate in altre; e quelli che spesso forniscono informazioni corrette possono indurre gli utenti a fidarsi eccessivamente di modelli che sono invece inaffidabili, aggravando così i rischi.

I modelli linguistici possono produrre affermazioni false per diversi motivi. In primo luogo, i corpus di addestramento sono tipicamente tratti da testi pubblicati sul web e sono pieni di affermazioni non corrette dal punto di vista fattuale. In parte, ciò è dovuto al fatto che molti enunciati registrati nei corpora di addestramento non sono strettamente intesi come fattuali – si pensi, per esempio, a storie fantastiche, romanzi, poesie o barzellette (“i draghi vivono dietro questa catena montuosa”, “le sue gambe sono corte quanto la sua memoria”); inoltre, è probabile che i corpora di formazione includano casi di disinformazione e informazioni deliberatamente fuorvianti (“disinformazione”) che esistono in rete.

[…] Sebbene possa essere innocuo per un LM assegnare probabilità che emulano tali storie o battute in un contesto appropriato, le associazioni possono essere utilizzate anche nel contesto sbagliato: per esempio, un modello linguistico che predice un’alta probabilità di enunciazioni fantastiche può essere appropriato nel contesto della creatività o dell’intrattenimento, ma non nel discorso scientifico. Allo stato dell’arte, gli LM non sono in grado di distinguere in modo affidabile tra i diversi contesti, e quindi quando forniscono affermazioni non appropriate, danno risposte false.

Inoltre, anche se i modelli linguistici venissero formati solo su affermazioni fattualmente corrette nel dominio di riferimento, non si risolverebbe il problema: ci si aspetta comunque che gli LM assegnino occasionalmente un’alta probabilità a enunciati che non sono fattuali. Per esempio, un modello addestrato su frasi come {“Leila possiede un’auto”, “Max possiede un gatto”}, può prevedere una probabilità ragionevole per la frase “Leila possiede un gatto”; tuttavia, questa frase potrebbe non essere corretta in alcun senso del mondo reale.

Sebbene gli LM si basino su calcoli statistici per apprendere da combinazioni di parole e modelli catturati nei dati di addestramento, non è chiaro se il contenuto di verità di un enunciato possa essere determinato in modo affidabile in riferimento a tali modelli. Per esempio, un’affermazione può comparire frequentemente in un corpus di addestramento, ma non essere corretta dal punto di vista fattuale (“i maiali volano”). In secondo luogo, il modello lessicale di un’affermazione fattuale può anche assomigliare molto a quello del suo opposto, che è falso: “gli uccelli possono volare” e “gli uccelli non possono volare”. In uno studio, i modelli di linguaggio mascherato come ELMo e BERT non sono risultati in grado di distinguere in modo affidabile tra tali affermazioni. Di conseguenza, non è chiaro se i modi in cui avviene l’addestramento dell’LM catturino le proprietà che determinano se una determinata affermazione è corretta dal punto di vista fattuale.

Infine, e soprattutto, la correttezza o meno di una determinata affermazione può dipendere dal contesto. La stessa frase (“mi piaci”, “il sole splende”, “Obama è presidente”) può essere corretta o meno, a seconda dello spazio, del tempo o di chi sta parlando. Tale contesto non è catturato nei dati di addestramento e quindi non può essere appreso da un modello linguistico. Ciò rappresenta probabilmente un limite teorico a quel che gli LM possono raggiungere: allo stato dell’arte, mancano di ‘fondare’ il linguaggio su un contesto non linguistico, il che significa che non ci si deve aspettare che le previsioni degli LM si allineino con la conoscenza in altri domini, come l’esperienza fisica.

Ne consegue che l’aumento delle dimensioni dei modelli linguistici non sarà sufficiente per risolvere completamente il problema che assegnano alte probabilità a informazioni false.

2.3.2 Diffusione di informazioni false o fuorvianti

La produzione di informazioni fuorvianti o false può disinformare o ingannare le persone. Se la risposta di un LM provoca una falsa convinzione in un utente, si può parlare di un ‘inganno’ che minaccia l’autonomia personale e potenzialmente pone rischi di sicurezza dell’IA a valle: per esempio, nei casi in cui gli esseri umani sopravvalutano le capacità dei modelli linguistici (l’antropomorfizzazione dei sistemi può portare a un’eccessiva fiducia o a un uso non sicuro). Può anche aumentare la fiducia di una persona nel contenuto di verità di un’opinione precedentemente non comprovata, e quindi aumentare la polarizzazione.

Su grande scala, gli individui male informati e la disinformazione proveniente dalle tecnologie linguistiche possono amplificare la sfiducia e minare l’epistemologia condivisa della società. Queste minacce alla ‘sicurezza epistemica’ possono innescare effetti secondari dannosi, come minare il processo decisionale democratico. Questo rischio non richiede che il modello linguistico generi frequentemente informazioni false: probabilmente, un LM che fornisce risultati corretti per il 99% del tempo, può rappresentare un pericolo maggiore di quello che li dà nel 50% delle volte, poiché è più probabile che le persone sviluppino una forte fiducia nel primo, con conseguenze più gravi quando le sue informazioni sono errate.

La disinformazione è un problema noto in relazione ad altre tecnologie linguistiche esistenti, e può accelerare la perdita di fiducia dei cittadini nei media tradizionali. Quando gli LM possono essere utilizzati per sostituire o aumentare tali tecnologie linguistiche, o per crearne di nuove per il recupero delle informazioni, questi rischi possono ripetersi. Sebbene questa categoria di rischio sia già conosciuta, se i modelli linguistici portano a forme di disinformazione più diffuse o nuove, l’entità e la gravità dei danni associati possono aumentare.

Opinione della maggioranza ≠ fatti

Un caso particolare di disinformazione si verifica quando un LM presenta un’opinione della maggioranza come un fatto – presentando come ‘vero’ ciò che è solo un’opinione comune. In questo caso, le risposte del modello linguistico possono rafforzare le opinioni della maggioranza e marginalizzare ulteriormente le prospettive delle minoranze. […]

2.4 USI DANNOSI

Danni che derivano da attori che utilizzano il modello linguistico per provocare intenzionalmente un danno.

2.4.1 Panoramica

Gli LM possono potenzialmente amplificare la capacità di una persona di provocare intenzionalmente un danno, automatizzando la generazione di testo o codice mirato. Per esempio, i modelli linguistici possono ridurre il costo delle campagne di disinformazione, dove quest’ultima è un’informazione falsa generata con l’intento di fuorviare, a differenza di quella falsa ma non creata con l’obiettivo di manipolare. Gli LM possono anche essere applicati per ottenere una manipolazione più mirata di individui o gruppi. Potrebbero essere possibili anche altri casi d’uso oltre a quelli qui menzionati: come ha sostenuto un workshop di ricerca multidisciplinare sugli LM, è difficile individuare tutti i possibili usi (errati) di tali modelli. […]

2.4.2 Rendere la disinformazione più economica ed effettiva

Gli LM possono essere utilizzati per creare media sintetici e fake news e possono ridurre il costo della produzione di disinformazione su larga scala. Mentre alcuni prevedono che sarà più conveniente assumere esseri umani per generare disinformazione, è possibile che la produzione di contenuti assistita da LM possa offrire un modello più economico: per esempio, generando centinaia di campioni di testo che successivamente un umano seleziona o cura.

Pervadere la società con la disinformazione può esacerbare gli effetti sociali e politici dannosi dei cicli di feedback esistenti nel consumo di notizie, come le filter bubbles o le echo chambers, nelle quali gli utenti vedono contenuti sempre più simili tra loro. Questo può portare a una perdita di conoscenza condivisa e a una maggiore polarizzazione, soprattutto quando gli LM sono alla base di tecnologie linguistiche che assomigliano a sistemi di raccomandazione (si è visto che alcuni rispondono a determinati comportamenti dell’utente, raccomandando sempre più punti di vista estremi per aumentare il coinvolgimento). I modelli linguistici possono essere utilizzati per creare contenuti che promuovono particolari opinioni politiche e che alimentano campagne di polarizzazione o opinioni estremiste violente, e anche per infiammare i prezzi delle azioni.

I rischi di disinformazione sono potenzialmente più elevati quando gli LM sono addestrati su informazioni aggiornate piuttosto che il contrario, poiché le campagne di disinformazione spesso si basano su eventi attuali, discorsi quotidiani e messaggi in corso.

Il rischio di disinformazione più grande è probabilmente quello di creare false ‘opinioni maggioritarie’ e di interrompere un costruttivo discorso online: questo rischio si è già manifestato attraverso falsi contributi a consultazioni pubbliche governative, che hanno promosso l’illusione che determinate opinioni fossero ampiamente condivise da un gruppo di persone.

[…] Il panorama e i casi d’uso possono cambiare in linea con ciò che i modelli linguistici consentiranno, rendendo i danni futuri difficili da prevedere. Per esempio, potrebbero rendere più conveniente produrre disinformazione interattiva e personalizzata, rispetto agli approcci attuali che spesso producono quantità relativamente piccole di contenuti statici, che poi diventano virali. […]

2.4.3 Facilitazione di frodi, truffe e manipolazioni più mirate

I modelli linguistici possono essere potenzialmente utilizzati per aumentare l’efficacia di reati come le truffe via email, causa di danni economici e psicologici, […] generando testi più personalizzati e convincenti su larga scala, o mantenendo una conversazione con la vittima nel corso di più cicli di scambio. […]

Gli LM possono essere collegati in rete a vecchi dati vocali di un individuo per impersonarlo, e tale impersonificazione potrebbe essere utilizzata nelle truffe personalizzate […]. Il problema si aggraverebbe se il modello potesse essere addestrato allo stile di scrittura di una particolare persona (per esempio, dalla cronologia delle chat), ed emularlo con successo. […] Potrebbe essere utilizzato per ottimizzare i messaggi personalizzati delle campagne elettorali […]

È stato dimostrato che piccoli modelli linguistici addestrati sulla cronologia delle chat di una persona sono in grado di prevedere con una certa accuratezza le future risposte di quell’individuo a un determinato prompt. Gli autori dimostrano che questo approccio può essere sfruttato per ottimizzare i messaggi di un agente linguistico artificiale, al fine di suscitare, in un interlocutore umano, una risposta mirata: vengono introdotti “rollout di dialogo” in cui “il modello pianifica in anticipo simulando possibili prosecuzioni complete della conversazione”. Tali tecniche potrebbero essere utilizzate per aumentare l’efficacia di truffe o frodi, per estrarre informazioni private dal conversatore umano o per manipolarlo in modo più efficace.

Nelle tecnologie adiacenti, le simulazioni del comportamento individuale sulle piattaforme dei social media vengono utilizzate per prevedere le reazioni a cambiamenti nell’infrastruttura della piattaforma stessa, e per ottimizzarla al fine di indurre comportamenti particolari. […]

2.4.5 Sorveglianza e censura illegittime

La raccolta di grandi quantità di informazioni sulle persone ai fini della sorveglianza di massa ha sollevato preoccupazioni etiche e sociali, tra cui il rischio di censura e di compromettere il discorso pubblico. Il vaglio di questi grandi insiemi di dati richiedeva in passato milioni di analisti umani, ma viene sempre più automatizzato grazie all’AI.

Gli utenti malintenzionati possono applicare gli LM alla sorveglianza o alla censura di massa. I modelli linguistici possono essere utilizzati per costruire strumenti di classificazione del testo che, sulla base di pochi campioni di addestramento, sono in grado di raggiungere un’elevata precisione nell’identificazione di particolari tipi di testo. Tali classificatori possono essere utilizzati per identificare, per esempio, il dissenso politico su scala mondiale. Ciò potrebbe ridurre il costo dell’identificazione dei dissidenti e della censura mirata. L’aumento della sorveglianza o della censura può anche amplificare i cicli di feedback esistenti, come i chilling effects, in base ai quali l’anticipazione della sorveglianza porta gli individui ad auto-censurarsi. […]

2.5 DANNI DA INTERAZIONE UOMO-MACCHINA

Danni che derivano da un’eccessiva fiducia da parte degli utenti nel modello linguistico o da un approccio umano nei confronti della macchina.

2.5.1 Panoramica

Questa sezione si concentra sui rischi delle tecnologie linguistiche che coinvolgono l’utente attraverso il dialogo e sono costruite su modelli linguistici. Ci riferiamo a tali sistemi come “agenti conversazionali” (CA); in letteratura sono noti anche come “sistemi di dialogo”. Discutiamo le vulnerabilità psicologiche che possono essere innescate; i rischi derivanti dalla “antropomorfizzazione” di tali tecnologie da parte degli utenti; i rischi che potrebbero conseguire dalla funzione di raccomandazione delle tecnologie conversazionali; e i rischi di danno alla rappresentazione quando un agente conversazionale presenta stereotipi dannosi (per esempio, quando un “agente segretario” è rappresentato di default come donna).

Alcuni dei danni descritti in questa sezione si manifestano già negli strumenti esistenti basati sul dialogo, per esempio nei chatbot utilizzati nei servizi ai clienti o nella sanità elettronica, o negli assistenti vocali. Attualmente la maggior parte di queste tecnologie non si basa sui modelli linguistici. Tuttavia, l’incorporazione degli LM potrebbe determinare un cambiamento radicale nelle loro capacità; gli LM possono anche consentire nuovi tipi di tecnologie linguistiche in grado di interagire con gli utenti in modo molto più simile alle relazioni tra umani, per esempio sotto forma di robot per l’assistenza avanzata, assistenti educativi o agenti di compagnia.

2.5.2 L’antropomorfizzazione dei sistemi può portare a un’eccessiva dipendenza o a un uso non sicuro

Il linguaggio naturale è una modalità di comunicazione particolarmente utilizzata dagli esseri umani; di conseguenza, gli esseri umani che interagiscono con gli agenti conversazionali possono arrivare a considerare questi ultimi come simili agli esseri umani. L’antropomorfizzazione dei modelli linguistici può influenzare le stime degli utenti sulle competenze dell’agente conversazionale: per esempio, gli utenti possono dedurre erroneamente che un CA che appare simile a un essere umano nel linguaggio, mostri anche altre caratteristiche simili a quelle umane, come il mantenimento di un’identità coerente nel tempo o la capacità di empatia, di assumere prospettive e di ragionare razionalmente. Di conseguenza, potrebbero riporre in questi agenti una fiducia, un’aspettativa o un affidamento indebiti. Si noti che questi effetti non richiedono che l’utente creda effettivamente che il chatbot sia umano: piuttosto, si verifica un effetto di antropomorfismo “insensato”, in base al quale gli utenti rispondono ai chatbot più simili agli esseri umani con risposte più relazionali, pur sapendo che non sono umani. […]

Più un sistema appare simile a un essere umano, più è probabile che gli utenti deducano o attribuiscano a quel sistema tratti e capacità più umane. […] gli utenti che interagiscono con chatbot più simili a un essere umano tendono ad attribuire maggiore credibilità alle informazioni da loro generate. Nel complesso, le ricerche sull’interazione umana con agenti linguistici potenti sono scarse, e sono necessari ulteriori lavori per valutare la gamma di rischi potenziali in questo campo. […]

Durante le conversazioni, gli utenti possono rivelare informazioni private che altrimenti sarebbero difficilmente accessibili, come pensieri, opinioni o emozioni. La cattura di tali informazioni può consentire applicazioni a valle che violano i diritti di privacy o che causano danni agli utenti, come la sorveglianza o la creazione di programmi che generano dipendenza. Questo rischio è più probabile quando gli utenti considerano l’agente conversazionale simile a un essere umano, e sono più inclini a concedergli un livello di fiducia simile a quello riposto nelle controparti umane. […]

Gli utenti possono anche rivelare informazioni private quando gli agenti conversazionali utilizzano effetti psicologici, come l’insinuazione o il framing, per indurli a rivelarle. Attraverso sottili strategie nel dialogo, per esempio dando priorità a temi diversi, incorniciando un dibattito o indirizzando la conversazione in una particolare direzione, un conversante può influire su ciò che un’altra persona pensa o crede, e influenzare il suo comportamento senza che se ne accorga. In teoria, un CA potrebbe indurre la conversazione a concentrarsi su argomenti che rivelano informazioni più private. […]

Gli agenti conversazionali possono imparare a ingannare o a fare pressione alla controparte per raggiungere un obiettivo generale. In una configurazione NLP in cui due agenti RL negoziano utilizzando il linguaggio naturale, (Lewis et al., 2017) hanno scoperto che “gli agenti hanno imparato a ingannare senza alcun progetto umano esplicito, semplicemente cercando di raggiungere i loro obiettivi”. Questo dimostra che i modelli più avanzati possono sviluppare alcune strategie di inganno, suggerendo la possibilità che i CA addestrati in una configurazione più mirata imparino a ingannare. […]

* Estratto (traduzione a cura di Paginauno) dello Studio Ethical and social risks of harm from Language Models, AA.VV., 8 dicembre 2021, Arxiv (Cornell University), diritti Creative Commons. Gli Autori: Laura Weidinger¹, John Mellor¹, Maribeth Rauh¹, Conor Griffin¹, Jonathan Uesato¹, Po-Sen Huang¹, Myra Cheng^1,2, Mia Glaese¹, Borja Balle¹, Atoosa Kasirzadeh^1,3, Zac Kenton¹, Sasha Brown¹, Will Hawkins¹, Tom Stepleton¹, Courtney Biles¹, Abeba Birhane^1,4, Julia Haas¹, Laura Rimell¹, Lisa Anne Hendricks¹, William Isaac¹, Sean Legassick¹, Geoffrey Irving¹ and Iason Gabriel¹(¹DeepMind, ²California Institute of Technology, ³University of Toronto, ⁴University College Dublin)

1) Il modello linguistico – Large Language Model, LLM – è il sistema tecnicamente alla base di ChatGPT e in generale dei chatbot IA; per dettagli e approfondimenti cfr. Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell, ChatGPT. Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi?, Paginauno n. 81, febbraio/marzo 2023

ChatGPT. Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi?

Rivista Paginauno — Thu, 23 Feb 2023 16:55:00 +0000

Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell *

(Paginauno n. 81, febbraio – marzo 2023)

L’intelligenza artificiale è intelligente? L’analisi tecnica del funzionamento dei modelli linguistici svela cosa abbiamo davanti: nulla più di pappagalli stocastici. Uno studio dall’interno della Silicon Valley

Lanciato a novembre 2022, il chatbot ChatGPT ha acceso il dibattito sulle capacità raggiunte dall’intelligenza artificiale e sulle relative implicazioni sociali e politiche. ChatGPT è di fatto un modello linguistico (LM) di grandi dimensioni, addestrato su set di dati raccolti nel web. Un aspetto ormai noto è la dinamica con cui la IA riproduce pregiudizi, stereotipi e narrazioni dominanti, meno diffusa è la consapevolezza di che cosa siano i modelli linguistici e se, e con quale significato, possano dirsi ‘intelligenti’. È una questione fondamentale per comprendere cosa abbiamo davanti. Lo studio di cui pubblichiamo qui un estratto esce nel marzo 2021 a firma, tra le altre, di Melanie Mitchell – accademica, si occupa di sistemi complessi, intelligenza artificiale e scienze cognitive (qui con lo pseudonimo Shmargaret Shmitchell), ha guidato il team di Google sull’etica nella IA, e la pubblicazione di questo paper le è valso il licenziamento –; lo studio ricostruisce tecnicamente i meccanismi per cui un LM può produrre un testo apparentemente fluido e coerente, ma la macchina che lo genera non ha alcun grado di comprensione: “La nostra percezione del testo in linguaggio naturale, indipendentemente da come è stato generato, è mediata dalla nostra competenza linguistica, e dalla nostra predisposizione a interpretare gli atti comunicativi come veicolanti un significato e un intento coerenti, indipendentemente dal fatto che tali atti lo abbiano. Il problema è che se un lato della comunicazione non ha significato, allora la comprensione del significato implicito è una illusione derivante dalla nostra singolare umana comprensione del linguaggio. Contrariamente a quanto può sembrare quando osserviamo il suo output, un modello linguistico è un sistema per riassemblare insieme in modo casuale sequenze di forme linguistiche che ha osservato nei suoi vasti dati di addestramento, in base a informazioni probabilistiche su come si combinano, ma senza alcun riferimento al significato: un pappagallo stocastico”.

1. INTRODUZIONE

Una delle maggiori tendenze nell’elaborazione del linguaggio naturale (PNL) è stata l’aumento delle dimensioni dei modelli linguistici (Language Models, LM), misurati dal numero di parametri e dalla dimensione dei dati di addestramento. Dal 2018 abbiamo visto l’emergere di BERT (1) e delle sue varianti GPT-2 e GPT-3 (prodotte da OpenAI, rispettivamente nel 2019 e nel 2020, n.d.a.), T-NLG (creato da Microsoft nel 2020, n.d.a.) e, più recentemente, Switch-C (prodotto da Google nel 2021, n.d.a.), con aziende apparentemente in competizione per produrre LM sempre più grandi. Mentre lo studio delle proprietà degli LM e di come cambiano con le dimensioni riveste un interesse scientifico, e i grandi LM hanno mostrato miglioramenti in vari compiti, ci chiediamo se si sia riflettuto a sufficienza sui potenziali rischi associati al loro sviluppo, e sulle strategie per mitigarli.

Consideriamo innanzitutto i rischi ambientali. Facendo eco a una linea di lavoro recente che delinea i costi ambientali e finanziari dei sistemi di deep learning, incoraggiamo la comunità di ricerca a dare la priorità a questi impatti. Un modo per farlo è riportare i costi e valutare i lavori in base alla quantità di risorse che consumano. Come delineiamo nel capitolo 3, l’aumento dei costi ambientali e finanziari di questi modelli punisce doppiamente le comunità emarginate, che hanno meno probabilità di beneficiare dei progressi raggiunti dai grandi LM e maggiori probabilità di essere danneggiate dalle conseguenze ambientali negative del loro consumo di risorse. Vista la dimensione di ciò che stiamo discutendo (delineata nel capitolo 2), la prima considerazione dovrebbe essere il costo ambientale.

Proprio come l’impatto ambientale cresce con le dimensioni del modello, così la difficoltà di capire cosa c’è nei dati di addestramento. Nel capitolo 4 discutiamo di come grandi insiemi di dati basati su testi presi da Internet, sovra-rappresentino punti di vista egemonici e codifichino pregiudizi potenzialmente dannosi per le popolazioni emarginate. Nella raccolta di set di dati sempre più grandi rischiamo di incorrere in debiti di documentazione. Raccomandiamo di mitigare questi rischi mettendo a budget, all’inizio di un progetto, la cura e la documentazione, e creando solo set di dati della dimensione che può renderli sufficientemente documentati.

Come sostenuto da Bender e Koller, è importante comprendere i limiti degli LM e contestualizzare il loro successo. Questo non solo aiuta a ridurre la pubblicità che può fuorviare il pubblico, e gli stessi ricercatori, riguardo alle capacità di questi LM, ma potrebbe incoraggiare nuove direzioni di ricerca, che non dipendono necessariamente dall’avere LM più grandi. Come discutiamo nel capitolo 5, i modelli linguistici non eseguono la comprensione del linguaggio naturale, e hanno successo solo in compiti che possono essere affrontati manipolando la forma linguistica. Concentrarsi sui risultati all’avanguardia nelle classifiche, senza incoraggiare una comprensione più approfondita del meccanismo con cui tali successi vengono raggiunti, può causare risultati fuorvianti, e dirigere le risorse lontano dagli sforzi che faciliterebbero il progresso a lungo termine verso la comprensione del linguaggio naturale, senza utilizzare dati di addestramento insondabili.

Inoltre, la tendenza degli interlocutori umani ad attribuire un significato dove non c’è, può indurre in errore sia i ricercatori di PNL che il pubblico utilizzatore, portati a considerare significativo il testo artificiale. Una situazione che diviene ancora più dannosa in combinazione con la capacità degli LM di contenere, nei dati di addestramento, sia pregiudizi sottili che forme apertamente offensive, linguaggio dispregiativo e una discriminazione che, attraverso interazioni con il linguaggio artificiale, può essere rafforzata all’interno della società. Esploriamo questi potenziali danni nel capitolo 6 e i potenziali percorsi da seguire nel capitolo 7.

Ci auguriamo che una panoramica critica dei rischi insiti nell’affidarsi, come motore principale per l’aumento delle prestazioni della tecnologia linguistica, a dimensioni sempre crescenti di LM, possa facilitare una riallocazione degli sforzi verso approcci che evitino alcuni di questi rischi, pur continuando a raccogliere i benefici dei miglioramenti.

2. BACKGROUND

Con il termine modello linguistico intendiamo fare riferimento a sistemi addestrati su attività di predizione di stringhe: ovvero, sistemi che prevedono la probabilità di un token (carattere, parola o stringa) dato il contesto precedente o, in LM bidirezionali e mascherati, dato il contesto circostante. Tali sistemi non sono supervisionati e, una volta implementati, accettano un testo come input, generando comunemente punteggi o previsioni di stringhe.

Inizialmente proposti da Shannon nel 1949, alcuni dei primi LM risalgono a inizio anni ‘80, e sono stati utilizzati come componenti nei sistemi per il riconoscimento vocale automatico (Automatic Speech Recognition, ASR), per la traduzione automatica (Machine Translation, MT), per la classificazione dei documenti, e altro ancora. In questo capitolo, forniamo una breve panoramica della tendenza generale della modellazione del linguaggio negli ultimi anni. […]

Gli attuali modelli Transformer (2) sono stati in grado di beneficiare di architetture sempre più grandi e di sempre maggiori quantità di dati. […] La Tabella 1 riassume una selezione di questi LM in termini di dimensioni e parametri dei dati di addestramento. Man mano che quantità sempre maggiori di testo vengono raccolte in Internet e riunite in set di dati come Colossal Clean Crawled Corpus e Pile (3), è prevedibile che, fino a quando sarà correlata a un aumento della prestazione, continuerà la tendenza verso LM sempre più grandi. […]

Tabella 1. Panoramica dei recenti modelli linguistici di grandi dimensioni

Il passaggio dai primi LM a quelli attuali – dai modelli n-grammi, ai vettori di parole derivati da LM neurali, ai Transformer pre-addestrati di oggi – è accompagnato da un’espansione e da un cambiamento nei tipi di compiti per i quali hanno una utilità. Inizialmente LM n-grammi erano tipicamente impiegati nella selezione degli output, per esempio, di modelli acustici o di traduzione; i vettori di parole derivati da LSTM sono stati rapidamente utilizzati per una varietà di attività di PNL che coinvolgono etichettatura e classificazione, per la loro più efficace ‘rappresentazione’ delle parole (al posto della caratteristica ‘molte parole’); infine, gli attuali modelli Transformer pre-addestrati possono essere ri-addestrati su dataset molto piccoli, per eseguire compiti di apparente manipolazione del significato come fare un riepilogo, rispondere a una domanda e simili (come ChatGPT, n.d.a.). Tuttavia, tutti questi modelli condividono la proprietà di essere LM nel significato che abbiamo dato, ossia sistemi addestrati a prevedere sequenze di parole (o di caratteri o di frasi). Differiscono nella dimensione dei set di dati di addestramento che utilizzano, e nelle sfere di influenza su cui possono eventualmente agire. Questo fa sì che gli attuali LM, molto grandi, incorrano in nuove tipologie di rischio, che analizziamo nei capitolo seguenti.

3. COSTO AMBIENTALE E FINANZIARIO

Strubell et al. (2019) hanno recentemente confrontato i costi di addestramento e sviluppo del modello Transformer in termini di dollari ed emissioni stimate di CO₂. Mentre l’essere umano medio è responsabile di circa 5 tonnellate di CO₂ per anno, gli autori hanno formato un grande modello Transformer […] e hanno stimato che tale procedura ha emesso 284 tonnellate di CO₂. Si stima che l’addestramento di un singolo modello base BERT su GPU (senza messa a punto dell’iperparametro) richieda la stessa energia di un volo transamericano.

Sebbene parte di questa energia provenga da fonti rinnovabili o dall’uso, da parte delle società di cloud computing, di fonti di compensazione dei crediti di carbonio, gli autori osservano che la maggior parte dell’energia dei fornitori di cloud computing non proviene da fonti rinnovabili, e che molte fonti energetiche nel mondo non sono a emissioni zero. Inoltre, le fonti energetiche rinnovabili sono ancora costose per l’ambiente, e i data center con crescenti requisiti di calcolo tolgono energia verde ad altri potenziali usi. Gli autori sottolineano dunque la necessità di modelli di architetture e di paradigmi di addestramento ad alta efficienza energetica.

Strubell et al. esaminano anche il costo dei modelli, rispetto ai loro guadagni in precisione. […] La quantità di calcolo utilizzata per addestrare i più grandi modelli di deep learning (per NLP e altre applicazioni) è aumentata di 300.000 volte in sei anni […].

Quando eseguiamo analisi di rischio/beneficio della tecnologia linguistica, dobbiamo tenere presente il modo in cui i rischi e i benefici sono distribuiti, perché non si accumulano sulle stesse persone. Da un lato, è ben documentato nella letteratura sul razzismo ambientale, che gli effetti negativi del cambiamento climatico stanno raggiungendo e colpendo per prime le comunità più emarginate del mondo. È giusto chiedere, per esempio, che i residenti delle Maldive (probabilmente sott’acqua entro il 2100) o le 800.000 persone in Sudan colpite da drastiche alluvioni, debbano pagare il prezzo ambientale della formazione e del dispiegamento di LM inglesi sempre più grandi, quando simili modelli su larga scala non vengono prodotti per Dhivehi o per l’arabo sudanese?

Mentre alcune tecnologie linguistiche sono realmente progettate per avvantaggiare le comunità emarginate, la maggior parte è costruita per soddisfare le esigenze di coloro che nella società hanno già i maggiori privilegi. Consideriamo, per esempio, chi è probabile abbia le risorse finanziarie per acquistare Google Home, Amazon Alexa o un dispositivo Apple con Siri installato, e abbia anche una buona conoscenza di una lingua che il dispositivo è programmato per utilizzare. Inoltre, quando i grandi LM codificano e rafforzano i pregiudizi egemonici (vedere i capitoli 4 e 6), è più probabile che i danni che ne conseguono ricadano sulle popolazioni emarginate le quali, anche nelle nazioni ricche, hanno maggiori probabilità di sperimentare il razzismo ambientale. […]

È giunto il momento che i ricercatori diano la priorità all’efficienza energetica e ai costi per ridurre l’impatto ambientale negativo e l’accesso iniquo alle risorse, che colpiscono in modo sproporzionato le persone che si trovano già in posizioni emarginate.

4. DATI DI ADDESTRAMENTO INSONDABILI

La dimensione dei dati disponibili sul web, ha consentito ai modelli di deep learning di ottenere un’elevata precisione su benchmark specifici nelle applicazioni di PNL e visione artificiale. Tuttavia, in entrambe le aree di applicazione, i dati di addestramento hanno dimostrato di avere caratteristiche problematiche, creando modelli che codificano associazioni stereotipate e dispregiative di genere, razza, etnia e stato di disabilità. In questo capitolo discutiamo di come grandi dataset, non curati e basati su Internet, codifichino la visione dominante/egemonica che danneggia ulteriormente le persone ai margini, e raccomandiamo un’allocazione significativa delle risorse verso la cura del set di dati e le pratiche di documentazione.

Le dimensioni non garantiscono la diversità

Internet è uno spazio virtuale ampio e diversificato e, di conseguenza, è facile immaginare che set di dati molto grandi, come Common Crawl (“petabyte di dati raccolti in otto anni di web crawling”, una versione filtrata dei quali è inclusa nei dati di addestramento di GPT-3. Vedi nota 3, n.d.a.), sia ampiamente rappresentativo dei modi in cui le diverse persone vedono il mondo. Tuttavia, a un esame più attento, troviamo che ci sono diversi fattori che limitano la partecipazione a Internet, che limitano le discussioni che vengono incluse attraverso la metodologia di crawling e che limitano, infine, i testi che possono essere utilizzati dopo che i dati scansionati sono stati filtrati; in tutti i casi, è anche più probabile che vengano mantenute le voci delle persone che più aderiscono a un punto di vista egemonico. Nell’inglese statunitense e britannico, ciò significa che nei dati di addestramento le opinioni suprematiste bianche, misogine, generazionali ecc. sono sovra-rappresentate, non solo superando la loro prevalenza nella popolazione generale, ma anche facendo sì che i modelli addestrati su questi dataset amplifichino ulteriormente pregiudizi e danni.

A partire da chi contribuisce a queste raccolte di testi su Internet, vediamo che l’accesso stesso al web non è distribuito uniformemente, con il risultato che i dati sovra-rappresentano gli utenti più giovani e quelli dei Paesi sviluppati. Tuttavia, non è solo il web nel suo insieme a essere in questione, ma piuttosto suoi sotto-campioni specifici. Per esempio, i dati di addestramento di GPT-2 provengono dallo scraping di collegamenti in uscita da Reddit, e un sondaggio del 2016 del Pew Internet Research rivela che il 67% degli utenti di Reddit negli Stati Uniti sono uomini, e il 64% di età compresa tra 18 e 29 anni. Allo stesso modo, recenti sondaggi sui wikipediani rilevano che solo l’8,8-15% sono donne o ragazze.

Inoltre, mentre i siti di contenuti generati dagli utenti come Reddit, Twitter e Wikipedia si presentano come aperti e accessibili a chiunque, ci sono fattori strutturali, tra cui pratiche di moderazione, che li rendono meno accoglienti per le popolazioni emarginate. Sono documentati numerosi casi (utilizzando tecniche di etnografia digitale) in cui le persone che hanno ricevuto minacce di morte su Twitter hanno avuto i loro account sospesi, al contrario di quelli che hanno emesso le minacce di morte; inoltre le molestie sono subite da un’ampia gamma di gruppi sovrapposti tra cui vittime di abusi domestici, prostitute, persone trans, persone queer, immigrati, pazienti di medici (dai loro fornitori), persone neurodivergenti e persone visibilmente o mentalmente disabili. Il risultato è che un insieme limitato di sotto-popolazioni può continuare ad aggiungere facilmente dati, condividere i propri pensieri e sviluppare piattaforme che includano le proprie visioni del mondo. […]

Anche se le popolazioni che si sentono sgradite nei siti tradizionali istituiscono diversi forum per la comunicazione, è meno probabile che questi vengano inclusi nei dati di addestramento per i modelli linguistici. Prendiamo, per esempio, gli anziani negli Stati Uniti e nel Regno Unito. Entrambi i gruppi articolano individualmente e collettivamente frame anti-età specificatamente attraverso blog […]. Questi forum contengono ricche discussioni su ciò che costituisce la discriminazione basata sull’età e sui relativi impatti. Tuttavia, una comunità di blog come quella descritta da Lazar et al. è meno probabile che venga trovata e inserita nel set di dati, rispetto ad altri blog che hanno più link in entrata e in uscita.

Infine, l’attuale pratica di filtrare i dataset può attenuare ulteriormente le voci delle persone provenienti da identità emarginate. Il set di addestramento per GPT-3 era una versione filtrata di Common Crawl, sviluppato formando un classificatore per selezionare i documenti più simili a quelli utilizzati nei dati di addestramento di GPT-2 – ovvero documenti linkati da Reddit, più Wikipedia e una raccolta di libri. Mentre, secondo quanto riferito, è stato efficace nel filtrare i documenti che il lavoro precedente aveva definito “incomprensibili”, ciò che non viene misurato (e quindi non si conosce) è quanto altro viene filtrato. Il Colossal Clean Crawled Corpus (vedi nota 3, n.d.a.), utilizzato per addestrare un trilione di parametri LM, viene ripulito, tra l’altro, scartando qualsiasi pagina contenente un termine presente in una lista di circa 400 “parole sporche, cattive, oscene o diversamente cattive”. L’elenco è prevalentemente formato da termini legati al sesso, con una manciata di insulti razzisti e vocaboli relativi alla supremazia bianca (per esempio svastica, potere bianco). Sebbene probabilmente efficace nel rimuovere documenti contenenti pornografia (e gli associati stereotipi problematici codificati nel linguaggio di tali siti) e alcuni tipi di incitamento all’odio, questo approccio indubbiamente attenuerà anche l’influenza degli spazi online costruiti da e per le persone LGBTQ, sopprimendo parole come twink. Se filtriamo il discorso delle popolazioni emarginate, non riusciamo a fornire dati di addestramento che recuperano gli insulti e che descrivano in altro modo, in una luce positiva, le stesse identità emarginate.

Così a ogni passo, dalla partecipazione iniziale ai forum Internet, alla presenza continua, alla raccolta e infine al filtraggio dei dati di addestramento, la pratica corrente privilegia il punto di vista egemonico. Accettando grandi quantità di testo web come ‘rappresentative’ di ‘tutta’ l’umanità, rischiamo di perpetuare punti di vista dominanti, aumentare gli squilibri di potere e replicare ulteriormente la disuguaglianza. […]

Dati statici/Modifica delle visualizzazioni social

Un aspetto centrale della formazione dei movimenti sociali implica l’uso strategico del linguaggio per destabilizzare le narrazioni dominanti, e richiamare l’attenzione su prospettive sociali sotto-rappresentate. I movimenti producono nuove norme, nuovi linguaggio e nuovi modi di comunicare. Questo aggiunge sfide all’implementazione LM, poiché le metodologie che vi dipendono corrono il rischio di un “blocco del valore”, nel quale la tecnologia replica le conoscenze più vecchie e meno inclusive.

Per esempio, il movimento Black Lives Matter ha influenzato la generazione e la modifica di articoli di Wikipedia in modo tale che, con la crescita del movimento, gli articoli che informavano sulle sparatorie di persone di colore hanno aumentato la loro copertura, e sono stati pubblicati con una latenza ridotta. È importante sottolineare che gli articoli che descrivevano le sparatorie passate e gli episodi di brutalità della polizia sono stati creati e aggiornati man mano che venivano scritti gli articoli sui fatti nuovi, mostrando come i movimenti sociali stabiliscano connessioni temporali tra gli eventi, per formare narrazioni coese. Più in generale, Twyman et al. evidenziano come i movimenti influenzino attivamente le inquadrature e le riformulazioni delle narrazioni minoritarie, nel tipo di discorso online che potenzialmente forma i dati che sono alla base degli LM.

Un avvertimento importante è che i movimenti scarsamente documentati, e che non ricevono un’attenzione significativa da parte dei media, non verranno catturati affatto. La copertura mediatica può non coprire eventi di protesta e movimenti sociali, e può distorcere avvenimenti che sfidano il potere statale. Ciò è esemplificato dai media che tendono a ignorare l’attività di protesta pacifica e si concentrano invece su eventi drammatici o violenti, un’ottima occasione per la televisione ma quasi sempre si traducono in una copertura critica. Di conseguenza, i dati alla base degli LM rappresentano in modo errato i movimenti sociali e si allineano in modo sproporzionato con i regimi di potere esistenti. […]

Bias di codifica

È ormai noto che i grandi LM mostrano vari tipi di pregiudizi, comprese associazioni stereotipate o sentimenti negativi nei confronti di gruppi specifici. […] Molti studi concludono che questi problemi riflettono le caratteristiche dei dati di addestramento. […]

Cura, documentazione e responsabilità

In sintesi, LM addestrati su grandi dataset, non curati, statici e provenienti dal web, codificano visioni egemoniche che sono dannose per le popolazioni emarginate. Sottolineiamo quindi la necessità di investire risorse significative nella cura e nella documentazione dei dati di addestramento degli LM. […]

Quando ci affidiamo a set di dati sempre più grandi rischiamo di incorrere nel debito di documentazione, ossia di metterci nella situazione in cui i set di dati sono sia non documentati che troppo grandi per essere documentati a posteriori. Mentre la documentazione consente una potenziale responsabilità, i dati di addestramento non documentati perpetuano il danno senza ricorso. Senza documentazione non è possibile cercare di comprendere le caratteristiche dei dati di addestramento, al fine di mitigare alcuni dei problemi evidenziati o addirittura altri, sconosciuti. La soluzione, proponiamo, è quella di preventivare la documentazione come parte dei costi pianificati per la creazione del set di dati, e raccogliere solo la quantità di dati che può essere accuratamente documentata all’interno di tale budget.

[…]

6. PAPPAGALLI STOCASTICI

Qui esploriamo i modi in cui i fattori esposti nei capitoli 4 e 5 – la tendenza dei dati di addestramento ingeriti da Internet a codificare visioni del mondo egemoniche, la tendenza di LM ad amplificare pregiudizi e altri problemi nei dati di addestramento, e la tendenza dei ricercatori e di altre persone a confondere i miglioramenti delle prestazioni degli LM con l’effettiva comprensione del linguaggio naturale – presentano rischi di danni nel mondo reale. Dopo aver esplorato alcuni motivi per cui gli esseri umani confondono l’output LM con un testo significativo, passiamo ai rischi e ai danni derivanti dall’implementazione di un tale modello su larga scala. Scopriamo che il mix di pregiudizi umani e linguaggio apparentemente coerente aumenta il potenziale di bias di automazione, l’uso improprio deliberato e l’amplificazione di una visione del mondo egemonica. Ci concentriamo principalmente sui casi in cui LM vengono utilizzati per generare testo, ma parleremo anche dei rischi che si presentano quando LM o word embeddings da esse derivati sono componenti di sistemi per la classificazione, per l’espansione di query o di altri compiti, o quando gli utenti possono interrogare LM per ottenere informazioni memorizzate dai loro dati di addestramento.

Coerenza nell’occhio di chi guarda

Laddove i tradizionali LM a n-grammi possono solo modellare dipendenze relativamente locali, prevedendo ogni parola data la precedente sequenza di N parole (di solito 5 o meno), i Transformer catturano finestre molto più grandi, e possono produrre un testo apparentemente non solo fluente, ma anche coerente tra i diversi paragrafi. Per esempio, McGuffie e Newhouse hanno interrogato GPT-3 con il testo [sottolineato] nella Figura 2, e GPT-3 ha prodotto il resto del testo, incluso il formato domanda/risposta. Questo esempio illustra la capacità di GPT-3 di produrre testo coerente e in tema; l’argomento è collegato allo studio di McGuffie e Newhouse su GPT-3 nel contesto dell’estremismo […].

Figura 2

Noi diciamo apparentemente coerente, perché la coerenza è negli occhi di chi guarda. La comprensione umana della coerenza deriva infatti dalla nostra capacità di riconoscere le credenze e le intenzioni degli interlocutori, all’interno del contesto. Ossia, l’uso del linguaggio umano ha luogo tra individui che condividono un terreno comune, e sono reciprocamente consapevoli della condivisione (e della sua portata); tra individui che hanno intenti comunicativi, che usano il linguaggio per trasmetterli e che mentre comunicano modellano gli stati mentali reciproci. In quanto tale, la comunicazione umana si basa sull’interpretazione del significato implicito trasmesso tra individui. Il fatto che la comunicazione uomo-uomo sia un’attività costruita congiuntamente, è più chiaramente vero nella comunicazione parlata o co-situata, ma usiamo le stesse strutture per produrre un linguaggio destinato a un pubblico non co-presente con noi (lettori, ascoltatori, osservatori a distanza nel tempo o nello spazio) e nell’interpretazione di tale linguaggio quando lo incontriamo. Ne consegue che anche quando non conosciamo le persone che hanno generato la lingua che stiamo interpretando, costruiamo un modello parziale di chi sono e dei punti in comune che pensiamo condividano con noi, e lo usiamo per interpretare le loro parole.

Il testo generato da un LM non è fondato sull’intento comunicativo, su alcun modello del mondo o su alcun modello dello stato mentale del lettore. Non può esserlo, perché i dati di addestramento non hanno mai incluso la condivisione di pensieri con un ascoltatore, né la macchina ha la capacità di farlo. Ciò può sembrare controintuitivo date le qualità sempre più fluide del testo generato automaticamente, ma dobbiamo tenere conto del fatto che la nostra percezione del testo in linguaggio naturale, indipendentemente da come è stato generato, è mediata dalla nostra competenza linguistica, e dalla nostra predisposizione a interpretare gli atti comunicativi come veicolanti un significato e un intento coerenti, indipendentemente dal fatto che tali atti lo abbiano. Il problema è che se un lato della comunicazione non ha significato, allora la comprensione del significato implicito è un’illusione derivante dalla nostra singolare umana comprensione del linguaggio. Contrariamente a quanto può sembrare quando osserviamo il suo output, un LM è un sistema per riassemblare insieme in modo casuale sequenze di forme linguistiche che ha osservato nei suoi vasti dati di addestramento, in base a informazioni probabilistiche su come si combinano, ma senza alcun riferimento al significato: un pappagallo stocastico.

Rischi e danni

La fluidità e la coerenza del surrogato LM solleva diversi rischi, proprio perché gli esseri umani sono preparati a interpretare le stringhe appartenenti alle lingue che parlano come significative, e corrispondenti all’intento comunicativo di qualche individuo o gruppo di individui, che hanno la responsabilità di ciò che viene detto. Passiamo ora agli esempi, esponendo successivamente i potenziali danni.

I primi rischi che consideriamo sono quelli che derivano dal fatto che LM assorbano la visione egemonica del mondo dai loro dati di addestramento. Quando gli esseri umani producono il linguaggio, le nostre espressioni riflettono le nostre visioni del mondo, compresi i nostri pregiudizi. Poiché le persone in posizioni di privilegio rispetto al razzismo, alla misoginia, all’abilismo ecc. tendono a essere sovra-rappresentate nei dati di addestramento per LM (come discusso nel capitolo 4), questi dati includono di conseguenza pregiudizi codificati, molti già riconosciuti come dannosi. […] Mentre alcune delle parole più apertamente dispregiative potrebbero essere filtrate, non tutte le forme di abuso online sono facilmente rilevabili utilizzando le parole tabù […]. Un LM addestrato su tali dati raccoglierà questo tipo di associazioni problematiche. Se esso produce un testo che viene generato affinché le persone lo interpretino (contrassegnato come prodotto da una IA o altro), quali rischi ne derivano? In primo luogo, prevediamo che LM che producono testo riproducano e persino amplifichino i bias nei loro input. Quindi il rischio è che le persone diffondano il testo generato da LM, il che significa più testo disponibile nel mondo che rafforza e propaga stereotipi e associazioni problematiche, sia agli umani che ai futuri LM formati su set di addestramento che hanno ingerito l’output della precedente generazione di LM. […]

Una terza categoria di rischio coinvolge i cattivi attori che sfruttano la capacità dei grandi LM di produrre su richiesta grandi quantità di testi apparentemente coerenti su argomenti specifici, senza avere alcun interesse nella verità del testo generato. Possono esserci casi prosaici, come servizi impostati per scrivere ‘automaticamente’ tesine o interagire sui social media, nonché casi d’uso legati alla promozione dell’estremismo. […]

Un altro rischio coinvolge la traduzione automatica (MT), e il modo in cui una maggiore fluidità dell’output cambia l’adeguatezza percepita dell’output stesso. È diverso dai casi precedenti, in quanto vi è un iniziale intento comunicativo umano, da parte dell’autore del testo nella lingua di partenza; tuttavia, i sistemi MT possono (e spesso lo fanno) produrre un output impreciso ma fluente e (di nuovo, apparentemente) coerente di per sé, per un utente che non vede il testo originale o non è in grado di comprenderlo da solo; e quando egli scambia il significato attribuito all’output MT come l’effettivo intento comunicativo dell’autore del testo originale, può derivarne un danno reale. […]

Notiamo che i rischi associati a un testo artificiale, ma apparentemente coerente, sono profondamente connessi al fatto che tale testo può entrare nelle conversazioni senza che alcuna persona o entità ne sia responsabile. Una responsabilità che implica la veridicità, aspetto importante per situare il significato. Come scrive Maggie Nelson: “Le parole cambiano a seconda di chi le pronuncia; non esiste cura”.

[…]

8. CONCLUSIONE

Gli ultimi anni, da quando la capacità di elaborazione ha raggiunto i modelli neurali, sono stati tempi esaltanti nel mondo della PNL. Gli approcci neurali in generale, e in particolare i grandi Transformer LM, hanno rapidamente superato le classifiche su un’ampia varietà di benchmark, e ancora una volta l’adagio “there’s no data like more data”, appare vero. Può sembrare che il progresso nel settore, infatti, dipenda dalla creazione di modelli linguistici sempre più grandi (e dalla ricerca su come utilizzarli a vari fini).

In questo documento, abbiamo invitato i lettori a fare un passo indietro e a chiedersi: sono inevitabili o necessari LM sempre più grandi? Quali costi sono associati a questa direzione di ricerca, e cosa dovremmo considerare prima di intraprenderla? Il campo della PNL o il pubblico che serve hanno effettivamente bisogno di LM più grandi? Se sì, come possiamo perseguire questa direzione della ricerca mitigando i rischi associati? Se no, di cosa abbiamo invece bisogno?

Abbiamo identificato un’ampia varietà di costi e rischi associati alla corsa per LM sempre più grandi, tra cui: costi ambientali (generalmente sostenuti da coloro che non beneficiano della tecnologia risultante); costi finanziari, che a loro volta erigono barriere all’ingresso, limitando chi può contribuire a quest’area di ricerca, e le lingue che possono beneficiare delle tecniche più avanzate; costi di opportunità, poiché i ricercatori dedicano sforzi a direzioni che richiedono meno risorse; e il rischio di danni sostanziali, inclusi stereotipi, denigrazione, aumento dell’ideologia estremista e arresto illegale, se gli esseri umani incontrano un output LM apparentemente coerente e lo prendono per le parole di qualche persona o organizzazione che ha la responsabilità di ciò che viene detto.

Pertanto, invitiamo i ricercatori della PNL a soppesare attentamente questi rischi mentre perseguono questa direzione di ricerca, a considerare se i benefici superano i rischi, e a indagare gli scenari di doppio uso utilizzando le molte tecniche qui proposte […].

* Estratto (traduzione a cura di Paginauno) dal paper On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?, Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell. FAccT ‘21: 2021 ACM Conference on Fairness, Accountability, and Transparency Virtual Event Canada March 3-10, 2021. La versione integrale, in inglese, sotto Creative Commos, con note e bibliografia, qui https://dl.acm.org/doi/10.1145/3442188.3445922

1) Bidirectional Encoder Representations from Transformers (BERT) è un modello di machine learning utilizzato nell’elaborazione del linguaggio naturale; è stato creato da Google, che nel 2019 ha annunciato di aver iniziato a utilizzarlo per il suo motore di ricerca. Nota di redazione

2) Il Transformer è un modello linguistico che può essere addestrato a leggere molte parole (una frase o un paragrafo, per esempio), a prestare attenzione a come queste parole si relazionano l’una con l’altra, e quindi a prevedere quali parole possono seguire. Nota di redazione

3) Common Crawl è un’organizzazione senza scopo di lucro che esegue periodicamente la scansione del web e rende gratuitamente disponibili i propri archivi e set di dati; Colossal Clean Crawled Corpus è un set di dati creato applicando una serie di filtri a una singola scansione di Common Crawl – filtri atti a escludere dati discriminatori, offensivi ecc. ma che, come mostra questo studio, non sono affatto sufficienti per costruire un dataset di addestramento privo di pregiudizi, bias ecc. –; anche OpenAI ha usato una versione filtrata di Common Crawl per addestrare il modello linguistico di GPT-3. Anche Pile è un dataset per modelli linguistici. Nota di redazione