Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell *
L’intelligenza artificiale è intelligente? L’analisi tecnica del funzionamento dei modelli linguistici svela cosa abbiamo davanti: nulla più di pappagalli stocastici. Uno studio dall’interno della Silicon Valley
Lanciato a novembre 2022, il chatbot ChatGPT ha acceso il dibattito sulle capacità raggiunte dall’intelligenza artificiale e sulle relative implicazioni sociali e politiche. ChatGPT è di fatto un modello linguistico (LM) di grandi dimensioni, addestrato su set di dati raccolti nel web. Un aspetto ormai noto è la dinamica con cui la IA riproduce pregiudizi, stereotipi e narrazioni dominanti, meno diffusa è la consapevolezza di che cosa siano i modelli linguistici e se, e con quale significato, possano dirsi ‘intelligenti’. È una questione fondamentale per comprendere cosa abbiamo davanti. Lo studio di cui pubblichiamo qui un estratto esce nel marzo 2021 a firma, tra le altre, di Melanie Mitchell – accademica, si occupa di sistemi complessi, intelligenza artificiale e scienze cognitive (qui con lo pseudonimo Shmargaret Shmitchell), ha guidato il team di Google sull’etica nella IA, e la pubblicazione di questo paper le è valso il licenziamento –; lo studio ricostruisce tecnicamente i meccanismi per cui un LM può produrre un testo apparentemente fluido e coerente, ma la macchina che lo genera non ha alcun grado di comprensione: “La nostra percezione del testo in linguaggio naturale, indipendentemente da come è stato generato, è mediata dalla nostra competenza linguistica, e dalla nostra predisposizione a interpretare gli atti comunicativi come veicolanti un significato e un intento coerenti, indipendentemente dal fatto che tali atti lo abbiano. Il problema è che se un lato della comunicazione non ha significato, allora la comprensione del significato implicito è una illusione derivante dalla nostra singolare umana comprensione del linguaggio. Contrariamente a quanto può sembrare quando osserviamo il suo output, un modello linguistico è un sistema per riassemblare insieme in modo casuale sequenze di forme linguistiche che ha osservato nei suoi vasti dati di addestramento, in base a informazioni probabilistiche su come si combinano, ma senza alcun riferimento al significato: un pappagallo stocastico”.
1. INTRODUZIONE
Una delle maggiori tendenze nell’elaborazione del linguaggio naturale (PNL) è stata l’aumento delle dimensioni dei modelli linguistici (Language Models, LM), misurati dal numero di parametri e dalla dimensione dei dati di addestramento. Dal 2018 abbiamo visto l’emergere di BERT (1) e delle sue varianti GPT-2 e GPT-3 (prodotte da OpenAI, rispettivamente nel 2019 e nel 2020, n.d.a.), T-NLG (creato da Microsoft nel 2020, n.d.a.) e, più recentemente, Switch-C (prodotto da Google nel 2021, n.d.a.), con aziende apparentemente in competizione per produrre LM sempre più grandi. Mentre lo studio delle proprietà degli LM e di come cambiano con le dimensioni riveste un interesse scientifico, e i grandi LM hanno mostrato miglioramenti in vari compiti, ci chiediamo se si sia riflettuto a sufficienza sui potenziali rischi associati al loro sviluppo, e sulle strategie per mitigarli.
Consideriamo innanzitutto i rischi ambientali. Facendo eco a una linea di lavoro recente che delinea i costi ambientali e finanziari dei sistemi di deep learning, incoraggiamo la comunità di ricerca a dare la priorità a questi impatti. Un modo per farlo è riportare i costi e valutare i lavori in base alla quantità di risorse che consumano. Come delineiamo nel capitolo 3, l’aumento dei costi ambientali e finanziari di questi modelli punisce doppiamente le comunità emarginate, che hanno meno probabilità di beneficiare dei progressi raggiunti dai grandi LM e maggiori probabilità di essere danneggiate dalle conseguenze ambientali negative del loro consumo di risorse. Vista la dimensione di ciò che stiamo discutendo (delineata nel capitolo 2), la prima considerazione dovrebbe essere il costo ambientale.
Proprio come l’impatto ambientale cresce con le dimensioni del modello, così la difficoltà di capire cosa c’è nei dati di addestramento. Nel capitolo 4 discutiamo di come grandi insiemi di dati basati su testi presi da Internet, sovra-rappresentino punti di vista egemonici…
Continua a leggere acquistando il numero 81
copia digitale PDF: 3,00 euro
copia cartacea: 10,00 euro
* Estratto (traduzione a cura di Paginauno) dal paper On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?, Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell. FAccT ‘21: 2021 ACM Conference on Fairness, Accountability, and Transparency Virtual Event Canada March 3-10, 2021
1) Bidirectional Encoder Representations from Transformers (BERT) è un modello di machine learning utilizzato nell’elaborazione del linguaggio naturale; è stato creato da Google, che nel 2019 ha annunciato di aver iniziato a utilizzarlo per il suo motore di ricerca. Nota di redazione