Tribunali USA, la sentenza la detta un algoritmo: da anni big data e intelligenza artificiale aiutano i giudici nelle decisioni pre e post processo: come operano gli algoritmi predittivi, privati e segreti, contro cui nulla vale appellarsi
“Ti stanno osservando. Sondando. Tracciando. Mirando. Ogni tua ricerca su Internet viene registrata. Ogni tuo acquisto presso un negozio documentato. Ogni tuo spostamento mappato. Sanno quanto velocemente guidi, qual è il tuo cereale preferito o la taglia dei tuoi vestiti. Conoscono la tua situazione finanziaria, tutti i tuoi lavori passati, il tuo limite di credito. Conoscono le tue preoccupazioni per la salute, le tue preferenze di lettura e i tuoi modelli di voto politico. Conoscono anche i tuoi segreti. Ti hanno spiato per anni. Viviamo davvero in uno Stato di sorveglianza, e chi ti osserva ti conosce a causa dei dati che ti lasci alle spalle”.
Questo non è l’incipit di un thriller, e nemmeno il trailer di un film, ma la realtà, almeno nella società americana di oggi, e Andrew Ferguson, docente ad Harvard e alla New York University, la racconta nel suo libro The Rise of Big Data Policing: Surveillance, Race, and the Future of Law Enforcement. Il testo spiega come le nuove tecnologie stanno cambiando il modo in cui la polizia svolge il proprio lavoro e mostra perché è più importante che mai che i cittadini comprendano le conseguenze di vasta portata di questo processo.
Le nuove tecnologie, viste come neutrali e obiettive, sono state adottate con entusiasmo dai dipartimenti di polizia nella speranza di prendere le distanze dalle accuse di pregiudizi razziali e pratiche incostituzionali. Dopo una serie di gravi sparatorie e diverse indagini federali sulla cattiva condotta sistemica della polizia, e in un’epoca di tagli al bilancio per le forze dell’ordine, le tecnologie basata sui big data e sull’intelligenza artificiale sono diventate il modo per voltare pagina. E dopo la polizia è stato il turno dei tribunali.
Andiamo con ordine.
Il predictive policing
Il predictive policing è l’applicazione di tecniche analitiche, in particolare tecniche quantitative, per identificare i probabili obiettivi di intervento della polizia: prevenire reati o risolvere crimini già avvenuti attraverso previsioni statistiche basate su formule matematiche (algoritmi) che utilizzano grandissime quantità di dati. Questo approccio alla criminalità prende spunto dai software utilizzati per valutare i rischi sui social network e da quelli creati in ambito sanitario per prevedere la diffusione dei virus, e ‘tratta’ la violenza, dal punto di vista statistico, come fosse una malattia contagiosa. Sebbene esistano molti metodi per aiutare la polizia a rispondere al crimine e condurre le indagini in modo più efficace, gli algoritmi che prevedono dove e quando è probabile che si verifichi un nuovo reato o chi è probabilmente il responsabile di delitti ancora irrisolti si sono recentemente conquistati la massima attenzione da parte delle forze di polizia e dei Ministeri.
Secondo un manuale sviluppato nel 2013 dalla Rand Corporation per il National Institute of Justice (NIJ), e destinato al personale delle forze dell’ordine a tutti i livelli (1), i metodi predittivi possono essere suddivisi in quattro grandi categorie:
- previsione dei crimini: approcci utilizzati per prevedere i luoghi e i periodi in cui il rischio di reato è più elevato;
- previsione dei trasgressori: software che identificano le persone a rischio di commettere un reato in futuro;
- previsione dell’identità degli autori del reato: tecniche utilizzate per creare profili che abbinano i probabili autori del reato con specifici crimini avvenuti;
- previsione delle vittime di reati: utilizzati per identificare gruppi o, in alcuni casi, individui che possono diventare vittime di reato.
La tecnologia sta dunque aggressivamente riformando le modalità e le zone di pattugliamento delle forze dell’ordine, l’identificazione dei soggetti cui destinare serrati controlli e le tecniche di indagine; cambia il modo in cui gli agenti vedono le comunità che pattugliano e i cittadini che sorvegliano, e cambia anche il lavoro di polizia, costringendo gli agenti a diventare raccoglitori di dati e analisti che agiscono in tempo reale su input e valutazioni. Più di 60 dipartimenti americani utilizzano una qualche forma di ‘polizia predittiva’ per guidare le loro operazioni quotidiane: a Los Angeles, le unità di pattuglia si spostano secondo le indicazione di un software che predice quali saranno le ‘zone calde’; a Chicago, un algoritmo identifica sia i soggetti che rischiano di diventare vittime sia quelli che rischiano di essere autori di violenza armata, ed entrambi vengono contattati dalla polizia e invitati a cambiare lo stile di vita, le amicizie e i luoghi che frequentano, oltre a diventare oggetto di sorveglianza.
Se queste tecnologie invasive siano però efficaci a ridurre la criminalità non è per niente chiaro: gli studi scientifici al proposito sono pochi, e in gran parte inconcludenti, e registrano come in alcune città il tasso di criminalità sia diminuito, ma in altre non vi sia stato alcun effetto significativo (2). D’altronde il tasso di criminalità è correlato a una serie di forze economiche e ambientali che rendono difficile dimostrare, con una determinata tecnologia, l’esistenza di un nesso causale. Ma di certo, uno dei vantaggi dell’uso dei big data per i dipartimenti è politico: gli algoritmi costituiscono per i responsabili della polizia la risposta all’antica domanda: “Capo, cosa stai facendo contro il crimine?” Ora hanno una risposta facile, che suona competente e orientata al progresso: “Abbiamo un nuovo software”.
Tuttavia, il predictive policing crea una serie di problematiche complesse: in primo luogo, l’utilizzo degli algoritmi può alterare le reazioni della polizia: gli agenti inviati in un’area segnalata come a rischio di criminalità violenta sono preparati al peggio, cosa che rende più probabile il ricorso alla forza. In secondo luogo, la crescente rete di sorveglianza minaccia di raffreddare le libertà associative, l’espressione politica e le aspettative di privacy, erodendo l’anonimato pubblico. In terzo luogo, anche con le migliori politiche di utilizzo, i funzionari hanno accesso a grandi quantità di informazioni sensibili di individui non sospettati di alcun reato che si prestano a essere manipolate. Inoltre, il passaggio dalla polizia tradizionale a quella basata sull’intelligence crea rischi legati alla qualità dei dati: informazioni, statistiche criminali, testimoni cooperanti, soprannomi e note investigative possono essere aggregati in un grande sistema di dati, ma la loro qualità non è uniforme. Alcuni suggerimenti sono accurati, altri no. Alcuni dati sono il prodotto di pregiudizi (per esempio razziali o di genere) e altri possono essere del tutto sbagliati. Un sistema di polizia o di perseguimento penale basato sull’intelligence che non tiene conto della diversa affidabilità e credibilità delle fonti – e le raggruppa tutte insieme come ‘dati’ – si traduce in un database pieno di errori; errori che si rifletteranno nelle previsioni sulla criminalità.
Infine, non si deve trascurare il fatto che la maggior parte dei software di predictive policing sono coperti da brevetti depositati da aziende private, quindi segreti, sicché non si può disporre di una piena comprensione dei meccanismi del loro funzionamento, con evidente pregiudizio delle esigenze di trasparenza e di verifica indipendente della qualità e affidabilità dei risultati da essi prodotti (3). Oltre al fatto che anche le reti su cui viaggiano i big data sono strutturate e gestite da imprese private, che possono dunque entrare in possesso di quella grande mole di dati e utilizzarla per vantaggi economici o di altro tipo.
Non ultimo il concetto di probabilità, nucleo centrale dell’algoritmo IA, è cosa ben diversa da quello di possibilità: lo scarto, la scelta, il cambio improvviso fanno parte della natura umana. E ciò vale anche quando entriamo nell’ambito del processo.
L’IA nei tribunali
Se le tecniche riconducibili all’IA generano una serie di problemi quando vengono utilizzate dalle forze dell’ordine, la situazione è ancora più delicata quando vengono messe a disposizione dei magistrati. Gli Stati Uniti hanno il più alto numero di carcerati di qualsiasi altro Paese del mondo. Alla fine del 2016, quasi 2,2 milioni di adulti erano detenuti in prigioni o carceri, e altri 4,5 milioni si trovavano in altri istituti di correzione. In altre parole, un americano adulto su 38 è soggetto a una qualche forma di supervisione penitenziaria. Il problema del sovraffollamento delle carceri è probabilmente l’unico sulla cui soluzione tutti i politici americani concordano, e sottopongono i tribunali a pressione affinché riducano il numero di detenuti senza rischiare un aumento della criminalità – per quanto molti istituti di pena siano privati, e quindi di fatto la carcerazione è un settore economico che fa profitti da sostenere come altri. Da qui i criminal risk assessment algorithms, gli algoritmi per la valutazione del rischio criminale.
Negli ultimi decenni, questi sistemi sono sempre più utilizzati in ambito penale quando si tratta di calcolare un ‘rischio’, per esempio per rispondere alla domanda: “Quali probabilità sussistono che un individuo, avente determinate caratteristiche, possa in futuro commettere un (nuovo) reato?” È un quesito la cui risposta è necessaria, tra l’altro, quando si tratta di applicare una misura di sicurezza, una misura cautelare o una misura di prevenzione, o anche per concedere la sospensione condizionale di una pena o l’affidamento in prova al servizio sociale. Questi strumenti guidano attualmente una serie di decisioni correttive – come la partecipazione a programmi di misure alternative, i livelli di libertà condizionale e di supervisione della libertà condizionale – e sono sempre più utilizzati sia nelle decisioni circa la detenzione preventiva prima del processo che nella valutazione dell’entità della condanna penale a sentenza emessa (4). La logica sottostante è che se si può prevedere con precisione il comportamento criminale, è possibile allocare le risorse (scarse) di conseguenza, sia per quel che riguarda la rieducazione che per le pene detentive. In teoria, gli algoritmi ridurrebbero anche gli eventuali pregiudizi (razziali, di genere ecc.) che influenzano il processo, perché sarebbe l’IA a condurre il gioco, e non il pensiero del giudice.
La valutazione cosiddetta evidence-based (basata sull’evidenza) della pericolosità criminale presuppone l’individuazione di una serie di fattori (o predittori) direttamente coinvolti nel comportamento criminoso e che possono riguardare l’età, il sesso, l’origine etnica, il livello di scolarizzazione, la situazione familiare e lavorativa, il livello di reddito, i precedenti penali, le precedenti esperienze carcerarie, i luoghi e le persone frequentati, la presenza di autori di reato nella cerchia familiare o nella rete di conoscenze, il luogo di residenza, il discontrollo degli impulsi, una storia di precedente violenza, una storia di ospedalizzazione, alcune variabili contestuali (quali, per esempio, la mancanza di sostegno familiare e sociale), il consumo di sostanze stupefacenti o alcoliche, e le psicopatie. I predittori non sono univoci, non si comportano sempre nello stesso modo e presentano un differente tasso di dinamicità, nel senso che esistono fattori statici, non modificabili (come il sesso e l’origine etnica); fattori dinamici, che sono modificabili (come il quartiere in cui si vive o il discontrollo degli impulsi, che può essere curato); e infine, fattori di rischio acuti, che cambiano rapidamente e sono associati a una condizione facilitante la reazione violenta (per esempio, l’uso di sostanze stupefacenti). Tutti questi fattori, una volta raccolti e ponderati statisticamente, possono essere combinati secondo un approccio di tipo attuariale per ottenere ‘scale’ che attribuiscono un punteggio di pericolosità al soggetto preso in esame (5).
Questo tipo di approccio è stato mutuato dal settore assicurativo (che si basa, per l’appunto, sulla quantificazione di determinati rischi), e non è affatto nuovo per il sistema giuridico americano. Fin dagli anni Venti del secolo scorso la giustizia penale statunitense ha usato fattori come l’età, la razza, la storia criminale, l’occupazione, i voti scolastici e il quartiere per prevedere quali ex detenuti avevano maggiori probabilità di scivolare di nuovo nel crimine, e per determinare se avessero bisogno di un supporto per problemi di salute mentale o di un trattamento clinico (per esempio nei casi di abuso di sostanze) al momento del rilascio.
Tuttavia oggi queste valutazioni attuariali, e prima ancora la raccolta e la rielaborazione dei dati che consentono la predisposizione delle scale di rischio, sono affidate a sistemi di intelligenza artificiale, cioè ad algoritmi predittivi, forniti di procedure di autoapprendimento (machine learning) e dotati di una straordinaria capacità e rapidità nel far emergere relazioni, coincidenze, correlazioni, modelli di comportamento che permettono una valutazione ‘automatica’, ma estremamente discussa, della pericolosità criminale (6). Perché questi modelli vengono generati sulla base di correlazioni statistiche, non di nessi di causalità: se un algoritmo rileva, per esempio, che il basso reddito è correlato a un’alta recidiva, non significa che essere poveri provochi un comportamento criminale; e invece questo è esattamente ciò che fanno gli strumenti di valutazione del rischio: trasformano le intuizioni correlative in meccanismi di punteggio causale. Di conseguenza, i gruppi che storicamente sono stati presi di mira in modo sproporzionato dalle forze dell’ordine – in particolare le comunità a basso reddito e quelle minoritarie (neri, ispanici, ecc.) – rischiano di essere penalizzati da punteggi di rischio sproporzionatamente elevati, e dunque di finire/restare in galera più di altri gruppi sociali.
Inoltre, poiché la maggior parte degli algoritmi di valutazione del rischio sono proprietà delle aziende che li hanno elaborati e perciò coperti dal segreto industriale, è impossibile analizzare come un certo punteggio di rischio sia stato calcolato. Il problema è che una macchina – a differenza di un essere umano – non spiega le ragioni delle proprie decisioni, e dunque è impossibile capire sulla base di quali fattori viene stabilita una determinata sentenza. Il risultato è che gli algoritmi predittivi finiscono con lo “sterilizzare e legittimare sistemi oppressivi” (7).
La giustizia attuariale
Influenti studiosi suggeriscono che l’emergere e la proliferazione di strumenti che si basano sul calcolo del rischio sta ridisegnando – o ha già ridisegnato – il campo penale anglosassone in modo strutturale, inaugurando un’era di giustizia attuariale. I metodi di valutazione utilizzati in ambito penale stanno gradualmente abbandonando il tradizionale approccio clinico, basato su un’analisi psicologica della pericolosità del soggetto, per passare a metodologie statistiche, che valutano la rischiosità della categoria attuariale cui l’imputato o il condannato appartiene, o così si suppone sulla base dei dati disponibili. Questo spostamento, oltre a de-individualizzare il processo di valutazione, sposta l’enfasi dall’obiettivo di rieducare gli autori del reato, alla gestione/amministrazione di individui classificati in vari gruppi a rischio. In altri termini, l’approccio riabilitativo utilizzato, almeno sulla carta, in ambito penale fin dal XIX secolo, ha perso legittimità alla fine del XX secolo. Il crollo della “grande narrazione del modernismo penale” ha aperto la strada a politiche retributive e neoliberali che implicano una maggiore severità penale e l’adozione di approcci e tecniche basate sul rischio (8). Gran parte di questi concetti sono in sintonia con il lavoro di Michel Foucault, in quanto suggeriscono che è in atto una transizione da un approccio disciplinare a un approccio biopolitico, cioè il sistema giuridico sta abbandonando l’obiettivo della normalizzazione degli individui in favore dell’identificazione e della gestione delle popolazioni.
Gli algoritmi decisionali
Prima di analizzare nel dettaglio i principali algoritmi decisionali, è necessario spiegare in estrema sintesi qual è il ruolo del giudice nel processo penale americano. L’articolo III della Costituzione ha dato luogo a un complesso sistema di relazioni tra giurisdizione federale e giurisdizioni statali. In genere, i giudici federali non trattano casi ricadenti sotto il diritto statale. I processi che riguardano alcune materie su cui hanno giurisdizione le Corti federali possono però essere svolti anche nei tribunali statali. Entrambi i sistemi hanno quindi giurisdizione esclusiva su determinate materie e una giurisdizione concorrente su altre. Nei casi giudiziari che riguardano i reati più gravi – come la violenza sessuale o l’omicidio – è previsto un processo con giuria popolare, e in questi casi la giuria decide sui fatti, cioè valuta le prove ed emette il verdetto (colpevole o innocente), mentre il giudice prende tutte le decisioni di diritto, prima del processo (per esempio se concedere la libertà su cauzione), durante il processo (per esempio quali elementi di prova ammettere) e infine stabilisce quale pena comminare. Nei processi senza giuria, invece, tutte le decisioni vengono prese dal giudice. Come già ricordato, nelle giurisdizioni che adottano gli algoritmi di valutazione del rischio – e se la giurisdizione ha deciso di adottarli il giudice non può non utilizzarli – l’IA assiste il giudice nelle decisioni pre-trial e in quelle che riguardano il sentencing. Gli elementi necessari al software per calcolare il punteggio di rischio sono forniti dalla pubblica accusa, insieme a tutto il materiale ritenuto rilevante per questo tipo di decisione (per esempio i precedenti penali, eventuali relazioni psicologiche e mediche, ecc.). Gli algoritmi decisionali possono essere gratuiti o a pagamento, open (tutte le formule che compongono l’algoritmo sono note) oppure coperti dal segreto industriale. I due più studiati algoritmi decisionali sono il PSA e il COMPAS.
Il PSA
Sviluppato da Arnold Ventures sulla base della più ampia e diversificata serie di registrazioni preprocessuali mai raccolte (circa 750.000 casi provenienti da circa 300 giurisdizioni degli Stati Uniti) e convalidato utilizzando oltre 500.000 casi provenienti da diverse giurisdizioni, il Public Safety Assessment (PSA) è un software gratuito concepito per aiutare i giudici penali nelle cosiddette decisioni pre-trial, tipicamente il rilascio su cauzione o la carcerazione preventiva. Queste decisioni negli USA hanno conseguenze enormi sia per l’individuo accusato di un reato che per la comunità in senso lato, poiché trascorrere solo pochi giorni in carcere può costare il lavoro, l’alloggio e i servizi sanitari e sconvolgere significativamente la vita familiare. Inoltre gli studi dimostrano che le persone detenute prima del processo hanno maggiori probabilità di dichiararsi colpevoli, di essere condannate e di essere nuovamente arrestate (9). Dal momento che la Corte Suprema degli Stati Uniti ha stabilito che la libertà preprocessuale è la norma e la detenzione dovrebbe essere l’eccezione attentamente limitata, la società che ha creato il software ha ritenuto che “il fattore chiave da considerare quando si prendono queste decisioni preprocessuali è la probabilità che la persona non fugga dalla giurisdizione e/o non rappresenti un pericolo per gli altri” e, aspetto tutt’altro che secondario, che “l’incapacità di una persona di pagare la cauzione non dovrebbe determinare se essa rimane in carcere o se viene rilasciata” (10).
Dal suo sviluppo nel 2013, il PSA è stato implementato in decine di giurisdizioni in tutto il Paese fra cui gli Stati dell’Arizona, del Kentucky e del New Jersey, e in alcune delle più grandi città come Phoenix, Chicago e Houston.
Il COMPAS
Il Correctional Offender Management Profiling for Alternative Sanctions (COMPAS) è l’algoritmo predittivo di gran lunga più famoso, utilizzato (e controverso) negli Stati Uniti. È un software elaborato e commercializzato da una società privata, la Northpointe (da gennaio 2017 ridenominata Equivant) i cui algoritmi sono coperti dal segreto industriale. Il COMPAS genera scale di rischio per la recidiva generale, per la recidiva violenta e per la cattiva condotta preprocessuale. Secondo la COMPAS Practitioner’s Guide, le scale sono state progettate utilizzando costrutti comportamentali e psicologici “di grande rilevanza” (11).
In particolare, la Pretrial Release Risk Scale misura la possibilità che un imputato non compaia in tribunale per le udienze e/o commetta nuovi reati durante il rilascio: gli indicatori più significativi che influenzano i punteggi di rischio sono le accuse correnti, le accuse pendenti, i precedenti arresti, la passata cattiva condotta preprocessuale, la stabilità residenziale, lo status occupazionale, i legami con la comunità e l’abuso di sostanze.
La General Recidivism Scale è stata progettata per prevedere nuovi reati al momento del rilascio e dopo la valutazione COMPAS: utilizza la storia criminale dell’individuo e delle persone che frequenta, il coinvolgimento in fatti di tossicodipendenza e indicatori di delinquenza giovanile.
Infine la Violent Recidivism Scale ha lo scopo di predire la probabilità di reati di violenza dopo il rilascio con o senza cauzione, e utilizza dati o indicatori correlati a “una storia di violenza, di disadattamento, a problemi professionali e scolastici, e la data e le motivazioni del primo arresto”.
COMPAS prende in considerazione nella sua configurazione base la risposta a 137 domande, concernenti per esempio i precedenti criminali, gli illeciti e le infrazioni commesse, ma anche i problemi economici, le difficoltà riscontrate a scuola, i difetti di socializzazione, l’isolamento sociale, che vengono fornite direttamente dal soggetto da valutare oppure vengono ricercate nei vari archivi e registri di polizia.
Gli algoritmi hanno pregiudizi?
Nel 2014, il Procuratore generale degli Stati Uniti Eric Holder ha messo in guardia contro la possibilità che algoritmi come il PSA e il COMPAS potessero incorporare pregiudizi, proprio come gli individui, e ha chiesto alla U.S. Sentencing Commission (la Commissione indipendente che articola le linee guida per i tribunali federali) di studiarne l’uso. “Anche se queste misure sono state create con le migliori intenzioni, sono preoccupato che inavvertitamente pregiudichino i nostri sforzi per garantire una giustizia individualizzata ed equa”, ha detto, aggiungendo che essi “possono esacerbare disparità ingiustificate e ingiuste che sono già troppo comuni nel nostro sistema giudiziario penale e nella nostra società”.
La U.S. Sentencing Commission non si è attivata, ma ProPublica, un’organizzazione non a scopo di lucro statunitense, con sede a Manhattan, che si occupa di giornalismo investigativo, ha avviato uno studio sull’equità delle scale COMPAS – non sul PSA (12). I giornalisti hanno ottenuto i punteggi di rischio assegnati a più di 7.000 persone arrestate nella Broward County, in Florida, nel 2013 e nel 2014, e hanno controllato quanti di questi soggetti erano state accusati di nuovi crimini nei due anni successivi, lo stesso benchmark utilizzato dall’algoritmo. Il software si è rivelato notevolmente inaffidabile nel prevedere i crimini violenti: solo il 20% delle persone che l’algoritmo prevedeva è stato nuovamente arrestato. Quando si è presa in considerazione una gamma completa di reati (inclusi quelli minori, come “guida con patente scaduta”), è stato leggermente più preciso del lancio di una moneta: degli individui ritenuti suscettibili di recidiva, il 61% è stato arrestato per eventuali reati entro i due anni.
Oltretutto, ProPublica ha scoperto significative disparità razziali, proprio come temeva Holder. Nel prevedere chi si sarebbe reso responsabile di nuovi reati, l’algoritmo ha commesso errori con gli imputati bianchi e neri “allo stesso ritmo, ma in modi molto diversi”. In particolare, “secondo la formula era particolarmente probabile che gli imputati neri venissero indicati (erroneamente) come futuri criminali, ed erano etichettati in questo modo a un tasso quasi doppio rispetto agli imputati bianchi. Al contrario, gli imputati bianchi sono stati erroneamente etichettati come a basso rischio più spesso degli imputati neri”. Ciò significa, in sostanza, che in tutti i tribunali in cui è stato utilizzato il COMPAS, i neri sono stati invariabilmente sottoposti a un trattamento più repressivo (negazione della libertà su cauzione e della libertà sulla parola, custodia preventiva e pene più lunghe), anche quando non avrebbero commesso nuovi reati. Come è possibile, si sono chiesti i giornalisti, dal momento che l’algoritmo non contiene domande relative alla razza?
Aaron M. Bornstein, ricercatore presso il Princeton Neuroscience Institute, spiega che, sebbene il questionario COMPAS non chieda informazioni sul colore della pelle, sul patrimonio culturale e nemmeno sul codice di avviamento postale, la risposta a domande come: “Vivi in un quartiere con molto crimine?”, o “Hai avuto difficoltà a trovare lavori che paghino più del salario minimo?” sono correlate agli attributi protetti dalla legge contro le discriminazioni; il che significa che “gli algoritmi possono imparare a ‘vedere’ efficacemente questi attributi nei dati” (13).
Per contestare i risultati ottenuti da ProPublica, Northpointe, la società proprietaria dell’algoritmo, ha sostenuto che le persone che la polizia classificava come afroamericani erano state riarrestate più spesso nel dataset di formazione del software, e che di conseguenza il sistema era giustificato nel prevedere che altre persone classificate come afroamericani dalla polizia – anche in una città, Stato e periodo di tempo diversi (!) – avessero maggiori probabilità di essere riarrestati. In altre parole, il software incorpora, secondo Bornstein, “un pregiudizio nascosto in un insieme di statistiche, ma chiaramente visibile in un altro”.
Molti algoritmi nascondono pregiudizi di ogni tipo, anche i più insospettabili, come Google Translate. Si provi a inserire nel traduttore automatico le frasi turche “o bir doktor” e “o bir hemşire” e tradurle in italiano o in inglese. Le frasi usano il pronome “o” costringendo Google Translate a scegliere da solo un pronome di genere, e il software si comporta da vero sessista, traducendo “lui” nel primo caso e “lei” nel secondo. Il risultato? Lui è un medico e lei è un’infermiera. Ciò dipende dal fatto che nel database da cui il software attinge le possibili soluzioni, il numero delle volte in cui la parola medico è riferita a un maschio è superiore al numero delle volte in cui essa è riferita a una femmina, perciò secondo il principio probabilistico la traduzione da preferirsi è quella che ripropone il classico stereotipo di genere. Ma Google Translate, fortunatamente, non decide del futuro di esseri umani. Tuttavia, miliardi di testi caricati online perpetueranno pregiudizi come questo per intere generazioni, perché ci sono forti ostacoli al rinnovamento dell’infrastruttura software di base: nel peggiore dei casi, secondo Bornstein, queste e altre limitazioni sul nostro trattamento della distorsione nei dati utilizzati dagli algoritmi IA proietteranno lo status quo all’infinito. Di conseguenza, “un algoritmo utilizzato nel processo di sentencing può fare meno male di un giudice palesemente bigotto. Ma può anche oscurare la storia e il contesto di pregiudizi e ostacolare, o addirittura precludere, il progresso”.
Gli algoritmi fanno previsioni migliori?
Oltre al problema relativo al pregiudizio, uno studio del Dartmouth College (14) ha dimostrato che il COMPAS non è migliore nel prevedere il rischio di recidiva rispetto a volontari casuali reclutati su Internet. Julia Dressel, l’analista che ha condotto la ricerca, dice: “C’era questo assunto di fondo […] che le previsioni dell’algoritmo fossero intrinsecamente migliori di quelle umane, ma non sono riuscita a trovare alcuna ricerca che lo dimostrasse”. Così, insieme al suo collega Hany Farid, ha reclutato 400 volontari attraverso un sito di crowdsourcing. Ogni volontario aveva a disposizione delle brevi descrizioni degli imputati (gli stessi dell’indagine di ProPublica), che riportavano solo sette informazioni: su questa base, hanno dovuto valutare se l’imputato avrebbe commesso un altro crimine entro due anni. Ebbene, in media essi hanno ottenuto la risposta giusta nel 63% dei casi, e l’accuratezza è salita al 67% se le risposte sono state date in una discussione di gruppo. Il COMPAS ha una precisione del 65%. Dunque siamo lì. Da sottolineare, sia detto chiaramente, che il 65% è davvero poco per un sistema cui si affida il destino di tanti individui, perché sbaglia nel 35% dei casi, cioè 35 imputati su 100 ricevono un trattamento ingiusto che rovinerà la loro vita a causa del responso di una macchina, con cui non è possibile confrontarsi.
Dunque: se i software hanno pregiudizi, proprio come gli esseri umani; non sono più precisi degli esseri umani; e non possono spiegare le ragioni delle proprie valutazioni, a differenza degli esseri umani, per quali motivi vengono utilizzati in modo sempre più massiccio?
Lo Stato contro Loomis
State vs Loomis è a oggi il caso legale di riferimento in materia di distorsioni dovute all’utilizzo in ambito penale degli algoritmi predittivi.
Nel febbraio 2013, Eric Loomis è stato trovato alla guida di un’auto che quel giorno era stata usata in una sparatoria a La Crosse, nello stato del Wisconsin. Loomis è stato arrestato, ha negato di aver partecipato alla sparatoria, ma ha ammesso di aver guidato più tardi, in serata, la macchina coinvolta, dichiarandosi colpevole delle due accuse meno gravi fra le cinque che gli erano state rivolte: “tentativo di fuggire da un ufficiale del traffico” e “utilizzo di un veicolo a motore senza il consenso del proprietario”. Per determinare quale dovesse essere la pena, il giudice ha esaminato il suo casellario giudiziario e il punteggio assegnato dal COMPAS: quest’ultimo classificava Loomis come un soggetto ad alto rischio di recidiva, così il giudice l’ha condannato a sei anni di carcere e cinque anni di sorveglianza estesa.
Loomis è ricorso in appello asserendo che l’uso della valutazione COMPAS ha violato il suo diritto a una sentenza individualizzata e a una condanna basata su informazioni esatte, dal momento che i report COMPAS forniscono i dati relativi a gruppi di individui e che la metodologia utilizzata dall’algoritmo è un segreto commerciale. Inoltre, Loomis ha sostenuto che il giudice, basandosi sulla valutazione COMPAS – che tiene conto del genere – ha violato la norma costituzionale del giusto processo (15).
La Corte d’Appello ha passato il caso alla Corte Suprema del Wisconsin, la quale ha respinto il ricorso di Loomis, ritenendo che l’uso del genere come fattore di valutazione dei rischi è servito allo scopo non discriminatorio di promuovere l’accuratezza, e che Loomis non aveva fornito prove sufficienti del fatto che il tribunale avesse effettivamente considerato il genere. Inoltre, poiché il COMPAS utilizza dati pubblicamente disponibili e anche dati forniti dal convenuto, il tribunale ha concluso che Loomis avrebbe potuto negare o spiegare qualsiasi informazione che ha portato alla stesura della relazione e quindi avrebbe potuto verificare l’esattezza delle informazioni utilizzate nella sentenza. Per quanto riguarda l’individualizzazione, la Corte ha sottolineato l’importanza della sentenza individualizzata e ha ammesso che il COMPAS fornisce solo dati aggregati sul rischio di recidiva per gruppi di soggetti simili all’autore del reato, ma ha spiegato che il punteggio COMPAS non è stata l’unica fonte decisionale, e che i tribunali hanno il potere discrezionale e le informazioni necessarie per non essere d’accordo con la valutazione, se del caso: di conseguenza la sentenza poteva considerarsi sufficientemente individualizzata. Insomma, per Loomis non è cambiato nulla.
Tuttavia, per assicurare che i giudici in futuro siano consapevoli dei rischi insiti nell’utilizzo dei punteggi COMPAS, la Corte Suprema del Wisconsin ha prescritto da un lato come queste valutazioni devono essere presentate alle Corti di giustizia, dall’altro la misura in cui i giudici possono servirsene: in particolare, i tribunali non possono utilizzare il COMPAS “per determinare se un individuo colpevole deve essere incarcerato” né “per determinare la gravità della sentenza”. Inoltre, le relazioni per i giudici che comprendono un punteggio COMPAS devono includere alcune avvertenze scritte: in primo luogo, che la natura proprietaria del COMPAS impedisce la divulgazione delle modalità di calcolo dei punteggi di rischio; poi che i punteggi del COMPAS non sono in grado di identificare individui specifici ad alto rischio perché si basano su dati di gruppo; in terzo luogo, che il COMPAS funziona su un campione di dati nazionali e non vi è stato “nessuno studio di convalida incrociata per la popolazione del Wisconsin”; quarto, che gli studi “hanno ipotizzato che [i punteggi del COMPAS] possano classificare in modo sproporzionato gli autori di reati minori come aventi un rischio maggiore di recidiva”; e quinto, che il COMPAS era stato sviluppato in origine per assistere il Dipartimento di Correzione nelle decisioni successive – non precedenti – alla sentenza.
Conclusioni
Nel lanciare questi avvertimenti, la Corte Suprema del Wisconsin ha espresso chiaramente il desiderio di suscitare uno scetticismo generale sull’accuratezza di software come il COMPAS, e tuttavia, secondo la Harvard Law Review, è improbabile che la relazione scritta che la Corte richiede “consenta ai tribunali di valutare meglio l’accuratezza della valutazione e il giusto peso da attribuire ai punteggio di rischio”: anzi, con una paradossale logica circolare, si richiede ai giudici di validare soggettivamente l’output di uno strumento che dovrebbe servire a evitare valutazioni soggettive degli stessi giudici.
Va inoltre evidenziato che anche coloro che sostengono l’utilità di questi algoritmi, come Douglas Marlowe della National Association of Drug Court Professionals (una delle istituzioni che forma i giudici su come usare gli strumenti predittivi) riconoscono che “un bisturi nelle mani di un uomo comune è un coltello” (16), cioè questi strumenti, se utilizzati dai tribunali senza una specifica formazione, sono potenzialmente fatali.
Poi c’è il problema della trasparenza: “Certa gente riceve pene detentive più severe perché un algoritmo completamente opaco prevede che anche in futuro si comporteranno in modo criminale”, dice Cynthia Rudin della Duke University: “Sei in prigione e non sai perché e non puoi discutere” (17).
Tuttavia, anche se i giudici fossero perfettamente formati e il software fosse open – come il PSA – preciso e privo di qualunque pregiudizio (cosa che non è e non potrà mai essere, perché è un prodotto delle decisioni soggettive di esseri umani: statistici, informatici e ingegneri), un algoritmo non è in grado di ‘riconoscere’ che quello che sta analizzando è uno specifico individuo: vi sono delle singolarità che un decisore umano può rilevare e che lo porterebbero a operare un distinguo, ma non un algoritmo.
Eppure, nonostante queste considerazioni, la macchina della giustizia artificiale non si ferma. Come mai? È semplice: per sollevare il sistema giuridico americano da qualunque responsabilità futura. Così, se un imputato classificato come a basso rischio e rilasciato sulla parola commette un nuovo reato, il giudice può tranquillamente affermare che non è stato lui a sottovalutare la pericolosità del soggetto, ma il software. Viceversa, se un individuo viene classificato da una macchina ad alto rischio, quale giudice concederebbe all’imputato il beneficio del dubbio? E in nome di quali vantaggi per il magistrato che va contro corrente? Nel migliore dei casi nessuno, mentre nel peggiore egli si garantirebbe il biasimo dell’intera comunità per aver ignorato le prescrizione, e negli USA le cariche di giudice e di procuratore distrettuale sono elettive. Quindi, indietro non si torna.
È evidente dunque che sebbene il dato sputato dall’algoritmo sia solo uno degli elementi tra quelli che il giudice ha in mano per fare la propria valutazione, il suo peso è decisivo rispetto agli altri. L’avvertimento della Corte Suprema del Wisconsin sarà quindi probabilmente inefficace nel cambiare il modo in cui i giudici pensano alle valutazioni del rischio, data la pressione all’interno del sistema giudiziario che spinge a favore dell’utilizzo degli algoritmi predittivi, nonché l’approvazione diffusa verso le nuove tecnologie a livello di pensiero dominante.
1) Cfr. https://www.rand.org/content/dam/rand/pubs/research_reports/RR200/RR233/RAND_RR233.pdf
2) Cfr. How data-driven policing threatens human freedom, The Economist, 4 giugno 2018 https://www.economist.com/open-future/2018/06/04/how-data-driven-policing-threatens-human-freedom
3) Cfr. F. Basile, Intelligenza artificiale e diritto penale: quattro possibili percorsi di indagine, settembre 2019 https://dirittopenaleuomo.org/wp-content/uploads/2019/09/IA-diritto-penale.pdf
4) Cfr. R. Werth, Risk and punishment: The recent history and uncertain future of actuarial, algorithmic, and “evidence‐based” penal techniques, 10 gennaio 2019 https://onlinelibrary.wiley.com/doi/abs/10.1111/soc4.12659
5) Cfr. G. Zara, Tra il probabile e il certo. La valutazione del rischi di violenza e di recidiva criminale, Diritto penale contemporaneo, 20 maggio 2016 https://www.penalecontemporaneo.it/upload/1462543469ZARA_2016a.pdf
6) Cfr. R. Werth, op. cit.
7) K. Hao, AI is sending people to jail – and getting it wrong, MIT Technology Review, 21 gennaio 2019 https://www.technologyreview.com/s/612775/algorithms-criminal-justice-ai/
8) Cfr. D. Garland, The culture of control: crime and social order in contemporary society, Oxford University Press, 2001 https://www.researchgate.net/publication/26368194_The_culture_of_control_crime_and_social_order_in_contemporary_society
9) Cfr. https://www.psapretrial.org/about
10) Ibidem
11) Cfr. https://assets.documentcloud.org/documents/2840784/Practitioner-s-Guide-to-COMPAS-Core.pdf
12) J. Angwin, J. Larson, S. Mattu e L. Kirchner, Machine Bias, ProPublica, 23 maggio 2016 https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
13) A.M. Bornstein, Are Algorithms Building the New Infrastructure of Racism?, Nautilus, 21 dicembre 2017 http://nautil.us/issue/55/trust/are-algorithms-building-the-new-infrastructure-of-racism
14) Cfr. J. Dressel e H. Farid, The accuracy, fairness, and limits of predicting recidivism, Science Advances, 17 gennaio 2018 https://advances.sciencemag.org/content/4/1/eaao5580
15) Cfr. Harvard Law Review, 10 marzo 2017, https://harvardlawreview.org/2017/03/state-v-loomis/
16) M. Ewing, The danger of automated criminal justice, The Appeal, 27 giugno 2018
17) R. Smith, Opening the lid on criminal sentence software, Duke Today, 19 luglio 2017 https://today.duke.edu/2017/07/opening-lid-criminal-sentencing-software