Il 38% delle pagine online nel 2013 oggi non esiste più. Un Report del Pew Research Center analizza i siti governativi e quelli di informazione, le pagine Wikipedia e i social media: Internet è più precario di quanto immaginiamo
In dieci anni, il 25% delle pagine web online, è scomparsa. È ciò che ha scoperto uno studio pubblicato a maggio 2024 dal Pew Research Center, intitolato When Online Content Disappears (1). “Il 16% è individualmente inaccessibile ma proviene da un dominio ancora esistente, il 9% è inaccessibile perché l’intero dominio non è più online.” Se invece verifichiamo le pagine che erano online nel 2013, il 38% non esiste più nel 2023.

‘Scomparse’, per l’analisi del Report, significa che “la pagina non esiste più sul suo server host, oppure il server host stesso non esiste più; chi visita questo tipo di pagina riceve in genere una variante dell’errore del server ‘404 Not Found’”, ossia “uno dei nove codici di errore che indicano in modo definitivo che la pagina e/o il suo server host non esistono più o sono diventati non funzionali”. Un “decadimento digitale” che si verifica in spazi diversi: link presenti in siti governativi e di informazione, riferimenti delle pagine Wikipedia e social media.

Partiamo da questi ultimi. È stato esaminato solo X (l’ex Twitter), e in questo caso è stato raccolto un campione di 5 milioni di tweet in tempo reale – pubblicati tra l’8 marzo 2023 e il 27 aprile 2023 – e seguito per tre mesi, fino al 15 giugno 2023, controllando ogni giorno se fossero ancora presenti sul social. Per avere un campione rappresentativo di tutti i tweet pubblicati sulla piattaforma durante quel periodo, è stata utilizzata la Streaming API di Twitter, estrapolando 3.000 tweet pubblici ogni 30 minuti. Alla fine del periodo di osservazione, il 18% dei tweet del campione non era più visibile pubblicamente. Nel 60% di questi casi, l’account che aveva pubblicato il tweet era stato reso privato, sospeso o eliminato del tutto; nel restante 40%, l’account che aveva pubblicato il tweet era ancora visibile, ma il tweet individuale era stato eliminato. Il Pew Research Center ha analizzato anche quali tweet tendono a scomparire, scoprendo che:

- il 49% di tutti i tweet in lingua turca raccolti, e il 42% di quelli scritti in arabo, non erano più disponibili alla fine del periodo di monitoraggio;
- il 58% dei tweet degli account che utilizzano l’immagine predefinita del profilo non erano più disponibili alla fine del periodo di monitoraggio, così come il 36% degli account con un campo bio predefinito: i tweet di questi account tendono a scomparire perché l’intero account è stato eliminato o reso privato, anziché perché il singolo tweet è stato eliminato;
- il 21% dei tweet eliminati era stato pubblicato da account non verificati.
Quando sono stati analizzati i tipi di tweet non più disponibili, si è evidenziato che i retweet, i tweet di citazione e i tweet originali non differivano molto dalla media complessiva, ma era relativamente improbabile che le risposte venissero rimosse: solo il 12% di queste ultime era divenuta inaccessibile. Infine, il Pew Research Center ha scoperto che la maggior parte di quel 18% di tweet rimossi è scomparso in un tempo relativamente breve:
- l’1% dei tweet è rimosso entro un’ora
- il 3% entro un giorno
- il 10% entro una settimana
- il 15% entro un mese
Tuttavia, non è detto che i tweet scompaiano per sempre: il 6% è tornato disponibile in un secondo momento. Potrebbe essere dovuto al fatto che un account è diventato privato e poi è tornato allo stato pubblico, oppure che l’account è stato sospeso e poi ripristinato.
Per le prime tre indagini – siti governativi, di informazione e riferimenti delle pagine Wikipedia – il Pew Research Center ha campionato circa 500.000 pagine usando l’istantanea di Internet di Common Crawl di marzo/aprile 2023.
Per i siti istituzionali – di vario livello, dal governo centrale al Comune locale – il 21% di tutte le pagine esaminate contiene almeno un link non funzionante: il 16% reindirizza a un URL diverso da quello originario e il 6% punta a pagine non più accessibili. I siti delle amministrazioni cittadine sono i peggiori: presentano il 13% di brocken link e il 29% delle pagine con almeno un link oggi inesistente.

Per i siti di informazione, le 500.000 pagine campionate provengono da 2.063 siti: il 23% contiene almeno un link non funzionante, il 32% dei link reindirizza a un URL diverso da quello a cui puntava originariamente e il 5% non è più accessibile. Non si registrano differenze tra i siti web di notizie più trafficati e quelli meno.

Per quanto riguarda Wikipedia, sono stati analizzati i link della sezione ‘Riferimenti’: l’11% non è più accessibile. In aggiunta, nel 2% delle pagine Wikipedia tutti i link puntano a pagine oggi inesistenti, e ben il 53% delle pagine contiene almeno un collegamento interrotto.
Tecnologia della postmodernità, non-luogo della surmodernità, mondo virtuale a cui affidiamo tanti aspetti delle nostre vite, Internet è più precario – e fuori dal nostro controllo – di quanto immaginiamo.
1) https://www.pewresearch.org/data-labs/2024/05/17/when-online-content-disappears/

