BIG DATA. UN ASPETTO CONTROVERSO: I FILTRI – prima parte – di Fiorello Casi

In conclusione a un lungo percorso che ci ha portato alla ricognizione delle condizioni storiche, tecnologiche e culturali relative all’emersione dei Big Data, riteniamo opportuno affrontare un ultimo aspetto di carattere tecnico che, a nostro parere, fornisce diversi elementi di riflessione su quanto si tenterà di affrontare nel seguito del ragionare bioetico su questo tema.

Attraverso gli articoli precedenti, siamo giunti ad alcune temporanee conclusioni circa gli effetti positivi dell’applicazione degli algoritmi di ricerca predittiva, le correlazioni, nel sistema dei Big Data. Gli indiscutibili benefici che questo nuovo paradigma porta con sé nel suo propagarsi nelle attività e nella cultura delle società sono facilmente riscontrabili. Si è tentato di dare una dimensione alla portata che tutto ciò comporta anche e soprattutto sulla vita delle persone, sia singolarmente, sia in società. E proprio sulle implicazioni legate alla vita dei singoli individui e della società che è opportuno esaminare un ultimo aspetto degli algoritmi, che incide profondamente su questo aspetto, e i cui esiti possono vanificare molto del buono che i Big Data possono offrire.

Lasciando da parte la datizzazione nella sua componente legata alla digitalizzazione e raccolta di dati provenienti dal mondo delle cose, cioè “dall’Internet delle cose” (i dati generati dal rapporto macchina – macchina), ci dobbiamo focalizzare ancora sul principale generatore di dati e oggetto di analisi degli algoritmi, cioè la Rete.

Pur avendo già esaminato le peculiarità della Rete da diverse angolazioni, questo aspetto conclusivo, legato a un determinato tipo di algoritmi e alle problematiche che questi creano, sia in ambito epistemologico che in quello etico, ci obbligano a riprendere, per un’ultima volta, alcuni aspetti riguardo alla tecnologia in atto, che devono essere sottoposti già ora ad alcune considerazioni critiche.

Il fine è quello di portare ulteriori elementi di riflessione allo scopo di questo lavoro; vale a dire la ricognizione e l’individuazione degli elementi di continuità e di quelli di rottura con il precedente paradigma, illuminato dal principio causa-effetto, che l’utilizzo della tecnologia dei Big Data è in grado di modificare con il suo rapido diffondersi, nel suo ruolo di nuovo strumento di lettura della realtà e in quello di generatore di un’altra, “specchio” della prima, sempre più ricca di dati e informazioni provenienti dal copioso flusso generato dagli strumenti dei Big Data, la Rete innanzitutto. Difatti l’emersione dei Big Data, la progressiva datizzazione del mondo, il cambiamento di paradigma e l’irrompere di strumenti analitici nuovi e potenti, uniti alla diffusione mondiale di apparati di connessione individuali, produrranno profonde trasformazioni sullo stile di vita degli individui e della società.

Nel suo libro, “Gli strumenti del comunicareMarshall McLuhan afferma: “Creiamo i nostri strumenti, che poi a loro volta ci trasformano”. Gli algoritmi di filtro costituiscono il primo punto problematico riguardo alle attese e ai benefici riguardanti la Rete come generatore di materia prima, i dati, per l’alimentazione dell’ecosistema Big Data e la creazione di informazioni tramite algoritmi di correlazione.

Prendiamo come riferimento di questo tema l’utilizzatore e fornitore più emblematico di algoritmi, quello che concorre all’insorgenza dei Big Data sulla scena mondiale, Google.

Attualmente Google usa, sul suo motore di ricerca, circa 60 indicatori. Il che significa che per ognuno di noi è in grado di valutare, dal luogo in cui ci troviamo, al sistema che usiamo e tutte le ricerche che abbiamo fatto in precedenza. Anche quando l’utente è scollegato l’algoritmo lavora per sistemare i dati, come abbiamo visto nella sezione precedente, col fine di proporci un’offerta informativa la più mirata possibile con i nostri precedenti interessi. Il che non è una opportunità negativa, può avere anche aspetti utili nei casi di attività professionali o scolastiche importanti e facilitare il compito di navigazione e ricerca.

Ma questo aspetto non è il solo al quale prestare attenzione. Facendo un rapido sondaggio tra gli utenti di Google, si può appurare che la quasi totalità di essi ritiene che i risultati di una ricerca sul suo motore di ricerca (Page-Rank) diano gli stessi identici risultati per tutti. Insomma si presume che, per l’algoritmo Page Rank, vengano estratti, in modo universale, tutti gli elementi rilevanti per una ricerca di un dato termine. E’ opportuno allora rilevare che dal 4 dicembre del 2009 ciò non è più vero. Da quella data ogni utente vede i risultati che secondo Page-Rank sono più adatti a lui; mentre altri utenti vedono risultati più aderenti al loro profilo che, sempre Page-Rank, gli ha attribuito. Quindi Google non è più uguale per tutti.

Verificare le differenze tra utenti è molto semplice, basta chiedere a più conoscenti di fare una ricerca per lo stesso argomento e si potrà verificare in modo immediato ed empirico la dimensione di questo fatto. E qui nascono i primi problemi, certamente non tecnologici; tuttavia di un forte interesse epistemologico ed etico.

A fronte di uno strumento potente e pervasivo come Google, utilizzato da milioni di persone l’idea, accettata dalla grande maggioranza, è che i motori di ricerca siano trasparenti a istanze diverse da quella della semplice ricerca. Ma non è così. Come abbiamo già visto, gli algoritmi presidiano ogni anfratto della Rete e dei siti Web, raccogliendo ogni informazione circa la navigazione di ciascun utente. Quello che vediamo non è l’immagine oggettiva della Rete ma ciò che gli algoritmi (e gli analisti) ci rimandano a fronte delle nostre tracce digitali. L’annuncio sopra citato di Google, dicembre 2009, è stato un punto di svolta importante nell’approccio degli utenti al Web.

La grande utopia che accompagnava la nascita del Web, che consisteva nel salutare una prorompente nuova era dove nessuna autorità avrebbe potuto soggiogare la comunicazione e lo scambio di informazioni tra le persone, e dove il potere delle élite sarebbe stato ridimensionato, ha subito quantomeno un’incrinatura. L’idea che Internet potesse consentire trasparenza a tutti i livelli, da quello politico a quelli economici, scientifici e culturali subisce una battuta di arresto.

Certamente un cambiamento con l’avvento di Internet c’è stato; e ancora oggi una buona parte di quanto promesso è stato mantenuto. Molti settori della vita pubblica hanno vissuto una nuova stagione di democrazia in molti strati della società. Dai social network ai Blogger, il mondo dell’informazione ha avuto un nuovo impulso che ha determinato anche notevoli cambiamenti sia, per esempio, nella composizione dell’elettorato, nella sensibilità a temi come l’energia, l’ecologia e i diritti umani.

Tuttavia la piena realizzazione della connessione universale tra cittadini, per ora, non è arrivata. Difatti la democrazia si nutre soprattutto di informazione e di confronto. E questo, con gli utenti che tendono a essere incapsulati in un loro mondo sempre più personalizzato dagli algoritmi, è diventato un problema che urge una riflessione approfondita. Se la democrazia, per prima cosa, ha necessità di essere alimentata da un reciproco scambio di opinioni circa i fatti, sembra molto difficile che ciò possa realizzarsi se il sistema tende a circoscrivere ciascuno all’interno di un proprio mondo parallelo ma separato, non coassiale con quello degli altri.

Una prova di facile esecuzione di quanto stiamo asserendo è stata fatta utilizzando Facebook. Si è iniziato aderendo e sottoscrivendo gradimento, tramite il tasto “Mi piace”, a un gruppo Facebook, denominato “Torino antiche immagini” e nei trenta giorni successivi, a ogni comparsa di nuove foto d’epoca, si è continuato a conferire un “Mi piace”, ma alle sole foto della città, escludendo paesaggi o borghi del circondario. In una fase successiva, di ulteriori trenta giorni, si è mostrato gradimento per le fotografie (d’epoca) di due sole piazze storiche della città, San Carlo e Castello. Il risultato ottenuto è quello per cui, dopo sessanta giorni, il flusso di fotografie dal Gruppo “Torino antiche immagini” verso la nostra utenza Facebook, era composta, per oltre l’ottanta percento, dalle foto delle sole due piazze storiche di Torino, dal 1878 a oggi.

Risulta evidente a questo punto quanto esposto in precedenza; il mondo parallelo, quello digitale, sta prendendo una deriva sulla quale è opportuno qualche approfondimento.

Quello che era stato salutato come il mondo della trasparenza e senza confini, un mondo anonimo, dove ognuno avrebbe potuto illustrare se stesso come meglio desiderava e intrattenere relazioni virtuali impersonando il personaggio che preferiva, si sta rivelando un formidabile strumento di raccolta e analisi di tutti i nostri dati personali.

Risale ormai a diversi anni fa un illuminante articolo del Wall Street Journal, dove si rendeva conto di uno studio svolto dal quotidiano sui cinquanta siti più popolari negli U.S. Tutti questi siti installavano, già in quella data, in media 64 cookie relativi a ciascun visitatore. Stiamo parlando di siti della portata di MSN Microsoft, Google, Yahoo, Facebook, Amazon, CNN, ecc. Questo significa che quando cerchiamo una parola come “presbiopia” su un motore di ricerca o un dizionario online, il sito interpellato può arrivare a installare fino a 223 cookies, che permetteranno ad altri siti di inviarci pubblicità legate alla salute della terza età.

Si deve prendere coscienza che è in corso una formidabile competizione commerciale, all’interno del mondo digitale, tra grandi corporation, da Google, Facebook, Apple, Microsoft, IBM, HP, Amazon, per poter avere tutti i dati possibili su ciascun navigante della Rete. E’ vero che alcune di queste aziende, come Google, si impegnano a non divulgare a terzi le informazioni in loro possesso, ma moltissimi altri siti non lo fanno. Applicazioni ormai diffusissime come i siti di prenotazioni di biglietti di viaggio o alberghieri non garantiscono questo tipo di riservatezza. Infatti proprio da canali come questi, dalle pagine visitate di questi siti, e dai format compilati, si genera un grande mercato di informazioni circa i nostri comportamenti online. Basti citare un’azienda americana, la Axiom, che già nel 2004 aveva una media, per utente, di 1500 informazioni, quali la capacità di credito ai farmaci acquistati online, tutte persone presenti nei loro database, che comprendeva il 96% degli americani.

Inoltre le migliori prestazioni raggiunte dagli apparati di trasmissione ed elaborazione negli ultimi anni, consentono ormai a tutti i siti, non solo ai grandi operatori citati, di trasferire i singoli “click” dai nostri apparati di connessione ad altri gestori di dati in tempo reale. La strategia che presiede a tutto ciò è già stata affrontata, maggiori sono le informazioni che raccolgono e maggiori spazi pubblicitari possono vendere e maggiori opportunità per vendere i prodotti pubblicizzati. Una percentuale importante di quanto viene venduto dipende ormai dalle ipotesi e dalle previsioni che i siti fanno su ciascun cliente.

La direttrice operativa di Facebook, Sheryl Sandberg, ha dichiarato che entro cinque anni i siti saranno tutti personalizzati. E l’amministratore delegato di Google, in carica nel 2010, dichiarava:” Il prodotto che ho sempre voluto creare […] è un software che indovina quello che sto per scrivere”.  Infatti Google Instant è in grado di anticipare ciò che stiamo per scrivere; si tratta della logica che presiede il traduttore di Google, basato anch’esso sull’analisi delle ricorrenze delle parole utilizzate nelle varie lingue, e l’analisi delle possibilità della loro collocazione nel contesto più probabile; utilizza i Big Data, niente vocabolario e niente grammatica. Ed è stato messo a disposizione degli utenti già nel 2010. Sempre secondo Google sono gli stessi utenti che desiderano che l’applicazione indichi loro cosa devono fare, e questo in buona parte è vero.

Per avvicinarci al centro del problema, dobbiamo osservare che, se quanto esposto fosse circoscritto a un nuovo e più sofisticato livello di pubblicità, saremmo in presenza di un fenomeno ormai noto e al quale, in modi diversi, il grande pubblico ha anche sviluppato dei sistemi se non proprio di difesa, quantomeno di assuefazione dovuta alla sovraesposizione. Ma il problema risiede nel fatto che tutto ciò non si limita alla pubblicità.

Gli utenti che si informano o che la cui principale fonte di informazione sono siti di notizie personalizzate, sono in continua crescita, sia all’estero che in Italia. Siti come Facebook si incamminano a diventare tra le più importanti fonti di informazione. Il 36% degli americani sotto i trent’anni si informa attraverso i social network. E’ bene sottolineare che, per fare un solo esempio, la diffusione della piattaforma Facebook era di 700.000 nuovi iscritti al giorno, già dal 2009.

Facebook è probabilmente oggi la fonte di notizie maggiore del mondo. Ma ormai la personalizzazione non è certo più al suo solo appannaggio. Tutti i siti oggi adattano i loro titoli e l’organizzazione dei loro contenuti ai nostri reali o presunti interessi. La personalizzazione agisce anche attraverso le scelte dei video che scegliamo su YouTube, dei blog che frequentiamo; agisce analizzando le email che riceviamo, con chi ci relazioniamo nei siti per cuori solitari o i ristoranti che scegliamo.

Gli algoritmi che gestiscono la pubblicità si stanno spostando verso la gestione della nostra vita privata. Il criterio è elementare; questi nuovi algoritmi “filtro” accertano le cose a noi gradite, secondo le informazioni date dalle tracce digitali che lasciamo; le raggruppano per cluster di informazioni e poi estraggono le informazioni. Quindi costruiscono un mondo specifico per ogni utente, una capsula che non rende un rapporto fedele tra il nostro e gli altri mondi digitali.

Le nostre scelte si orientano sempre nel cercare ciò che ci può piacere o essere utile e scartare il resto; tuttavia, nel mondo della Rete, l’utilizzo degli algoritmi filtro introduce degli aspetti inediti, i quali rendono questa condizione particolarmente complessa.

In primo luogo all’interno della capsula informativa, generata dai nuovi filtri, l’utente è solo. Infatti un canale televisivo (a pagamento) che si occupa solo di tennis, calcio o di regate condensa attorno a se numerosi utenti che condividono quell’interesse o una determinata passione. Nella capsula informativa invece l’utente è solo. Il paradosso di un’epoca, la nostra, in cui le esperienze dovrebbero essere condivise facilmente, la capsula dei filtri tende ad allontanare e poi separare gli individui.

In secondo luogo la capsula nella quale l’utente è collocato è sostanzialmente invisibile; per esempio chi cerca notizie consultando fonti con un particolare orientamento etico o politico, è consapevole che tali informazioni si rivolgono a coloro che hanno un determinato orientamento. Ma i motori di ricerca non sono trasparenti a tal punto, certamente non Google, come abbiamo visto. Infatti nessun motore di ricerca ci dichiara chi presume chi siamo e tantomeno perché ci mostra proprio certi risultati. Non siamo in grado di stabilire se gli algoritmi di filtro stiano formulando ipotesi corrette su di noi e tantomeno se le stiano facendo in determinate fasi del processo di navigazione e ricerca. Può accadere che facendo ricerche su titoli finanziari atipici, quali i derivati, a scopo informativo, il sistema cominci a proporre informazioni legate alle operazioni di borsa e quelle legate agli operatori del settore; oppure, un fatto che può addirittura indispettire maggiormente, riguarda il caso che, in prossimità di una gara stracittadina di calcio, cominci a inviare materiale sulla squadra avversaria a un tifoso che aveva cercato notizie, dell’ultima ora, sulla formazione degli avversari.