BIG DATA E STORIA RAGIONATA DEGLI ALGORITMI – seconda parte – di Fiorello Casi

E’ evidente, dopo quanto affrontato nella prima parte di questo articolo, che i campi di applicazione di questa nuova disciplina sono molto numerosi e la ricerca delle correlazioni, il nocciolo delle attività riguardanti gli algoritmi, ha assunto una centralità esclusiva nelle attività inerenti a tutte le grandi quantità di dati. Questo fatto assume un’importanza enorme in tutte le attività commerciali e finanziarie e ha già modificato i rapporti tra i fornitori di prodotti e servizi e i loro clienti. Aziende commerciali gigantesche come Amazon basano tutta la loro attività sulla raccolta di informazioni on line dei propri clienti, incrociata con altri dati provenienti da altrettanto enormi data set, relativi ai social network, piuttosto che da quelli sulla climatologia o sugli spostamenti urbani. Tutto rivolto alla ricerca di correlazioni, di modelli invisibili dall’occhio umano ma in grado di fornire risposte puntuali in termini di previsioni. Questo approccio è ormai adottato da tutte la aziende, non solo quelle commerciali e ne costituisce la parte nevralgica, in grado di condizionare le scelte manageriali, organizzative, commerciali e della produzione. Una portata enorme che modifica radicalmente almeno un secolo di pensiero logistico. Bisogna tornare alla “gabbia d’acciaio” di Max Weber per trovare una voce critica nei confronti della pervasività dell’ordine burocratico organizzativo. Infatti un aspetto che allarma una parte dei commentatori di questo nuovo corso culturale, legato all’emersione della “Data Science”, consiste nell’affermazione di un mondo sempre più datizzato, in cui gli algoritmi saranno in grado di produrre previsioni ed esiti riguardo ai corpi sociali e individuali in azione nella realtà. Con gravi implicazioni sul concetto di libero arbitrio. Questo aspetto sarà trattato nella sezione successiva di questo lavoro.

Ritornando alle correlazioni, attività centrale legata agli algoritmi operanti nel mondo dei Big Data, è opportuno ribadire che il concetto di correlazione ha e ha avuto la sua utilità da tempo analogo a quello delle matematiche. Tuttavia, anche in questo caso, con l’avvento delle gigantesche quantità di dati, anch’esso ha assunto un’importanza maggiore. Una correlazione misura il valore di una relazione statistica tra le variazioni di due dati. Il punto centrale consiste nel registrare una correlazione importante tra il variare di un valore e il variare anche dell’altro messo in relazione con il primo.

Si potrebbero fare migliaia di esempi di questo tipo, utilizzati nei più diversi settori, dalla scienza al marketing, dalla politica al “government”; persino la ricerca storica ha subito un impulso enorme dagli algoritmi di correlazione.

Riprendiamo quanto esposto poco sopra riguardo alle potenti correlazioni, che utilizziamo come unico esempio, al fine di omogeneità di trattazione, riguardanti le predizioni legate a Google Flu Trends; proprio come si è visto, al crescere del numero di utenti, residenti in una determinata area geografica, che digitavano certe parole nel motore di ricerca, maggiori erano i casi di influenza registrati nella stessa zona. Ovviamente un basso valore di correlazione indica esattamente l’opposto; si potrebbe mettere in correlazione il colore degli occhi delle persone con la loro propensione al giardinaggio e non cavarne informazioni utili.

Quindi un assunto importante riguarda il fatto che le correlazioni sono in grado di analizzare un fenomeno (posto che si sia in grado di impostare correttamente la domanda) ma non sono in grado di spiegare i meccanismi interni, il perché, ma sono solo un potente indicatore. Le correlazioni non forniscono certezze come la scienza ma solo probabilità. Tuttavia se il valore della correlazione, come si è visto, è elevato o molto elevato, la probabilità di un evento correlato diventa elevatissima. Ecco la potenza della correlazione applicata ai Big Data. La ricerca di un indicatore altamente rappresentativo di qualsiasi fenomeno, si badi bene, sia di marketing ma anche di “ordine pubblico”, è enormemente facilitata e le conclusioni riguardo il presente si uniscono a quelle relative anche al futuro dello stesso fenomeno.

Tutto ciò apre a problemi etici complessi; infatti potrebbe verificarsi (e di fatto già si verifica) che modelli di correlazioni predicano quale gruppo e addirittura quale individuo potrà compiere un atto criminoso. In questo caso i criteri di comportamento da adottare si aprono a una riflessione importante. Certamente le correlazioni non potranno mai predire il futuro, ma sono e saranno ancora di più in grado di previsioni molto attendibili; ma restano comunque un’opzione di enorme valore per infinite attività. Già da diversi anni questo tipo di analisi viene svolta con risultati notevoli nel campo commerciale, ottimizzando notevolmente servizi, profitti e risparmi energetici. Emblematici i casi della grande distribuzione che, attraverso analisi e correlazioni, ha ridisegnato l’organizzazione degli approvvigionamenti e quello della dislocazione dei prodotti. L’accelerazione impressa negli ultimissimi anni a questi strumenti ha reso ancora più efficace questo sistema, fornendo a costi molto più bassi queste analisi e rendendo la rilevazione delle correlazioni più numerose. Ma l’insidia di tutto ciò si cela nell’aumento, all’aumentare dei dati e delle analisi svolte, delle correlazioni false o con responsi tautologici. Lo studio di questa disciplina è ancora in una fase di formazione e le competenze per organizzare un nucleo di pensiero speculativo circa la formulazione delle domande è ancora molto fluido.

Se l’utilizzo delle correlazioni ha un passato lontano, con l’avvento dei Big Data il suo utilizzo diventa esponenziale. Solo pochi anni or sono, la raccolta dei dati era molto più difficoltosa e onerosa, in termini di tempo e di costi. Si privilegiava l’individuazione di un indicatore rappresentativo, si procedeva alla raccolta dei dati relativi a esso si procedeva all’analisi delle correlazioni per la verifica dell’attendibilità. In questo caso il problema risiedeva nella scelta dell’indicatore giusto. Si partiva da alcune ipotesi che facevano capo a una determinata teoria; e in base alle ipotesi si raccoglievano i dati, la correlazione veniva usata per confermare la validità degli indicatori stessi. Se il processo non era soddisfacente l’unica procedura possibile era ripetere indefinitamente questo ciclo verificando, di volta in volta, eventuali errori nella raccolta dei campioni o la invalidità dell’ipotesi sulla quale presidiava una determinata teoria. Abbiamo visto come il sapere accumulato si sia evoluto seguendo questo processo di accumulazione di esperienze verificate e confermate. E’ stato un processo secolare, subordinato agli schemi mentali di volta in volta preminenti nella storia (frame cognitivi) che, di fatto, hanno sicuramente limitato la formulazione di ipotesi e di conseguenza quella della costruzione di indicatori rappresentativi.

Con i Big Data tutto ciò, come abbiamo già in parte sottolineato, perde una buona parte di utilità. Le condizioni storiche che rendevano fatale un approccio basato sulle ipotesi vengono ormai meno; infatti la quantità di dati a disposizione oggi, unita alla potenza di calcolo a disposizione, rende superfluo nella maggior parte dei casi, la selezione concettuale di indicatori, per poi passare a esaminarli. Oggi siamo in grado di operare un’analisi quantitativa su una quantità gigantesca di dati e individuarne in modo puntuale gli indicatori rappresentativi; a questo riguardo è sufficiente l’esempio riportato circa il progetto “Flu Trends” di Google, che è stato in grado di giungere al risultato dopo aver processato circa mezzo miliardo di modelli matematici.

Questo lavoro non è la sede di ulteriori approfondimenti di carattere tecnico riguardo gli aspetti più interni alle problematiche computazionali; ci limitiamo a sottolineare alcuni aspetti tecnologici che oggettivamente, per via quasi osmotica, condizionano, innescano e riscrivono una parte sostanziale, gnoseologica delle nostre esistenze a questo punto della storia.

Quello che oggi muta, radicalmente, in una parte non secondaria dell’indagine sulla realtà, consiste nel fatto che non è più necessario avere una buona e fondata ipotesi su tantissimi fenomeni ma è sufficiente avviare un’analisi massiccia sui dati a disposizione, e che sono in continua crescita. L’attività principale consisterà sempre più nel lasciare i Big Data all’analisi di correlazione e lasciare ai sistemi di individuare, attraverso il Data mining, quali sono i migliori indicatori o i più rappresentativi, che è lo stesso, della pandemia influenzale, del momento migliore per acquistare un biglietto del treno, o cosa acquisteranno le famiglie nell’imminenza annunciata di un allerta meteorologico o terroristico. Il punto di forza di tutto ciò risiede nel fatto che a queste interrogazioni i risultati saranno più precisi e ottenuti in tempi brevissimi, proprio perché non condizionati da nessun pregiudizio.

Al centro dei Big Data ci sono le analisi predittive basate sulle correlazioni. Parlando di correlazioni, alla luce di quanto affrontato fino a ora, il richiamo con una concezione utilitarista del mondo e dei valori che essa richiama, non pare infondata.

Alcuni esempi possono orientare maggiormente l’attenzione su questo assunto.

Già da diversi anni gli indici di affidabilità finanziaria vengono perfezionati per predire il comportamento finanziario personale e la solvibilità aziendale. Ma oggi i maggiori istituti di credito e di assicurazioni investono cifre importanti per lo sviluppo di nuovi algoritmi e metodi di raccolta dei dati per questo fine. Se tali indici vedono la loro nascita intorno alla fine degli anni Cinquanta, è del 2011 l’introduzione, per la prima volta negli U.S., del “Medical Adherence Score”. Questo strumento consente di stabilire il tasso di probabilità con cui i pazienti assumeranno le medicine loro prescritte. Il sistema, analizzando una serie di variabili, alcune apparentemente molto lontane dall’obiettivo della analisi (per esempio, da quanto tempo vivono allo stesso indirizzo, stato civile, permanenza nello stesso posto di lavoro, possesso di un’auto), è in grado di fornire un aiuto sostanziale, in termini di risparmio economico, a tutti i fornitori di assistenza sanitaria; lo fa evidenziando tutti coloro ai quali è necessario inviare un promemoria al riguardo, perché altrimenti distratti. Quello che può legittimamente ancora oggi stupire è che tra il possedere un’automobile e la propensione ad assumere un farmaco regolarmente, non c’è nessun rapporto causale ma solo la correlazione di due fenomeni; però con una potenza previsionale sorprendente.

In campo assicurativo l’utilizzo delle analisi predittive basate sulle correlazioni dei Big Data si sta espandendo in modo velocissimo. Strumenti per l’individuazione delle frodi basate sulle analisi di miliardi di dati presenti sui social network (FaceBook, Twitter, WhatsApp, Chatbot, ecc…) sono ormai molto diffusi e sempre più potenti. Seppure molto interessante come campo di ricerca, non rientra negli obiettivi di questo lavoro che, per omogeneità di argomenti trattati, si rivolgerà maggiormente al campo sanitario.

Anche riguardo al comparto assicurativo e dei servizi da esso offerti, sia al pubblico privato, sia quello relativo alla pubblica amministrazione, le possibilità offerte da questi nuovi sistemi sono enormi. Già da alcuni anni le grandi compagnie di assicurazione, del comparto della salute, hanno iniziato a utilizzare, per esempio, le situazioni creditizie e i dati di marketing come marcatori nell’ambito delle analisi del sangue e delle urine di alcune fasce della propria clientela. Lo scopo è sempre quello di riuscire a individuare categorie a rischio come i diabetici, gli ipertesi e i depressi. Sempre col metodo dell’analisi di colossali quantità di dati sugli stili di vita e delle loro correlazioni; dagli hobby ai siti Web visitati, dai tempi di permanenza davanti al PC o alla TV e alla fascia di reddito. Questi sistemi hanno già una diffusione capillare negli U.S. e in Canada ma già diverse Compagnie li stanno adottando in Europa e nei mercati asiatici. Inoltre sistemi come quello appena descritto hanno anche un ulteriore beneficio; data l’alta affidabilità i clienti potrebbero evitare di sottoporsi al prelievo del sangue e delle urine, evitando il disagio dell’assicurato e la riduzione di un costo per l’assicuratore. Quest’ultima opzione apre le porte al tema oggetto di una sezione successiva di questo lavoro e sottolinea come i sintomi di un approccio utilitaristico indotto dalla datizzazione del mondo e dai Big Data, sia molto di più che una mera suggestione. Infatti questi potenti sistemi predittivi operano su serie di dati all’apparenza totalmente privi di rapporti e connessioni. Chi indaga su questi dati è favorito dal fatto che qualsiasi traccia digitale, qualsiasi “click” sul PC costituiscono un dato informativo su di noi. Se fossero coscienti di questo non tutti coloro i quali sottoscrivono un’assicurazione sanitaria o sulla vita, sarebbero entusiasti di pagare un prezzo astronomico della polizza perché hanno visitato siti sul paracadutismo, l’alpinismo o il Jumping. Lo stesso vale per coloro che invece passano diverse ore a guardare programmi televisivi o comunque a lasciare tracce digitali di tipo contemplativo. Quindi entra in gioco il problema, non da poco, del condizionamento e della libertà all’accesso di tutte le informazioni da parte delle persone. Ma allo stesso tempo criteri come quelli adottati dalle assicurazioni (pubbliche e private) rendono indubbiamente meno onerosa, sia in termini di stipulazione, sia di costo, la polizza, creando la possibilità di un ampliamento della base assicurativa per la sanità pubblica o i costi per gli utenti di quella privata. Indubbiamente un grande beneficio per tutti. Ma l’individuazione di indicatori significativi nel contesto sociale è solo una parte dell’utilizzo delle tecniche dei Big Data. Una parte importante di queste nuove tecniche viene applicata su nuove fasce di dati, generati dal processo di datizzazione, che vengono processati col fine di migliorare o risolvere problemi operativi. Il metodo dell’analitica previsionale viene così a essere applicato non solo nel contesto sociale, come abbiamo visto, ma anche nell’ambito della produzione e più in generale in tutti i cicli produttivi e nei sub sistemi organizzativi. Oggi le aziende e le corporation, di tutte le dimensioni, utilizzano l’analitica previsionale per prevedere la comparsa di determinati eventi. Vengono così realizzati algoritmi in grado di prevedere il successo di un nuovo prodotto, come accade per le aziende di cosmetici, per avere un profilo delineato su un genere letterario, al fine di indirizzare le case editrici negli investimenti nella direzione ottimale. La progressiva datizzazione del mondo consentendo l’installazione di sensori digitali su gigantesche quantità di oggetti, è in grado di estendere questo tipo di analisi a tutti i settori della produzione e della manutenzione industriale, con benefici enormi in termini di costi e servizi, a soli pochi anni dall’introduzione di queste tecniche. Anche in questo caso l’analisi previsionale si basa semplicemente sulle correlazioni. La sua forza esplicativa si ferma all’individuazione dello schema delle congiunture che sono sottese all’evento considerato. Sensori installati su rotaie, aerei, ponti, caldaie, altiforni, motori, autovetture, sono in grado di raccogliere quantità di dati relativi alle variazioni dei valori fisici e rilevare i cambiamenti forieri di guasti imminenti, con una precisione impressionante. Questo sistema consente, e qui risiede la forza e la portata di questa nuova tecnologia, di impostare segnalazioni che siano in grado di informare di un eventuale problema prima che si verifichi, consentendone la sua risoluzione preventiva. Questa applicazione nel campo della produzione industriale, dei trasporti, dell’energia e in generale in tutti i settori dell’attività umana ha una ricaduta enorme. I problemi sorgono, e in buona parte ci sono già, quando gli stessi strumenti vengono utilizzati in ambito sociale o individuale. Ma questo aspetto sarà oggetto di un approfondimento successivo.

E’ opportuno sottolineare ancora una volta che questo strumento dell’analisi previsionale non è in grado di spiegare la causa di un evento problematico, ma è potentissimo nel rilevarne l’esistenza o il suo sorgere. Le correlazioni sono solo in grado di indicare cosa sta accadendo e non il perché, sul quale perché l’autorità è detenuta sempre dalla scienza. Ma intuitivamente il sapere (in anticipo) cosa stia accadendo conferisce a questo metodo una potenzialità vastissima su tutte le attività produttive e dei servizi sociali.

Anche se i dati così trattati informano semplicemente sulle correlazioni e non forniscono alcun indizio circa la causalità, il loro progressivo utilizzo in questo senso può portare a enormi benefici e a un cambiamento strutturale nella interpretazione e gestione di tutte le attività umane.

Si prenda come esempio uno dei settori più problematici, in ambito sociale, come l’assistenza sanitaria. Qui gli esempi di applicazione e utilizzo di questa tecnica sono infiniti. Con la massiccia diffusione di sensori digitali per le rilevazioni più disparate, e la progressiva discesa del loro costo, compresa quella degli apparati elettromedicali, il flusso di dati che generano i pazienti collegati a tali macchine vengono quasi persi completamente. Se tutti i dati fossero drenati opportunamente e correlati a quelli di tutti gli altri pazienti, sarebbero in grado di offrire informazioni utili sulle terapie, sulle risposte alle cure e sulla loro validità; tutto senza entrare nel campo scientifico.