LA GENESI DEI BIG DATA (prima parte) – di Fiorello Casi

I Big Data, secondo quanto visto fino a ora, potrebbero avere una storia molto antica, che precede l’esistenza di qualsiasi computer, algoritmo, software e anche del web. Nella storia della filosofia la narrazione delle vicende di Talete legate alla sua speculazione finanziaria sull’affitto dei frantoi come riscatto sociale del ruolo del filosofo è seconda solo a quella, sempre legata a lui, della sua caduta in un pozzo mentre osservava il cielo stellato, con derisione da parte di una servetta tracia. La metafora del pozzo è universalmente utilizzata quale monito nel non distaccarsi troppo dalle vicende terrene e dai rischi della eccessiva intellettualizzazione da parte dei pensatori. Mentre l’operazione di riscatto sociale messa in atto da Talete nei confronti dei concittadini che gli rimproveravano la scarsa utilità delle sue attività di ricerca, ha un sedimento interessante riguardo al tema che stiamo per affrontare. E’ dal primo esponente della scuola di Mileto, nel 600 a.C., che possiamo far risalire l’utilizzo dei Big Data, il primo a impiegare grosse quantità di dati, anche non strettamente connessi fra loro, per farne un uso predittivo e, soprattutto, per trarne un guadagno.

E’ presumibilmente da questa scuola l’inizio del tentativo di superare l’uso di storie e miti legati al mondo degli Dei per interpretare e spiegare i fenomeni naturali, e Talete è stato il primo a raccogliere, negli anni, ingenti quantità di dati da analizzare per riuscire a fare previsioni meteorologiche. Infatti Talete elaborò una sorta di database nel quale venivano raccolti negli anni tutti i dati utili relativi alle condizioni climatiche, e di tanti altri eventi apparentemente scollegati tra loro. Infatti è bene ricordare che, oltre alla quantità di dati e alla velocità con cui questi vengono raccolti, uno degli elementi che consentono di definire i Big Data è proprio la varietà dei dati raccolti e poi combinati fra loro per offrire soluzioni del tutto inaspettate a problemi che talvolta nemmeno si immaginava di avere, riuscendo quindi a risolverli.

Quindi, grazie alla profonda conoscenza degli astri, il filosofo riuscì ad analizzare e interpretare i dati per trarre delle informazioni circa la previsione esatta sui raccolti delle olive, che gli fruttarono un enorme guadagno grazie all’affitto anticipato di tutti i frantoi, con stupore dei suoi concittadini che lo deridevano per la supposta scarsa utilità dei suoi studi. Con questa semplice operazione di speculazione finanziaria, legata alla conoscenza dei dati, Talete non solo realizzò la sua fortuna economica ma, soprattutto, dimostrò da allora che la ricchezza più grande deriva sempre dalla conoscenza.

Ma è il 2013 l’anno che può essere indicato come quello cui i Big Data si impongono, soprattutto in Italia, all’attenzione del grande pubblico, anche se il tema occupava il dibattito tra specialisti già da alcuni anni. I più importanti attori del mercato dell’ICT iniziarono ad annunciare lo sviluppo e la distribuzione di tecnologie dedicate a questo settore e nacquero le prime aziende che concentravano il loro “Core Business” sul trattamento dei dati; inoltre vennero varate le prime direttive europee al riguardo e un ampliamento della definizione di nuove “policy” per la raccolta e il trattamento dei dati in molti paesi. Quella dei Big Data resta comunque per ora una tecnologia dove i confini non sono ancora così netti in modo da consentire, universalmente, di convenire sull’oggetto di cui si parla. Infatti se da un lato, in ambito commerciale, un modo per definire i Big Data è il principio delle tre <<V>>, cioè una metodologia per la raccolta, la gestione e analisi di dati che hanno determinate caratteristiche di volume, varietà e velocità. Dall’altro sorgono subito obiezioni circa la “variety” dei dati; infatti alcuni (tra cui la IBM) ritengono che solo in presenza di una marcata differenza morfologica dei dati stessi si possa parlare di Big Data; in caso contrario ci troveremmo nell’ambito di Data-Warehouse di eccezionali dimensioni. In ogni caso, pur non essendoci ancora una completa condivisione su di cosa esattamente si stia parlando in termini di Big Data, alcuni punti, come accennato sopra, possono essere ritenuti condivisibili da tutti gli attori. Quando parliamo di Volume, per i Big Data, si intendono quantità di dati che richiedono la progettazione e la costruzione di strutture dedicate a tale compito; ricordiamo a questo proposito gli studi astronomici e quelli sul genoma umano, che richiesero per primi la necessità di disporre di strutture di raccolta dei dati fuori del comune. Infatti se nel mondo quotidiano dei volumi dell’informatica ci si muove entro grandezze dei gigabyte (109), coi volumi in gioco dei Big Data si passa rapidamente ai terabyte (1012 byte), petabyte (1015 byte) fino agli Yottabyte (1024 byte), per il momento.

La Varietà è la vera novità di questo nuovo ambiente. I Big Data consentono di poter disporre di dati, sia in forma strutturata (Data-set, Data-warehouse), sia non strutturata affatto; e questo è un superamento formidabile dei vincoli legati alle tecnologia precedenti.

La Velocità, nel nostro caso, è articolata in due aspetti. Da un lato la rapidità nella raccolta dei dati e dall’altro l’analisi delle informazioni. Per ora la definizione di Big Data si ferma sostanzialmente a livello tecnologico, una definizione che rende la cifra del vasto campo di applicazione di quest’ultimi. Tuttavia è intuitivo comprendere che, in questi termini, il campo di applicazione sia enorme. Infatti tutti gli studiosi e i ricercatori, di diverse estrazioni e discipline, concordano sul fatto che a rendere molto interessante questo nuovo settore sono proprio le caratteristiche del settore in sé e non la tecnologia che lo accompagna.

Le caratteristiche che rendono i Big Data sociologicamente e filosoficamente interessanti riguardano il fatto che vengono per la prima volta rese disponibili gigantesche quantità di informazioni e ciò causa, di fatto, le condizioni per un approccio diverso, soprattutto alle scienze sociali (non solo più a quelle scientifiche) e alle relazioni interpersonali.

La raccolta e l’analisi delle informazioni aumenta in modo gigantesco la sua capacità di agente nel cambiamento sociale in atto e sul quale il dibattito era attivo già da tempo, soprattutto nel mondo anglosassone.  Diversi autori andavano da qualche anno sostenendo che il mutato trattamento di enormi quantità di informazioni, rese disponibili a nuovi approcci computazionali dalle tecnologie digitali, stavano mutando l’atteggiamento culturale verso tutti gli aspetti della vita sociale ed individuale. L’economia, la politica, le relazioni interpersonali, in modo integrato la raccolta e l’analisi dei dati sarebbero stati un potente fattore di cambiamento sociale.

E’ opportuno, a questo punto, dare una dimensione delle grandezze in gioco in questa nuovissima fase tecnologica sulla quale poggiano i Big data.

Sotto il nome di Big Data si collocano dei raggruppamenti di banche dati (dataset) così vasti e complessi da richiedere strumenti differenti da quelli tradizionali (Data-Warehouse), in tutte le fasi del processo di datizzazione in atto, dalla raccolta, alla registrazione, manutenzione, analisi e condivisione dei dati, che incessantemente produciamo e registriamo. La sola eccezione che interrompe la circolarità del processo di creazione dei dati, il loro drenaggio e l’analisi, riguarda la condivisione delle nuove informazioni generate dai Big Data. Infatti la condivisione dei risultati di Data-mining sui Big Data non viene rispettata dalla maggioranza degli attori sociali e soprattutto, in modo decisamente più marcato, dai detentori delle piattaforme di raccolta e di gestione degli algoritmi di Data-mining.

La necessità di condivisione dei risultati ottenuti dalle tecniche legate ai Big Data è uno dei punti di attenzione dell’attività etica e bioetica.

Difatti le potenzialità dei Big Data e la loro portata, come fin qui evidenziato, aprono una serie di controversie, alcune ben note e oggetto di dibattito e altre ancora in fieri. Prima fra tutte, rimane quella relativa al diritto alla privacy. Il dibattito su questo problema, che, per quanto riguarda l’ambiente digitale, ha radici almeno dagli anni settanta del secolo scorso, risiede evidentemente nel fatto che la raccolta sistematica di informazioni, nelle forme e modi in precedenza evidenziati, rappresenta, di fatto, un’invasione della sfera privata degli individui e addirittura un rinnovato controllo capillare del loro agire sociale. Infatti già dagli anni novanta si è cominciato a parlare di “data-vigilanza” per indicare la pervasività che i nuovi sistemi digitali operavano in modo progressivo sulla popolazione digitale e non solo su quella. Da questo dibattito, tuttora in corso, sono emersi nuovi aspetti di questa problematica, incrementandone i punti di vista, articolando maggiormente gli elementi di riflessione, tra tutti spicca il diritto all’oblio, la difesa per l’individuo dalla persistenza delle informazioni nella Rete, resa possibile dalla tecnologia del Data- mining e dai gestori degli algoritmi di ricerca (per esempio Google). 

Il rapporto e la definizione di pubblico e privato entra in una fase di ripensamento e ridefinizione per forza di cose; e la posta in gioco non può essere affrontata solamente dalla prospettiva tecnologica. L’aspetto importante da sottolineare riguarda come, dalla comparsa di questa metodologia recentissima, esigenze legittime quali il diritto alla riservatezza, accentuino marcatamente le difficoltà di individuarne e garantirne una soluzione.

Una chiave di lettura e uno spunto interessante, per avviare una riflessione su questo tema, possono essere i tre paradossi dei Big Data, una interessante riflessione a favore del loro avvento e della loro indubbia validità ma e al tempo stesso la loro contraddittorietà e ambivalenza circa alcune loro specifiche qualità.

Il primo paradosso può essere individuato con la trasparenza. Nel corredo di opportunità che recano con sé le tecnologie dei Big Data, una importante riguarda la loro capacità predittiva che consente, in prima battuta, una comprensione maggiore del mondo e quindi una maggiore trasparenza; tutto ciò grazie al processo di datizzazione che consente di “scavare” informazioni da enti da cui precedentemente era impossibile trarne. Ma il paradosso risiede proprio negli strumenti; tecnologie, come si è ormai visto, pressoché invisibili i cui strumenti, fatta eccezione per gli specialisti, sono totalmente oscure agli utenti (configurazioni dell’Hardware, dei network, gli algoritmi di Data-mining). A questo si aggiunge l’opacità dei modelli scientifici di analisi e quelli legali, che riguardano i copyright di tutte queste tecnologie.

Un altro aspetto paradossale riguarda l’identità personale. Anche in questo caso, come accennato nella ricognizione sull’accesso e la permanenza in Rete degli utenti, la presenza della dicotomia identità-soggettività scopre il fianco all’emersione di una contraddizione. Universalmente si è portati a definire l’identità partendo da un soggetto che si riconosce come individuo singolo, agente e operativo. Ma le tracce digitali che lasciamo continuamente e che vengono raccolte dai sistemi di Big Data, come visto nel precedente articolo dedicato all’accesso al Web, e cioè in modo gigantesco e successivamente elaborate e analizzate in modo dettagliato, portano ad interpretare i dati in termini predittivi. E quindi sono i Big Data a dichiarare chi siamo e chi stiamo diventando; non c’è più un soggetto in azione ma un sistema che gli attribuisce un corredo di azioni che lo identificano.