Le importanti problematiche, attinenti all’impiego delle strategie scientifiche, economiche e politiche, legate alla legittimazione dell’utilizzo dei Big Data saranno oggetto di un’altra sezione di questo lavoro. Qui ci limitiamo a proseguire e approfondire un aspetto già citato in precedenza e legato alle prospettive etiche insite e specifiche delle attività inerenti i Big data in quanto tali; la raccolta, la selezione e l’analisi dei dati.
L’etica dei Big Data si condensa intorno a un rinnovato rapporto tra pubblico e privato. Si è visto come questo aspetto rechi con sé l’altrettanto importante problema dell’individuazione di strumenti atti a equilibrare chi detiene il potere di questa tecnologia e le salvaguardie per chi è oggetto, attivo e passivo, delle stesse.
La novità, che sta al centro di questo fenomeno, sono le quantità dei dati in gioco; la “mass storage” come è chiamata nel mondo ICT. Anche se provenienti da fonti eterogenee, diversificate e in formati morfologicamente diversi rispetto al passato, i database restano sempre – alla fine di un percorso di strutturazione – un sistema organizzato (con file di dati e tabelle di interpretazione) per ordinare, semplificando, dati relativi a individui o eventi. Coesistono al suo interno migliaia di variabili che corrispondono a un individuo e allo stesso tempo esistono migliaia di individui che corrispondono a una variabile. Questo fatto crea delle conseguenze rilevanti per quanto riguarda la riflessione sui Big Data e le loro prerogative; infatti il pericolo principale è quello che da nobile risorsa prendano una deriva come strumento di controllo. Il rischio è molto concreto e sempre attuale. Innanzitutto va tenuto presente che la inedita facilità con cui si riesce ad accedere ai dati, non ne garantisce, da sola, un uso lecito e legittimo; invero le gigantesche quantità di informazioni archiviate nei database di aziende come Google, Facebook o Amazon pongono l’urgenza sulle garanzie di riservatezza sul trattamento aggregato di questi dati. Considerando il potenziale predittivo dei Big Data, è sempre più necessario delineare bene i contorni delle finalità del loro trattamento e avviare politiche che prevedano il coinvolgimento di detentori di queste informazioni nella costituzione di nuovi e adeguati procedimenti di autorizzazione al trattamento dei dati personali, simili a quello che oggi è il consenso informato attivo in medicina.
Ma già alla luce di quanto esposto sopra, riguardo all’analisi predittiva dei Big Data, quella del consenso informato, in ogni caso, si presenterebbe come una soluzione debole. La capacità predittiva, implicita nelle tecniche coi Big Data, può giungere a conclusioni o interpretazioni dei dati completamente fuori dal perimetro di regole stipulate in precedenza, circa il consenso al trattamento di dati personali.
Un’altra proposta per la regolamentazione di questo rischio riguarda il trattamento dei dati senza adottare la contiguità dei database che, in questo caso, non dovrebbero essere incrociati. Ma anche questa soluzione può essere applicabile quando i gestori dei database sono diversi, questo però non accade quasi mai perché, come nel caso dei grandi fornitori come Google, Facebook e Twitter, a database diversi corrisponde sempre un solo fornitore.
L’ultimo esempio da citare di questo aspetto è l’acquisizione della piattaforma “Instagram” da parte di Facebook; in questo caso il database delle foto utente e quello delle interrelazioni utente sono dello stesso proprietario. Quindi, sia le foto, sia le interrelazioni, sono riconducibili alla stessa persona. E l’urgenza di una regolamentazione della riservatezza dei dati si fa ancora più improrogabile, in quanto lo stesso detentore dispone dei dati demografici, sociali e multimediali.
Una soluzione prospettata per superare questo problema è stata individuata nel limitare il diritto al numero massimo di variabili da utilizzare nelle analisi dei Big Data, effettuando una stima di quante informazioni si possano ottenere incrociando altrettante variabili e stabilendo una norma in tal senso. Ciò consentirebbe, per fare un esempio, autorizzare l’uso di 2.000 variabili che rivelerebbero il 74% delle informazioni degli elementi di un campione. Resterebbe, anche in questo caso, aperto il problema dei dati estratti in modo non previsto, come si accennava in precedenza, grazie agli algoritmi predittivi.
E sono proprio gli algoritmi di “predictive analysis” a essere centrali e per questa ragione si è ritenuto di prenderli a modello di riferimento in questo lavoro. Infatti se l’analisi predittiva, unita alla potenza di calcolo attuale, fosse applicata (già alcune applicazioni sono in uso) ai comportamenti criminali e devianti e l’estrazione di un modello di correlazione, informasse in modo puntuale su di un imminente, ma non ancora avvenuto, atto criminale da parte di un soggetto, quale dovrebbe essere la reazione di una forza di polizia o di sicurezza? Sarebbe legittimo un intervento preventivo? Attivare misure serrate di controllo dei soggetti a rischio? Mettere in allerta i soggetti a rischio di attacco? È evidente che per qualunque azione si metta in atto, in ogni caso, si va incontro al problema insidioso e di fragile equilibrio che riguarda il condizionamento del libero arbitrio provocato dai Big Data .
Un secondo aspetto legato alle variazioni di scala delle quantità dei dati trattati, in ambiente Big Data, riguarda il problema definito “democrazia dell’accesso”; consentire un tipo di accesso alle informazioni messe a disposizione, troppo semplice e confortevole, può portare a situazioni in cui troppi individui, per scopi e finalità non lecite, possono accedere a delle fonti informative, che possono tramutarsi in pericolosi strumenti di illegalità. Le possibilità offerte, in questo senso, dalla Rete, sono numerosissime e si ha notizia di reati o comportamenti illeciti legati a quanto sopra esposto, quasi quotidianamente. Un esempio fra tanti può essere quello della piattaforma “Graph Search”, messa a disposizione degli utenti da Facebook, per operare ricerche articolate all’interno della propria rete di contatti col fine di ottenere informazioni più dettagliate. Esiste una casistica importante che dimostra come l’incrocio dei dati strutturati su Facebook possono portare ad atti criminosi di “cyberstalkers”, che in questo modo hanno la possibilità di controllare in modo maggiore la propria vittima, o il drenaggio di fotografie di infanti o adolescenti da parte di “cyberpedofili”.
Il problema è vasto, complesso e complicato. Una prospettiva che non va mai persa di vista rimane quella del principio che presiede i social media. E cioè che questi debbano essere considerati come strumenti di “computational social science”; strumenti adibiti alle analisi sociali e comportamentali attraverso i computer, accettando le conseguenze che questo comporta.
Tutto ciò lascia in un primo momento attoniti, ma a ben guardare tale esito, forse provvisorio, sulla questione etica sul trattamento delle grandi moli di dati, sui Big Data, ricalca il modello di ciò che per la fisica è stato l’acceleratore del CERN di Ginevra o per la biologia la mappatura del Genoma Umano. Proprio le problematiche che hanno dato l’avvio alla progettazione dei nuovi strumenti per i Big Data. E proprio gli stessi Big Data entrano a pieno titolo nella categoria delle “Big sciences”; scienze di grandi dimensioni in termini di finanziamenti, nelle ricerche accademiche interdisciplinari, nel drenaggio dei dati.
La scienza dei Big Data nasce con una problematica importante riguardo il suo campo d’azione. Sono due gli aspetti di tale questione etica. La prima riguarda la risposta definitiva al fatto che i dati divengano uno strumento di controllo. E la seconda è fino a che punto i risultati ottenuti dai nuovi algoritmi possono essere diffusi a una platea di aziende o enti che ne traggano conoscenze per fini puramente commerciali o illeciti. C’è chi addirittura sostiene, come lo scienziato Albert Laszlo Barabasi, che se potenziata col giusto tipo di Big Data, l’analisi dei dati sarebbe una vera e propria arma che può essere dannosa e con una tossicità a lungo termine, come una bomba atomica.
I Big Data, da quanto fin qui emerso, stanno prendendo la scena mondiale come una delle discipline più potenti e affascinanti di tutti i tempi; principalmente per le opportunità che offrono in tutti i campi, dalla politica, all’economia, nelle ricerche sociali, nella cultura e in tutta la ricerca scientifica.
Si deve anche riconoscere, come si è già visto, che la tecnologia può avere due facce; può essere uno strumento di progresso potentissimo ma allo stesso tempo un formidabile strumento di controllo e prevaricazione. Solo un approfondimento degli aspetti e delle implicazioni che l’uso di questa tecnologia coinvolge, e la ricognizione dei profili e degli attori coinvolti potrà consentire che non si trasformi in un pericoloso strumento di controllo e sopraffazione.
Quindi l’essenza dei Big Data mette in luce tre mutamenti nel modo in cui analizziamo le informazioni e che trasformano il modo in cui cerchiamo di comprendere e organizzare la società.
Un primo aspetto riguarda, come già visto, la possibilità di analizzare molti più dati, e sempre più spesso e ora, riguardo a un singolo fenomeno, possiamo analizzarli proprio tutti. Come dicevamo, l’utilizzo di tutti i dati consente di evidenziare dei dettagli che non sarebbe stato possibile rilevare con limitate sezioni di dati (dataset).
In questo contesto è giocoforza che, potendo disporre di quantità molto più ampie di dati o uscire dalla logica del computo con dei dataset delimitati, che è lo stesso, l’aspirazione e l’esigenza all’esattezza vengono depotenziate. Infatti la presenza di meno errori, giocoforza, nel campionamento, consente di accettare qualche imprecisione nel computo.
I Big Data percorrono una strada diversa dalla ricerca e dal metodo scientifico che non potrà mai essere aggirata o posta a un livello di lettura diverso; in qualche modo certificano l’esistente, che esiste indipendentemente dalle nostre letture; dal punto di vista epistemico, se la scienza si occupa dei “perché”, del metodo causale, loro rimangono totalmente focalizzati sulla domanda “come”. Questo dato di fatto ci porta, nell’ambito dell’ecosistema dei Big Data, per molte applicazioni, ad allontanarci dalla ricerca della causalità, non essendo questa la loro vocazione. Coi Big Data è solamente possibile ricercare e scoprire, individuare e analizzare andamenti e correlazioni. In moltissime attività non è necessario conoscere sempre la causa di un fenomeno, ma è più che sufficiente individuare come esso agisca e interagisca con altri e che correlazioni si stabiliscano tra di loro.
La datizzazione nasce da tutto ciò. È una spinta generata dalla presa di coscienza che la capacità acquisita, nel trattamento gigantesco di dati, da parte dell’uomo, consenta oggi di poter acquisire informazioni su tutto ciò che esiste, soprattutto su quello che, fino a poco tempo fa, non era stato possibile, né registrare né accumulare su dei supporti di memoria; acquisire e trattenere informazioni su tutto ciò che esiste e poterle collocare in una struttura, fisica e logica, che le quantifichi. Questo è quello che consente di sviluppare enormemente le capacità predittive con questo sistema, come abbiamo visto in modo articolato parlando del Data mining.
Inoltre, per quanto riguarda innumerevoli aspetti dell’agire umano, il passaggio dal paradigma della causalità a quello della correlazione, consente di liberare una energia che restava sopita e che, una volta presa coscienza del valore potenziale dei dati, viene invece liberata in forme nuove di ingegno riguardo allo sfruttamento delle correlazioni.