BIG DATA: DATIZZAZIONE UN NUOVO APPROCCIO AL MONDO di Fiorello Casi

La datizzazione del mondo arriva da lontano, giunge dagli albori della nostra civiltà. Oltre al censimento voluto dall’Imperatore Augusto, citato in apertura, basti ricordare le testimonianze archeologiche che sanciscono la nascita della scrittura (e del computo) nell’allora Mesopotamia e che giungono fino ai giorni nostri in maniera sempre più crescente e pervasiva; dai censimenti decennali della popolazione ai grandi database governativi. Questo anelito si è protratto per decine di secoli, rispondendo sempre alla medesima necessità ed esigenza. La registrazione e il computo per dare una dimensione al mondo. Ma nel breve lasso di tempo che separa la nascita dei primi elaboratori e il periodo attuale, tutto ciò, dopo secoli, ha subito una trasformazione impressionante. Per secoli, pur con costanti miglioramenti e colpi di ingegno, il sistema di registrazione e computo è stato quello analogico; ciò ha comportato una onerosità elevata in tutte le epoche, dalla Mesopotamia, al codice Hollerit, sia in termini economici, sia in ordine di tempo.

La svolta, si è visto, si manifesta pienamente con la digitalizzazione. Un processo che, per dischiudere completamente le ali dell’efficienza, ha impiegato circa trent’anni, gli ultimi del secolo scorso, ma che sono di ordine infinitesimale rapportati con i precedenti secoli di dominio analogico. Questo ha permesso un fatto straordinario, ha reso innanzitutto leggibili dai computer le informazioni analogiche, rendendo i processi di archiviazione e ricerca enormemente veloci rispetto a prima. Inoltre la raccolta e l’analisi delle informazioni che nel passato richiedevano tempi lunghissimi, oggi possono essere svolte in tempi rapidi, nell’ordine dei giorni e delle ore. Ma soprattutto gli analisti dei dati del passato subivano il condizionamento del loro paradigma analogico e cioè di isolare partizioni di dati (dataset) che avessero delle finalità specifiche a cui facevano coincidere il loro valore. Il paradigma ha continuato a recare con se questo pregiudizio anche dopo l’avvento dei computer. E’ stato solo la concomitanza degli eventi sopracitati a creare le condizioni per l’emersione della datizzazione e con tutto ciò che ha implicato e rivoluzionato. E’ intuitivo che la portata completa di quello che tutto ciò significhi e implichi, non la si riuscirà a valutare in modo adeguato prima di diversi anni e forse di più. Siamo certamente alle soglie di un mutamento che deve ancora trovare la sua reale portata, i suoi canali per manifestarsi e le modalità di espressione.

E i Big Data sono già saldamente sulla strada di una nuova rivoluzione. Le attività economiche, la scienza, la sanità e la medicina, le attività governative, e tutte le discipline umanistiche saranno profondamente rivoluzionate.

E’ molto più di una ipotesi già oggi, la previsione di un mutamento, che in fasce tecnologicamente avanzate è già in atto e che porterà anche il settore industriale a una fase nuova, denominata “industria 4.0”.  E’ prevedibile che il mutamento di paradigma interesserà vaste zone del mondo produttivo, dove le competenze specifiche vedranno ridotta la loro centralità a favore della probabilità e le correlazioni. Ciò, svelando modelli contro intuitivi o inediti, potrebbe portare a una profonda modificazione, per esempio, delle idee (tradizionali) che hanno presieduto il pensiero organizzativo, del management e quello decisionale della leadership, dalla gestione delle risorse umane all’educazione.

Inoltre le possibilità aperte da questa nuova fase nel campo della ricerca, ha consentito di potenziare enormemente le scienze attuali e creato le condizioni per la nascita di nuove ed interessanti branche, soprattutto nell’ambito delle discipline umanistiche le quali, non erano mai state irrorate dai favori della tecnologia come in questo periodo.

Alcuni Autori riportano le stime sul numero totale di titoli di libri, mandati a stampa, dal giorno della sua invenzione. Dal 1479, si stima che siano stati 130 milioni. Dopo sette anni di attività, nel 2012, Google, col suo progetto di datizzazione, ne aveva digitalizzati e indicizzati oltre 20 milioni. La congiuntura favorevole ha consentito la nascita di una nuova disciplina denominata “culturomica”. Che ha visto la sua nascita con gli algoritmi di Google Books della piattaforma, digitalizzata e datizzata sulla quale operano; e dove le dimensioni in gioco, riferite al 2012, rispetto, per esempio a quelle affrontate per il genoma umano, con tre miliardi di basi da correlare, diventavano una cifra modesta. E le ricerche su quantità gigantesche di parole contenute in altrettante quantità di libri sono oggi ormai numerose, da parte di numerosi gruppi di studio, e il neologismo culturomica si è affermato nell’ambito delle ricerche umanistiche; da Facoltà come Harvard, a quelle che proseguono le prime attività matematico-letterarie iniziate (sulla piattaforma Google Books) da Lieberman-Aiden, che per primo portò alla scoperta, tramite questa tecnica, a un’inaspettata fonte di nuove informazioni. Tutto ciò ha anche generato un interessante dibattito su quella che è stata definita la “materia oscura lessicale”.

Infatti, la prima scoperta che il gruppo di lavoro, coordinato da Lieberman-Aiden, ha realizzato, consisteva nell’aver individuato mezzo milione di parole inglesi ignorate da ogni dizionario. Questo fatto che consentiva di individuare una “materia oscura lessicale”, apriva le porte a nuove e interessanti attività di ricerca, dall’archeologia lessicale alla costruzione di immagini culturali del passato. Tutto ciò venne annunciato per la prima volta sulla rivista Science, il 16 dicembre del 2010. Da allora i risultati sono andati oltre il ritrovamento della “materia oscura lessicale”. Molte occasioni di ricerca si sono aperte da questa potenzialità; ad esempio la permanenza di tracce culturali oltre la loro presunta scomparsa, condizionamenti politici e censure mai rilevate prima e molto ancora. Tutto ciò reso possibile dalla datizzazione della tracce lasciate dall’umanità. E’ possibile che anche riguardo a questa nuova disciplina sorgano accese discussioni sulla liceità riguardo l’uso di questa tecniche di analisi rispetto all’ortodossia delle discipline che, in vario modo, va a contaminare.

Ma ai fini di questo lavoro ci limitiamo a esaminare gli aspetti legati all’emersione di un universo digitale, datizzato e alla inedita e sensazionale capacità di analizzarlo come mai era stato possibile prima nella storia dell’uomo. Due esempi delle possibilità offerte dalla culturomica alle scienze umane riguardano la verifica di ipotesi su casi di censura nella storia, uno studio che ha svolto la studiosa e autrice Aviva Presser Aiden. La ricerca è partita da alcuni nomi di intellettuali e artisti noti per essere stati censurati durante il nazismo, e ne è stata misurata la variazione della frequenza nei libri in lingua tedesca e inglese. Così i nomi di Marc Chagall e quello di Pablo Picasso, uno ebreo e l’altro rappresentante della cosiddetta arte degenerata, secondo l’ideologia del terzo Reich, scompaiono dai libri tedeschi pubblicati dal 1933 al 1945, mentre rimangono stabili nella stampa inglese della stessa epoca. L’attività di analisi di dati di questo tipo, di Data mining, sia su Big Data ma anche sui “Long Data” (i dati storici) possono rivelarsi un contributo eccellente per analizzare e individuare fenomeni o conferme a supposizioni sui cui non si poteva indagare oltre le capacità fisiche precedenti ai Big Data. E’ possibile che nuove informazioni potranno essere raccolte nell’analisi dell’universo datizzato; individuare la nascita delle ideologie, dei grandi movimenti politici e culturali, la diffusione di idee e personaggi famosi. Tutto ciò è alla portata di questo nuovo strumento applicato alla lettura del mondo e delle parole.

E il processo di datizzazione (e digitalizzazione) continua a coinvolgere un numero crescente di enti, attraverso delle tappe progressive legate al continuo rilascio di nuovi apparati di lettura e raccolta dei dati.

Prima di concludere questa ricognizione sul cambiamento dell’approccio, nell’osservazione e interazione con questo nuovo mondo datizzato, riteniamo utile al fine di questo lavoro, riprendere ancora due aspetti che possono rivelarsi utili nell’analisi successiva, riguardo i principi ed i criteri che presiedono allo sviluppo degli algoritmi e dell’ecosistema sorto intorno ad essi.

Il primo riguarda la generazione dei dati legati alle dimensioni e alla posizione degli oggetti e, in definitiva, del mondo stesso. La necessità di misurazione del mondo, la standardizzazione di tali misurazioni e la loro raccolta in maniera ragionata e fruibile è un’attività che, almeno in occidente, inizia con Eratostene nel 200 a. C. Con Tolomeo, intorno al 1400 d.C., con la sua opera “Geographia”, inizia l’uso delle mappe in scala e la comparsa della longitudine e della latitudine. E nel 1884 durante i lavori dell’International Meridian Conference di Washington, un primo nucleo di 25 nazioni indicarono in Greenwich come punto di riferimento per la misurazione della longitudine terrestre, attribuendogli il valore zero, e lo stesso fecero con il meridiano che passava sulla cittadina, dando così il via a una unificazione delle misurazioni universalmente utilizzata. Il processo venne completato durante gli anni quaranta del secolo scorso quando venne creato il sistema di coordinate denominato “Universal Transverse Mercator” (UTM); tale sistema completava il percorso di miglioramento delle mappature del mondo dividendolo in 60 zone, aumentandone notevolmente la precisione. L’ultima tappa di questo cammino risale alla fine degli anni ’70 del secolo scorso quando venne inaugurato quello che ancora oggi è il sistema tecnologico portante le misurazioni in tutto il mondo. Il “Global Positioning System” (GPS), avviato nel 1978 con il lancio e messa in orbita del primo di 24 satelliti geostazionari, consente ai ricevitori a terra una triangolazione, per stabilire il punto dove risiede un oggetto, di precisione dell’ordine dei centimetri. Un fatto collegato a questa fondamentale tappa nella misurazione del mondo e dei suoi oggetti, risiede nel fatto che lo stesso principio è stato utilizzato per la sostituzione delle comunicazioni intercontinentali, fino ad allora rese possibili dalla vecchia tecnologia del codice “Morse”; un sistema digitale “ante litteram” (dismesso ufficialmente il 1 gennaio del 2000). Le novità tecnologiche non finiscono con il sistema GPS, anche se rimane la fonte primaria e insostituibile; tuttavia un nuovo metodo di triangolazione, molto importante al fine di questa trattazione, risiede nella capacità, tramite apparati di telefonia mobile ( Cellulari, smart-phone e tablet ) di triangolare tramite le antenne prossime a tali apparati o con concentratori per il Wi-Fi (zone aziendali o pubbliche) e, tramite la forza del segnale, individuare l’individuo anche quando si trova in una zona non coperta dal segnale GPS. Questo è, per esempio il metodo con il quale Google (oltre alle immagini satellitari) è stata in grado di costruire il sistema Street View. Tutto ciò vale sia per le persone, sia per gli oggetti. Un settore pesantemente influenzato da questa tecnologia è quello assicurativo, dove apparati di geo-posizionamento e registrazione degli spostamenti, sono sempre più incoraggiati. Ma questo costituisce un aspetto che verrà affrontato in una sezione successiva.

Quello che si può aggiungere circa questo aspetto della datizzazione è che anch’esso ha dato l’avvio ad una nuova branca di studi, denominata “reality mining”, che analizza quantità gigantesche di dati sulla posizione, provenienti dagli apparati citati, al fine di estrarne previsioni sui comportamenti umani nello spazio geografico e non solo. Mettendo in relazione i dati sugli spostamenti e quelli sulla chiamate si è in grado di predire pandemie o focolai influenzali, l’orientamento nelle scelte sul trasporto pubblico in relazione a dati climatici e stagionali, i consumi di prodotti e servizi nelle diverse zone delle metropoli e delle zone del pianeta, incrociati con dati climatici, politici, economici e sociali. Il reality mining è uno strumento potentissimo ma, come si vedrà in seguito, anche molto pericoloso se utilizzato in modo fraudolento.

L’ultimo aspetto sul quale è interessante fare un accenno, e che ha già preso buona parte di questo lavoro, riguarda l’individuo in azione nella società, le relazioni personali. Questo costituisce uno degli elementi centrali in tutto questo lavoro e, in questa sezione, ne riprendiamo la problematica osservandola dal punto di osservazione della sola datizzazione.

Se tutto è misurabile, digitalizzabile e datizzabile, possiamo affermare che la fonte primaria di generazione e produzione di dati per questo processo, sono, prima di ogni altra cosa, tutti i social media presenti (e futuri) sul Web, che drenano una massa di dati in modo continuo, abbattendo barriere di spazio e tempo, e consentendo la interrelazione fra individui.

L’origine di questo atteggiamento sociale ha visto un sostanziale punto di svolta alla metà del diciannovesimo secolo, quando:

“La massa non forma più le sue opinioni su quelle dei dignitari di Chiesa o Stato, su presunti capipopolo o sull’autorità di alcuni testi. Il suo punto di vista dipende da uomini a essa molto simili, che le si rivolgono o parlano in sua vece, nell’enfasi del momento, e per il tramite dei giornali.”

Era il 1859, e John Stuart Mill sanciva l’avvento di un nuovo ordine nelle relazioni tra gli individui nella società. Cominciava anche, è giusto sottolinearlo, il pensiero conformista, che caratterizza ancora oggi, buona parte, salvo forse l’interruzione degli anni ’60 e ’70 del secolo scorso, le relazioni tra gli individui.

I social network sono una creatura propria della Rete, impensabili senza l’avvento di Internet e delle sue capacità di pervasività e connessione. Queste piattaforme consentono di essere in contatto, cercare o ritrovare persone care, amici, appassionati di tematiche simili alle nostre e molto altro ancora. Ci consentono di instaurare contatti permanenti con numerose persone o gruppi, di inviare informazioni e di riceverne, dalle fotografie ai filmati e brani musicali e di condividere pubblicazioni di ogni genere. Ma tutto ciò implica nello stesso tempo che tutte le tracce digitali che lasciamo in Rete vengano trasformate in dati che diventeranno la materia prima per produrre nuove forme di valore. La strada aperta da colossi come Facebook, Twitter e Linkedin si apre ogni giorno a nuove aziende che entrano nel mercato del drenaggio e della selezione di dati acquisiti, attraverso strumenti predisposti a questo scopo, dalla Rete e che vengono venduti ad altre aziende per i fini più diversi. Sono sostanzialmente tre principali filoni di raccolta dei dati attualmente utilizzati; quello di Facebook, che ha datizzato le relazioni tra individui e gruppi sociali, che sono sempre esistite ma non erano mai state formalizzate (grafo sociale) in un contesto computazionale. Twitter, con la sua caratteristica della concisione, ha datizzato i pensieri e gli umori, quelli immediati, delle persone ed ha permesso di trattenerli ed elaborarli. E questo patrimonio informativo era impossibile da raccogliere senza l’avvento di un tale strumento. Infine Linkedin, che si pone sulla scia di Facebook, ma con la differenza che è focalizzato sulla vita professionale arrivando a prevedere la cerchia delle nostre conoscenze in ambito professionale e le nostre possibili scelte in questo campo. E siamo solo agli inizi, già altri attori, con nuove idee, si affacciano a questo mercato. Come si approfondirà nella sezione dedicata agli algoritmi, nuove funzionalità sono in fase avanzata di realizzazione per quanto riguarda questi colossi del Web e non solo da parte loro; oltre a Google ci sono numerosissime nuove aziende che stanno entrando sul mercato per sviluppare il loro business tramite il meccanismo di “offerta di un servizio e raccolta di dati”; basti pensare ai siti di prenotazione degli Hotel o di ricerca di polizze assicurative vantaggiose. Le opportunità di raccolta di nuovi dati, l’offerta di nuove applicazioni – per un maggiore raccolto di tracce digitali – e lo sviluppo tecnologico negli apparati e nella loro connessione, vengono dosati ad arte dai potenti uffici di marketing di queste corporation, col fine di mantenere la curva di interesse e di accesso al Web sempre in linea con quanto le analisi dei Big data, cioè gli stessi utenti hanno decretato.

Per concludere si può affermare che la datizzazione sia l’ultimo approdo di un processo storico millenario; che risponda all’esigenza degli uomini che, ancor prima di Platone, hanno avuto l’impellente necessità di confrontarsi con la nozione astratta di numero. La progressiva datizzazione e lo sviluppo delle tecniche computazionali hanno scandito e accompagnato lo sviluppo della civiltà occidentale e successivamente quella mondiale. Quindi la datizzazione rappresenta un valore fondamentale della comprensione umana, si pensi solo alla scuola pitagorica nell’antichità e all’algoritmo Mountain View di Google, del quale abbiamo accennato e del quale tratteremo di seguito nell’ambito degli algoritmi, gli strumenti fondamentali per operare coi Big data. Infatti, sarà grazie ai Big data che – come abbiamo tentato di illustrare in questa sezione – sarà possibile una variazione nel modo in cui guarderemo ai fenomeni di tutti i giorni. I fenomeni sociali e naturali saranno affiancati dalla consapevolezza che vi sia un mondo gemello fatto di informazioni. E attraverso la datizzazione è possibile calcolare e trarre risultati su aspetti fisici e sociali impensabili fino a pochi anni addietro. Infatti la visione del mondo come una massa di dati può essere in grado di sviluppare forme di indagine sempre più vaste e approfondite, e con livelli di precisione mai raggiunti. Le considerazioni di grandi uomini di scienza del passato, a partire soprattutto da Galileo, fanno da sfondo a questa spinta verso la matematizzazione del mondo al fine della sua comprensione. Tutto ciò nell’ambito della necessaria trasmissione indefinita della parola scritta, delle nostre tracce, al fine di accumulare e accrescere e iterare indefinitamente il nostro pensiero.

Il futuro è aperto. L’impatto della datizzazione sulla società sarà centrale; si modificheranno molte forme di ricerca e di analisi sulla realtà (quantificabile e analizzabile), così come le conosciamo oggi, anche se, per il momento, trasformare tutti gli enti dell’essere in dati può apparire molto innovativo e futuribile. Ma non è così. I risultati ottenuti in questa direzione raddoppiano in meno di due anni e notevoli traguardi, come abbiamo visto, sono stati già raggiunti.

Tuttavia, tutto ciò è ancora a quasi totale appannaggio di utilizzatori privilegiati, e poco filtra ancora alla massa degli utenti. La datizzazione è la nuova ed eccellente materia prima o carburante delle imprese, delle corporation, dove i Big Data vengono utilizzati per forgiare nuove forme sempre più sofisticate di valore. E a forgiare questi nuovi prodotti sono gli strumenti preposti al lavoro ciclopico da svolgere su masse sterminate di dati, gli algoritmi.