UNA NUOVA FRONTIERA: LA DATIZZAZIONE. – di Fiorello Casi

L’etimologia della parola “dato” si fa risalire alla lingua latina (datum, i, pl. data) dove aveva il significato di “dono, cosa data”; al plurale “spese, uscite”, anche se poi nel linguaggio tecnico inglese è usato per indicare il “fatto” o i fatti. E per molti versi i dati, in questa fase tecnologica, ritornano anche a riappropriarsi di alcuni significati che nel tempo avevano smarrito. I dati, nel paradigma scientifico, una volta traslati dal piano delle misurazioni e del rilevamento, assumevano una condizione asettica e venivano trattati all’interno di un sistema rigorosamente formale e computazionale. Ciò non significa che oggi questo non accada o abbia perso di validità. Ma la possibilità di acquisire enormi quantità di dati, tramite apparati sofisticati e specializzati, dalle telecamere digitali, ai sensori per l’agronomia a tutto il vastissimo panorama dei nuovi sensori e apparati di registrazione in uso nel mondo, ha creato le condizioni per poter sviluppare applicazioni fino a pochi anni or sono, non solo irrealizzabili ma anche impensabili. Innanzitutto bisogna ribadire che un aspetto fondamentale di questo nuovo sviluppo è dovuto alla vastità della scelta nel campo della realizzazione dei nuovi apparati tecnologici; infatti la possibilità, negli ultimi anni, di poter disporre di pressoché qualunque tipologia di “device” in formato digitale, per vastissimi campi di lettura e registrazione, ha concorso pesantemente allo sviluppo immediatamente successivo, del processo di datizzazione.

Un esempio tra i tanti può essere quello delle fotografie. Fino a quando la tecnologia è rimasta sul terreno analogico, pur con dei progressi enormi proprio in ambito analogico, tutte le attività che ne utilizzavano le potenzialità erano rimaste limitate e sostanzialmente identiche per decenni. Con l’avvento della digitalizzazione, oltre a relegare gli apparati analogici in una nicchia per amatori, aver stravolto i prezzi di mercato degli apparati fotografici e consentito a tutti gli utenti di alloggiare una fotocamera (di buona qualità) all’interno di ogni telefono cellulare (la fotocamera precede gli smartphone), ha impresso una forte accelerazione ad applicazioni connesse alle immagini. Applicazioni per il riconoscimento facciale tra milioni di individui sono disponibili già da diversi anni, analisi di immagini satellitari per la ricerca geologica, metereologica ed ecologica, la spettrometria dello spazio profondo; tutte applicazioni sorte dalla disponibilità offerte dalla tecnologia digitale e dai Big Data.

L’uso del neologismo “datizzazione” significa così la conversione di un fenomeno che, fino a pochi decenni or sono, era osservato e misurato da strumenti analogici, e che ora transita in un nuovo universo digitale, costituito da dimensioni e leggi diverse. E’ evidente a questo punto che la datizzazione sia un concetto diverso, più ampio, di valenza culturale e non fisica, rispetto a quello di digitalizzazione, che invece riguarda tutti quei processi che convertono delle informazioni in codice binario per poter essere acquisite dai computer.

La datizzazione è emblematica anche per un’altra ragione. Fino a pochissimi anni fa non solo i computer ma tutti i sistemi informativi in generale, venivano utilizzati quasi esclusivamente per il calcolo, e questo ha generato una forma di pensiero collettivo che faceva dipendere la capacità di calcolo dalla potenza dei computer e dei loro “device” e questo fatto, a sua volta, lo collegava al solo miglioramento della tecnologia impiegata. E’ il mondo dell’“Information Technology” che ormai tutti conoscono. Oggi i sistemi informatici supportano molto bene sistemi informativi importanti che rendono possibili i Big Data. Ma la rivoluzione di cui stiamo osservando gli effetti non riguarda quella dello sviluppo della tecnologia, del “silicio”, se pur anch’essa in rapida evoluzione.

Ciò di cui stiamo osservando i sintomi è lo spostamento dell’asse del sentimento collettivo dalla tecnologia a ciò che essa è in grado di fornire in termini di informazioni. La svolta non risiede nelle rinnovate capacità della tecnologia, o almeno non del tutto; la svolta riguarda la rinnovata attenzione e fiducia nel misurare il mondo, al fine di comprenderlo e analizzarlo. E questo anelito non nasce certo con l’era digitale. Il fatto importante e centrale consiste nell’incontro di due tendenze peculiari dell’attività umana. Da un lato la volontà millenaria di datizzazione del mondo da parte degli uomini, che con la nascita del linguaggio scritto, registrava e misurava la realtà e, soprattutto, di recuperare successivamente le informazioni registrate, al fine di replicare tutte le attività umane. Dall’altro la tecnologia che, con l’avvento del silicio, ha subito un’accelerazione enorme rispetto alle epoche passate, ed è approdata al mondo digitale e alla digitalizzazione, e in un tempo brevissimo ha consentito l’utilizzo delle sue enormi possibilità nel processo di datizzazione dell’umanità.

Le differenze tra datizzazione e digitalizzazione e la nuova situazione determinata dal loro incrociarsi, diventano evidenti e illuminanti esaminando, fra i tanti, il settore dei libri, che ha sperimentato entrambi i fenomeni negli ultimi anni, e che è stato oggetto di attenzione da alcuni autori e addetti ai lavori sui Big Data. Nel 2004 Google annunciò l’avvio di un piano (mai tentato prima) gigantesco: avrebbe raccolto tutte le pagine dei libri dei quali legalmente si poteva entrare in possesso per metterle a disposizione in forma gratuita a tutti gli utenti di Internet. La realizzazione del progetto è stata possibile coinvolgendo diverse biblioteche universitarie nel mondo e dotandosi, tramite la realizzazione di apparati di scannerizzazione progettati appositamente, di strumenti tecnologici adeguati. Le possibilità offerte dalla tecnologia sono state determinanti per la riuscita del progetto, rendendo le operazioni gigantesche di scannerizzazione di milioni di volumi e i relativi costi sostenibili, sia tecnicamente, sia finanziariamente, solo da un’entità tecnica ed economica come quella della Corporation americana. La quale, va sottolineato, ha provveduto a ingegnerizzare e produrre macchine appositamente ideate a tale scopo. Secondo una prassi consolidata, per prima cosa veniva scannerizzato il testo di ogni singola pagina e trasformato in un file digitale e successivamente archiviato nel sistema informatico. In questo modo la pagina poteva essere recuperata da qualsiasi utente di Internet. Il vero problema risiedeva però nella fase di recupero di una pagina memorizzata. Infatti era necessario conoscere il tipo di informazioni contenute nel libro (o nel testo della pagina), conoscerne il titolo e l’argomento o leggerne almeno una sezione fino a trovare il passaggio o la frase ricercata. Chiunque è in grado di ripetere questa esperienza consultando Google facendo una “inquiry” e digitando una determinata frase o argomento, ad esempio: “sentenze nullità del matrimonio religioso”. Tutto ciò non era possibile eseguirlo automaticamente perché non si era ancora in grado, a questo punto, di vagliare tutto il testo per trovare la frase ricercata o conoscere il libro che potesse contenere l’argomento a cui rimandava quest’ultima. Non si era in grado perché il libro non era stato ancora datizzato. Le pagine dei libri memorizzate avevano senso soltanto come immagini, e che solo gli esseri umani attraverso la lettura, potevano trasformare in informazioni fruibili. Restava in ogni caso un formidabile contenitore di informazioni, ma ancora scarsamente utilizzabile.

Il valore intrinseco dei testi memorizzati si poteva liberare pienamente solo se venivano sottoposti a datizzazione. E questo per aziende come Google fa parte del loro “core business”. Tutta la massa di pagine memorizzate venne sottoposta una applicazione che, tramite un sensore ottico (appositamente progettato), era in grado di riconoscere all’interno di ogni pagina lettere, parole, frasi e paragrafi e di indicizzarli rendendoli visibili attraverso un codice univoco attribuito automaticamente. Si era compiuta la traslazione dal mondo analogico a quello digitale; era completa, ora i testi potevano essere letti, sia dalle persone ma soprattutto, dai computer e dagli algoritmi che su di essi avrebbero operato.

La datizzazione ha consentito l’indicizzazione dei testi e quindi una loro totale e profonda esplorazione. Le possibilità di analisi testuali sono cresciute in modo esponenziale. La possibilità di scoprire la nascita e l’utilizzo di nuove parole e nuovi termini è a portata di tastiera. Tutto questo in tutte le lingue del mondo.

La peculiare e potentissima capacità dei Big Data di elaborazione di quantità enormi di dati, dalla loro rilevazione fino alle analisi più articolate con algoritmi, sempre più sofisticati, è stata dunque possibile, attraverso un progresso notevole delle apparecchiature, l’hardware, e delle reti di trasmissione dati che hanno raggiunto capacità e prestazioni inimmaginabili fino a pochi anni or sono.

E l’incremento del software dedicato ai Big Data è stato addirittura più importante rispetto a quello dei sistemi hardware. E ha visto la nascita e l’ascesa di nuove aziende, già da anni a livelli multinazionali, la cui “mission” è totalmente focalizzata alla raccolta e analisi di dati. Con l’avvento del personal computer, di Internet e degli apparati mobili, quella che era stata definita la società dell’informazione già il secolo scorso, ha subito un nuovo e importante impulso. Oggi la disponibilità di apparati per la connessione in Rete è notevole e in continuo incremento in tutto il mondo; i sistemi informativi governativi, istituzionali e privati hanno raggiunto livelli maggiormente pervasivi, in termini di fruizione da parte degli utenti, e una confortevolezza nel loro uso molto elevata. Il mutamento è sotto gli occhi di tutti: uno (inseparabile) smartphone per ogni persona, tablet, personal computer, apparati Gps, Telepass.

Tutti questi oggetti sono entrati prepotentemente nella vita, sociale e privata, di una parte importante delle persone modificandone la gestualità, le priorità e gli atteggiamenti sociali e individuali. Una operazione intesa a consentire il massimo sfruttamento possibile di risorse o disponibilità, che si estende ogni anno a fasce sempre più ampie di popolazione mondiale. In questo scenario in cui i segnali riguardo alla diffusione di apparati di connessione tra le persone sono evidenti a tutti, sia che si viaggi sui mezzi pubblici, sui treni o si stazioni in un luogo pubblico; l’elemento comune alla grande maggioranza delle persone, forse in assoluto ma certamente per questo lavoro, riguarda il rapporto, a volte ossessivo, che hanno con un apparato che, in qualche misura, genera delle informazioni, che si raccolgono e che vengono ridistribuiti sulla Rete.

Dalla metà del secolo scorso, quando i primi computer iniziarono a essere operativi, è iniziata una  produzione di dati inarrestabile. Sono seguite fasi di accelerazione che hanno portato le dimensioni di questa massa alle condizioni attuali. Ma oggi stiamo vivendo solo una tappa di questo percorso e non certo un punto di arrivo. Il mondo è quasi soffocato dalle informazioni, un fenomeno mai riscontrato nella storia dell’umanità. E le informazioni continuano a crescere a ritmi esponenziali, come si è visto nel precedente capitolo.

Tutto ciò ha quindi provocato i mutamenti sostanziali nel sistema tecnologico utilizzato e condiviso dagli scienziati e dagli specialisti, riguardo il trattamento dei dati e la loro elaborazione. La quantità, come dice la legge della conversione della quantità in qualità (e viceversa) di F. Engels, fa la qualità.

Sono state la fisica, l’astronomia e la genomica che agli inizi degli anni Duemila hanno dovuto affrontare per prime l’esplosione del problema legato alle dimensione dei dati, a dare l’avvio all’ecosistema attuale chiamato (provvisoriamente) Big Data. La necessità di acquisire quantità vertiginose di dati (circa 40 Terabyte al secondo) durante lo studio delle collisioni presso dal Large Hadron Collider (LHC) del CERN di Ginevra, l’inderogabile memorizzazione di tutti i dati spaziali, raccolti durante le missioni, su pianeti e galassie dalle sonde e dalla stazione spaziale ISS e la decodificazione, per la prima volta, del genoma umano; tutto questo appare stupefacente, soprattutto se si considera, per esempio, che la decifrazione del genoma comporta mettere in fila circa tre miliardi di basi chimiche, operazione sulla cui possibilità di realizzazione in tempi così brevi nessuno avrebbe scommesso non più tardi di pochi anni orsono. Tutte queste sfide scientifiche hanno creato le condizioni e, probabilmente, hanno sancito la maturità delle condizioni per cui il problema giungesse a un tale punto di svolta.

E’ per queste ragioni che non esiste una descrizione rigorosa di Big Data e il nome stesso è provvisorio. L’unico dato certo è che a un certo punto, all’inizio degli anni Duemila, appunto, il volume dei dati era talmente cresciuto che non poteva più rapportarsi in alcun modo con le memorie computazionali dei computer. Quindi seguendo nuove strade ingegneristiche e anche artigianali, nei primi tempi, si cominciarono a cercare nuove strade. Le soluzioni adottate sull’Hardware furono brillanti e gli esiti sono sotto gli occhi di tutti. Tuttavia questo lavoro si occupa degli aspetti legati allo sviluppo dell’altra metà del cielo dell’ICT, il software, e del suo nuovo corso di sviluppo per rispondere alle nuove gigantesche sfide al fine di trovare nuovi e adeguati strumenti di analisi.

E’ da questo momento che prende l’avvio la storia degli algoritmi geniali che hanno iniziato a cambiare lo scenario scientifico, economico e politico del mondo occidentale. Inizia la storia di aziende come Google e Yahoo che di questa nuova storia sono attori. Di questi aspetti si tratterà in una sezione successiva. Riprendendo la definizione di Big Data e la loro peculiarità di svolgere operazioni che si possono fare solo su larga scala, per estrarre nuove indicazioni, col fine di creare nuove forme di valore attraverso modalità del tutto nuove, è necessario prendere in esame anche come e in che modo essi inducono a una mutazione delle regole e negli usi dei mercati, delle organizzazioni, dei governi e tra i cittadini.

Le dimensioni di questo processo di datizzazione, anche se sfugge ancora, in buona parte, al grande pubblico, sono impressionanti. Basta porre attenzione alle sole notizie della stampa quotidiana per avere la misura della portata del cambiamento in atto; sui soli “Messenger” e “WhatsApp” vengono scambiati oltre 60 miliardi di messaggi al giorno. Il meteo e gli aggiornamenti sul traffico, le ricevute e le notifiche di spedizione, tutte le informazioni e servizi ormai sono “on demand”, a portata di chat. E’ sufficiente mandare un messaggio per ottenere quello che cerchiamo. Facebook, alla conferenza degli sviluppatori del 13 aprile del 2016 a San Francisco, ha introdotto nella sua offerta gli “chatbot”; utenti virtuali che sfruttano l’intelligenza artificiale e capiscono il linguaggio naturale, in grado di rispondere ai 900 milioni di persone che usano la chat “Messenger”. Il mondo digitale è in continua ed esponenziale espansione. Per rendere un’idea più precisa possiamo utilizzare due settori coinvolti in modo massiccio su questo fronte, e dei quali abbiamo già accennato. In astronomia, il telescopio del progetto “Sloan Digital Sky Survey” avviato nel 2000 nel New Mexico, ha accumulato nel corso delle prime settimane di attività, più dati di quanti ne erano stati raccolti nell’intera storia dell’astronomia. Il progetto successivo, il “Large Synoptic Survey Telescope”, installato in Cile e che è entrato in funzione nel 2016, dovrà acquisire la stessa quantità di dati del precedente, ma ogni cinque giorni. Quando gli scienziati hanno decodificato il Genoma umano nel 2003, venivano da oltre un decennio di tentativi e sforzi ingegneristici e interdisciplinari, per riuscire a mettere nella giusta sequenza tre miliardi di coppie del genoma prese come riferimento. E la rapidità delle realizzazioni tecnologiche sono state tali per cui, nel 2015 gli ormai numerosissimi centri di ricerca, sorti negli anni successivi nel mondo, hanno la capacità di realizzare lo stesso procedimento in poche ore. Tutto ciò dà la cifra di come accelerazioni analoghe siano state impresse a tutti gli altri settori, dalle Borse finanziarie, a quelle merci, dalla ricerca medica e farmaceutica, alla meteorologia, la demografia, ecc.

L’incremento dei dati tende a sfuggire di mano anche agli specialisti del settore. Infatti Google ha superato i 25 Petabyte di dati elaborati al giorno, un volume di dati mille volte maggiore della quantità di tutto il materiale cartaceo contenuto nella Biblioteca del Congresso degli Stati Uniti.

Su Facebook, un’azienda con pochi anni di vita ma di scala mondiale, vengono caricati ogni ora oltre dieci milioni di nuove fotografie e gli utenti attraverso il pulsante “Mi piace” presente nell’applicazione, o quello di “Commenta” depositano circa tre miliardi di tracce digitali al giorno, anche queste in crescita. Un patrimonio enorme per quest’azienda che li utilizza per conoscere e comprendere le preferenze e molto altro da questi dati.

Una stima della quantità di dati globale con la quale abbiamo a che fare e della velocità di crescita è stata fatta da Martin Hilbert, Professore alla Anenberg School for Southtern California. Il computo ha riguardato tutto ciò che è stato prodotto, archiviato e comunicato nel mondo. Libri, dipinti, fotografie, email, brani musicali, e video, videogames, telefonate, sistemi di navigazione GPS, lettere di corrispondenza in formato analogico. Anche le trasmissioni radiofoniche e televisive entrano nel computo.

Il risultato ottenuto, riferito al 2007, si aggirava sui 300 Exabyte di dati. Per contestualizzare questa grandezza alcuni commentatori propongono di considerare, per esempio, un lungometraggio in formato digitale (un DVD di un film per ragazzi), che ha le dimensioni di circa un gigabyte. Un Exabyte è un miliardo di Gigabyte, un volume enorme; e parliamo del 2007. Bisogna ricordare, inoltre, che ancora nel 2000, solo il 25% delle informazioni era registrata in forma digitale, le altre erano ancora cartacee, su vinile, pellicole o nastri magnetici, quindi ancora in formato analogico.

Per dare un’ulteriore idea dell’accelerazione impressa dalla tecnologia alla capacità di calcolo e gestione dei dati, si può ricordare che ancora nel 1986 oltre il 40% della capacità di calcolo disponibile nel mondo derivava dalle calcolatrici tascabili. Ma a causa della velocità con cui il processo di datizzazione ha espanso la massa dei dati che, sempre secondo Hilbert, raddoppiano ogni tre anni, il processo di sviluppo si è invertito a favore dei computer in brevissimo tempo. Nel 2013 le informazioni presenti nel mondo erano di 1200 Exabyte. La massa complessiva dei dati disponibili nel mondo ha iniziato un percorso di crescita tale per cui ha ingaggiato un duello formidabile con la nostra tecnologia e la nostra capacità intellettuale, e il processo continua ad accelerare. Infatti già nel 2014 si superavano 2200 Exabyte.

Per fare un paragone su quanto sta accadendo, e che è alla base di questo mutamento generale, è possibile prendere a modello un’altra grande rivoluzione, quella dell’invenzione della stampa a opera di Gutenberg, nel 1439.

Tra il 1453 e il 1503 furono stampati circa otto milioni di libri, un numero superiore a quelli copiati e miniati da tutti gli amanuensi europei dalla fondazione di Costantinopoli, nel 330 d.C. Questo significa che in Europa le informazioni impiegavano oltre 50 anni a raddoppiare, mentre oggi, come si è visto ce ne mettono tre.

2 thoughts on “UNA NUOVA FRONTIERA: LA DATIZZAZIONE. – di Fiorello Casi”

I commenti sono chiusi.