Big Data: una tappa o un punto di arrivo di un processo storico? – di Fiorello Casi

Negli ultimi anni l’accelerazione impressa (anche) dai mezzi di informazione sulle nuove opportunità offerte in ogni campo dalle nuove tecnologie ha raggiunto livelli impressionanti, non passa ormai giorno che nuovi annunci riguardo a nuovi prodotti tecnologici o nuove applicazioni, in ogni campo della ricerca, siano illustrati, anche se in modo quasi mai esaustivo, articolato e completo, da tutti i canali informativi a disposizione della grande massa degli utenti. E’ una situazione ormai nota tutti e sulla quale non c’è necessità di soffermarci.

Ma come sia stato possibile arrivare alla realtà odierna, inzuppata di tecnologie di grado e dimensione diverse, con le quali ci misuriamo tutti giorni, dalle nostre attività lavorative, a quelle private e del tempo libero e quelle che ci vedono cittadini, consumatori, pazienti o ricoverati in attesa di cure.

Quindi una riflessione sulle ragioni e gli elementi che hanno consentito all’innovazione elettronica ed alla digitalizzazione, sua immediata conseguenza, di imboccare un percorso che in pochi decenni la condurranno ad assumere una posizione centrale all’interno del paradigma culturale contemporaneo, può contribuire ad una comprensione maggiore dello stato dell’arte della tecnologia e di verificare quali possano essere stati o possano essere ancora, gli elementi di continuità o invece di discontinuità col passato.

In ogni caso è con molta probabilità un viaggio interessante e con molte sorprese. 

Se come avremo modo di vedere in seguito, i Big Data nascono con il capostipite della Scuola di Mileto, Talete, per il momento preferiamo iniziare da una data molto più vicina a noi ma non meno importante.

L’avvento del personal computer, all’inizio degli anni ’80 del secolo scorso, resta ancora oggi il punto di svolta nella diffusione e nel trattamento delle informazioni; ne ha ampliato enormemente i confini, le ha rese disponibili e utilizzabili ad una massa via via sempre più vasta di individui, innescando un processo inarrestabile di digitalizzazione del mondo che oggi ha assunto dimensioni gigantesche. Negli stessi anni, il mondo del calcolo computazionale, quello dei grandi sistemi informatici, appannaggio esclusivo delle grandi aziende, enti governativi ed universitari, subiva anch’esso una forte accelerazione, grazie al perfezionamento delle tecniche di miniaturizzazione dei “microchips”, che costituivano le memorie dei computer. Questa nuova metodologia rendeva le memorie di elaborazione sempre più potenti ed economicamente convenienti e venne sancita dalla nota “Legge di Moore”.

Gordon Moore fu un cofondatore della Intel e un progettista di microprocessori di successo, vincitore della Presidential Medal of Freedom ma la sua fama si deve alla profezia fatta nell’intercalare di un articolo del 1965, quando ancora lavorava presso la Fairchild Semiconductor. L’articolo in questione, apparso su “Electronics”, aveva già il titolo che anticipava il problema all’orizzonte: Inserire più componenti nei circuiti integrati. A quel tempo questi circuiti, che cominciavano ad unire tanti e diversi tipi di componenti elettroniche in un singolo chip, fatto principalmente di silicio, non avevano ancora dieci anni di vita. Moore per primo intravide il loro potenziale; infatti scrisse nel suo articolo:

 I circuiti integrati ci porteranno meraviglie come i computer casalinghi, o almeno i terminali collegati a un computer centrale, i controlli automatici per le automobili e gli apparecchi portatili per le comunicazioni personali”.

Ma la vera profezia, quella per la quale Moore è diventato famoso, riguarda proprio l’argomento citato già nel titolo:

“La complessità per il minimo costo dei componenti è cresciuta a un tasso di circa un moltiplicatore due all’anno […]. Sicuramente possiamo aspettarci che nel breve termine questo ritmo prosegua, o che addirittura, aumenti. Nel più lungo termine il tasso d’incremento è un po’ meno sicuro, anche se non c’è motivo di credere che non rimarrà pressoché costante per almeno dieci anni”

Questa è la formulazione originale di quella che è stata chiamata la legge di Moore. E’ un punto importante nello sviluppo di tutto il settore ICT così come lo stiamo ancora vivendo e studiando oggi. Quando Moore afferma: “La complessità per il minimo costo dei componenti” significa la quantità di potenza di calcolo dei circuiti integrati che si potevano comprare con un dollaro. Moore informava che nella storia sostanzialmente decennale del suo settore questa quantità era raddoppiata ogni anno. E prediceva che questa tendenza sarebbe continuata, forse con qualche cambiamento di ritmo, per almeno un altro decennio. La previsione del 1965 era dunque quella che i circuiti prodotti nel 1975 sarebbero stati oltre cinquecento volte più potenti (essendo 29 = 512). In realtà si è poi scoperto che l’errore di Moore riguardava la sua prudenza; la sua “legge” ha resistito in modo formidabile per oltre quarant’anni, ed è stata valida anche per progressi digitali anche in aree diverse da quelle dei circuiti integrati. In ogni caso ancora oggi è una prassi comune indicare in diciotto mesi il tempo di raddoppio della potenza di calcolo generale. La legge di Moore, ovviamente, è molto diversa dalle leggi della fisica che governano la termodinamica o la meccanica classica newtoniana; queste ultime descrivono il funzionamento dell’universo, rimangono vere qualunque cosa facciamo. Invece la legge di Moore è una dichiarazione sull’operato dei tecnici e degli scienziati del settore informatico, è il riconoscimento di quanto sono stati costanti e fruttuosi i loro sforzi nell’ampliare le capacità fisiche del calcolo. E’ difficile vedere un altrettanto successo in altri settori. Ad esempio non è mai accaduto che un motore elettrico abbia raddoppiato la sua potenza ogni due anni o addirittura abbia dimezzato il consumo di energia in altrettanto tempo, per non parlare dei motori a scoppio; e tutto nell’arco di un cinquantennio. Questo è uno degli elementi sostanziali che determinarono le condizioni per passare alla tappa successiva, e fondamentale, nello sviluppo del contesto tecnologico così come si presenta oggi a tutti noi utenti; e cioè la nascita delle nuove architetture informatiche a “cluster”, dove l’importanza della rete e del network assumevano sempre più una posizione centrale. Pioniere di questa nuova fase fu la Digital Equipment Corporation che, con la sua architettura VAX, creò una valida alternativa a quella che al tempo era la cultura dominante del “Mainframe” di derivazione IBM.

Si era usciti da pochi anni dal trattamento delle informazioni ancora basato sul codice Hollerit (le schede perforate) ed il campo dell’Information Technology sembrava orientato verso una lenta e costante evoluzione delle sue capacità elaborative. L’ottimismo circa il futuro della potenza di calcolo era suffragato dai fatti concreti, basati sull’adozione delle nuove tecnologie basate essenzialmente sulla miniaturizzazione delle memorie.  Ma le cose non andavano così bene. Se per le memorie di calcolo, le “Read Access Memory” (RAM), tramite la miniaturizzazione, c’era di che essere ottimisti, lo stesso non poteva affatto dirsi per le “Read Only Memory” (ROM), le memorie di solo immagazzinamento dei dati.

Per quasi tutti gli anni ’80 il problema principale di tutti gli addetti ai lavori dell’ICT (Information Computing Technologies) consisteva nel fatto che le memorie elaborative, le RAM per intenderci, aumentavano ad una velocità molto maggiore rispetto a quelle di registrazione, stoccaggio e lettura dei dati, le ROM o memorie di massa.

Certamente l’attenzione delle case produttrici e gli investimenti non cessarono mai di essere profusi su questa tematica, soprattutto per il business enorme che rappresentava; tuttavia la tecnologia di fondo restava la registrazione su supporti magnetici azionati da un motore elettrico. E ciò, oggi risulta evidente a tutti, costituiva un limite fisico che per diversi anni venne ritenuto insormontabile, al massimo ottimizzabile attraverso progetti di ingegno quasi artigianale, più che di ingegnerizzazione vera e propria.

Questo stato di cose restò pressoché immutato fino alla metà degli anni’90, quando un nuovo impulso venne dato alla capacità di memorizzazione dall’adozione di nuovi materiali e nuove tecniche. Parallelamente anche le potenzialità dei personal computer, dei “grandi sistemi”, dei Server (ormai protagonisti anche loro dell’ICT quanto i “Mainframe”) ed i software per la loro gestione si erano evoluti enormemente, creando le condizioni per ipotizzare che un passo nella direzione di un nuovo modello tecnologico nel trattamento fisico dei dati fosse giunto a maturazione.

Il fenomeno che oggi viene indicato col nome generico e provvisorio di Big Data, vede l’inizio della sua fase embrionale. 

Certamente l’esigenza di raccogliere e catalogare dati e, soprattutto, poter operare su di essi a fini informativi e statistici è una esigenza millenaria dell’umanità, tanto da fare parte anche nella nascita del cristianesimo¹. 

Come tutte le invenzioni umane, la scrittura prese vita per rispondere ad un problema, ad una esigenza ben definita che riguardava, allora come oggi, le operazioni commerciali e tutte le procedure amministrative, di fronte all’espansione della vita sociale delle grandi città, per prime quelle sumere; infatti era ormai necessario un adeguato supporto tecnologico che non poteva più essere costituito dal solo conteggio di oggetti, come avveniva in precedenza, e su un piano puramente sincronico, senza l’ausilio di uno strumento utile alla memorizzazione.  Con l’espansione delle città e dei grandi centri urbani ed il relativo aumento delle attività commerciali, si produssero dei segni sempre più complessi ed articolati, permettendo nuovi commerci, prima difficilmente realizzabili, tra popoli che non parlavano la stessa lingua. La scrittura cuneiforme venne nel tempo adottata da molti popoli di lingua diversa dal sumerico, diffondendosi in tutto il territorio della Mesopotamia, in Assiria, in Anatolia e nell’attuale Palestina. Gli stessi Ittiti usarono la scrittura cuneiforme, e tavolette di questo tipo sono state rinvenute anche nelle zone della Transilvania. Inoltre, accanto al sistema cuneiforme della Mesopotamia, si svilupparono, in tutto il mondo, anche altri e diversi sistemi di scrittura; quella basata sui geroglifici in Egitto, dove si attribuisce l’invenzione al dio Thoth; le scritture lineari cosiddette A e B minoica e micenea, la scrittura della Valle dell’Indo e le, le scritture cinesi, maya ed azteche.

A partire dall’VIII secolo si diffuse poi un particolare sistema di scrittura, di derivazione fenicia. Si trattava dell’alfabeto fonetico greco, il cui uso è per la prima volta attestato dai poemi omerici. La scrittura fonografica dei fenici, costituita da segni che esprimevano suoni solo consonanti ed in uso dal XVI secolo a.C., venne arricchita dall’introduzione delle vocali. Ci si avvicinava alla formulazione di un alfabeto come oggi lo conosciamo, dove ad ogni fonema (suono del linguaggio) corrisponde una lettera.

La scrittura era ormai nata, la più grande rivoluzione tecnologica nella comunicazione e nello scambio di informazioni, portatrice di memoria permanente: a prescindere dalla presenza fisica di un oratore o dell’autore del testo. 

La spinta nel raccogliere, catalogare e analizzare le informazioni, è dunque intrinseca negli uomini fin dai tempi delle antiche librerie, le prime banche dati (data set), dove poter reperire ed estrarre conoscenza utile da riutilizzare nell’architettura, nella filosofia, nelle discipline scientifiche e nella vita di tutti i giorni. Con l’inizio della storia, della quale la registrazione di informazioni ne costituisce l’elemento fondamentale, questa spinta si è tramutata nella necessità della trascrizione, su diversi supporti, di tutto quanto veniva esperito ed intellettualmente elaborato dagli uomini, col fine di tramandare ed accumulare la conoscenza acquisita o tenere memoria dei fatti e degli accadimenti accumulatisi nel tempo. Dalla trascrizione dei primi dati contabili su tavolette d’argilla in Mesopotamia alla registrazione degli atti sociali odierni, la necessità di registrazione e memorizzazione è sempre più pervasiva e necessaria. E questa necessità, in modo sempre maggiore, vede nei computer i protagonisti che sono in grado di garantirne l’enorme sviluppo.

E’ solo con i computer, macchine capaci di processare automaticamente le informazioni rispondendo alle interrogazioni di una persona, che questo processo ha subito uno sviluppo iperbolico. Dagli anni 60 la quantità di dati a nostra disposizione è aumentata in maniera vertiginosa, tanto che nel solo 2014 sono stati archiviati 14 miliardi di Gigabyte (109 Byte) di dati.

I progressi nell’ambito della capacità di registrazione, archiviazione e interrogazione dei dati negli ultimi venti anni è stata sorprendente; è importante sottolineare che proprio l’avvento delle nuove tecnologie, soprattutto dalla fine degli anni ’80 del secolo scorso, ha reso possibile l’innescarsi di un processo evolutivo tramite il quale le potenzialità raggiunte dalla tecnologia consentivano, a loro volta, di creare le condizioni indispensabili per il suo ulteriore sviluppo.

Un esempio fra tutti riguarda il software di gestione dei Personal Computer che, oggi, ha una interfaccia gradevole e quasi intuitiva, almeno per le necessità ordinarie, ma che, se si guardasse bene, contiene al suo interno i sedimenti di diverse generazioni di software, molto più arcaici (DOS Microsoft), sui quali poggia quello attuale.

E la storia della generazione, registrazione e archiviazione dei dati e delle informazioni nel XXI secolo si arricchisce di nuove modalità che riguardano sostanzialmente la produzione delle tracce digitali che ogni giorno lasciamo dietro di noi nel nostro agire sociale, ma queste tracce non si disperdono né nello spazio fisico né nel cyberspazio; infatti qualcuno le raccoglie. E da questo punto che inizia ad articolarsi la storia e le vicende che ruotano intorno ai Big Data.

Si è visto come Big Data sia un termine recente, probabilmente esso stesso provvisorio, nel mondo delle tecnologie informatiche anche se si riferisce in buona parte ad una tematica più datata, quella collegata agli strumenti di costituzione e gestione degli archivi digitali e delle operazioni compiute su di essi. Quindi il nocciolo dei nuovi Big Data comprende i più datati criteri e strumenti di gestione dei databases e le tecniche (più recenti) di DataWarehosee² Data Mining.

——————————————————————————————————–

¹Lc 2,1-6: “In quei giorni un decreto di Cesare Augusto ordinò che si facesse il censimento di tutta la terra. Questo primo censimento fu fatto quando Quirino era governatore della Siria. Tutti andavano a farsi censire, ciascuno nella propria città. Anche Giuseppe, dalla Galilea, dalla città  di Nàzaret, salì in Giudea alla città di Davide chiamata Betlemme: egli apparteneva infatti alla casa e alla famiglia di Davide. Doveva farsi censire insieme a Maria, sua sposa, che era incinta.”
²Ralph Kimball, The Data Warehouse Toolkit, New York, John Wiley & Sons, 1996,  pp. 17 – 32.