I PILASTRI DEI BIG DATA: IL DATA MINING E IL MACHINE LEARNING (prima parte) – di Fiorello Casi

La definizione di Data mining ha origini legate alle attività di estrazioni minerarie, la radice del verbo inglese rimanda al lavoro di rimozione di grandi quantità di materiale all’interno delle miniere alla ricerca di filoni di materiale nobile. E l’analogia con l’attività di ricerca ed estrazione dei dati nella Rete è decisamente aderente.

Abbiamo già affrontato gli aspetti che hanno caratterizzato e reso possibile l’enorme sviluppo di questa attività svolta attraverso un ecosistema di strumenti tecnici e metodologie consolidate. Resta da approfondire, per quanto possibile, le dimensioni del fenomeno di cui stiamo parlando e focalizzarci maggiormente sulle sue caratteristiche peculiari.

Con il 49,2 di percentuale di pervasività nella popolazione mondiale, pur con tutte le differenziazioni tra le diverse latitudini, Internet e le tecnologie a esso connesse, occupa il posto centrale tra gli strumenti di cambiamento sociale e culturale oggi esistenti. Analizzare i dati che delineano questo stato di cose è necessario per poter formulare delle ipotesi, confortate da un’analisi esaustiva, circa la centralità che va sempre più assumendo il Data mining nelle società occidentali; per polarizzare vasti settori della ricerca, pubblica, privata e universitaria, convogliare enormi capitali finalizzati allo sviluppo di sempre più potenti e sofisticati algoritmi specifici per la ricerca, lo stoccaggio, la catalogazione e l’analisi di dati. Tutto proveniente dalla sola Rete.

Oltre un terzo della popolazione mondiale, con elevata concentrazione nel nord America, Europa e Medio Oriente, è connessa nella sua forma moderna che, come abbiamo già visto (O’Reilly, 2005) abbiamo definito 2.0.

Le modalità di connessione di questa grande fascia di mondo, operative 24 ore su 24, sono le più articolate possibile; dati bancari, transazioni finanziarie e commerciali, acquisti e vendite, e-Learning, intrattenimento, immagini, video, musica, file eterogenei, documenti, e-Books. La Rete è inoltre diventata un porto franco per attività illecite, come la pedo-pornografia, la vendita di sostanze stupefacenti, luogo di coordinamento di varie attività criminali e terroristiche, di proselitismo di fanatismi di ogni tipo. In Rete coesistono movimenti pacifisti con movimenti fondamentalisti, movimenti politici, religiosi e d’opinione. Tutti costoro hanno trovato il mezzo per superare le barriere dello spazio e del tempo che limitavano la loro attività. Già oggi un’analisi sulle dimensioni e sulla esatta topografia della Rete non è possibile. E in ogni caso, una tale mappatura potrebbe essere possibile solo tramite l’utilizzo di altre macchine, essendo le dimensioni del cyberspazio tali per cui sono ormai da tempo precluse tali attività alla sola mente umana. Senza affrontare il problema del “Web sommerso”, un centro nevralgico delle attività criminali del Terzo millennio.

Nella Rete ogni utente, oltre ad attingere enormi quantità di informazioni, immette altrettante quantità di dati, secondo quanto abbiamo già evidenziato. Abbiamo inoltre visto come questa immissione di dati può essere per l’utente sia consapevole che inconsapevole. E gli algoritmi (quelli di acquisizione) che raccolgono questi dati, attraverso tutto il Cyberspazio, li reperiscono incessantemente, estraendo, come in una miniera ricca di metallo prezioso, gli elementi utili per le finalità più disparate dei loro committenti: aziende commerciali, grandi Corporation, Istituti bancari, Istituti di statistica, Ricerca e Sviluppo, aziende mediche e farmaceutiche, servizi di Intelligence, pubblici e privati.

La società Cisco ha reso disponibile un documento, Visual Networking Index – VNI – Global Mobile Data Traffic Forecast 2012 – 2017, che prevede il raggiungimento di 134 exabyte (1018 byte) di dati su reti mobili all’anno. Questo significa 134 volte il volume di traffico che sviluppava un IP (indirizzo fisico, un PC e successivi device) che veniva utilizzato nel 2000. Questo solo per il traffico che esisteva agli inizi del nuovo millennio. Vanno considerati poi 30 trilioni di immagini (mms, foto su Instagram) all’anno e 3 trilioni di filmati su YouTube.

Dal 2000 a oggi sono inoltre intervenute numerose modificazioni della Rete; infatti in buona parte è costituita dalla crescita delle connessioni, tramite apparati mobile, a Internet e quelle delle macchine tra di loro. Secondo il rapporto Cisco gli elementi principali, che traghetteranno la Rete a queste nuove dimensioni, sono la crescita degli utenti su rete mobile che, entro il 2017, saranno 5,2 miliardi (nel 2012 erano 4,3 miliardi); tale aumento coinvolgerà oltre 10 miliardi di apparati in grado di garantire una connessione. Va sottolineato, a sostegno di quanto evidenziato sulle capacità autonome della Rete, che di queste nuove connessioni circa 1,7 miliardi saranno connessioni tra macchine, tra cui spiccano nuovi apparati medicali, GPS, sistemi di tracciamento, telelavoro e telemedicina. E la velocità di connessione media delle reti mobili, a livello globale, crescerà di circa sette volte. Infatti nel 2012 era di 0,5 Mbps, nel 2019, si prevede, sarà di 3,9 Mbps.

Non secondario è l’aumento dei contenuti multimediali, che ha crescite impressionanti. Per il 2017, rileva Cisco, i contenuti video occuperanno il 66 % del traffico dati mobile a livello mondiale contro il 51 % del 2012. Inoltre, sempre secondo Cisco, entro il 2016, il 71 % di tutti gli smartphone e tablet (oggi circa 1,6 miliardi) potrebbero essere in grado di connettersi a una rete mobile già predisposta per un ulteriore salto di qualità nel protocollo di Internet (IPv6), una seconda versione del suo protocollo alla base di una nuova espansione futura. In ogni caso il 39 % di tutti gli apparati del mondo oggi connessi con Internet sono già potenzialmente pronti per il salto alla nuova versione tecnologica del Web.

A questo punto resta da interrogarsi, alla luce anche dei dati rilevati sopra, cosa sia e soprattutto perché questa tecnica ha subito un’accelerazione formidabile nell’ultimo decennio.

Wikipedia fornisce una definizione di partenza di questa ricognizione:

Il Data mining è l’insieme di tecniche e metodologie che hanno per oggetto l’estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o semi-automatici) e l’utilizzo scientifico, industriale o operativo di questo sapere.

Sono appunto le tecniche che il Data mining utilizza che permettono di scavare all’interno della Rete, ormai un universo costituito da dati, immagini, conversazioni (chat-line, Skype, social network) video, email. Questa incessante attività è rivolta all’individuazione di quelli che vengono chiamati “pattern” che, a seconda del contesto in cui l’attività di Data mining sta operando, possono essere tradotti come disegno, modello, schema ricorrente. Ma in generale, ed è l’uso più diffuso, sta a indicare l’individuazione di una regolarità all’interno di un (grande) insieme di dati osservati.

Queste regolarità, questi pattern appunto, diventano a loro volta la base da cui partire per formulare nuove ipotesi su relazioni causali di determinati fenomeni e di verificarle. Non secondario a questo punto è il fatto che si sono create le condizioni per formulare previsioni in senso statistico su nuovi insiemi di dati.

Un ultimo importante aspetto riguarda il concetto di “machine-learning”, traducibile come apprendimento automatico. Nell’attività generale di Data-mining, attraverso il “machine learning” l’attività di identificazione di pattern diventa come una regola di intelligenza artificiale che il sistema di Data-mining utilizza, per individuare relazioni causali fino a quel punto ignote.  Si potrebbe fare un parallelo con il metodo insegnato ai cani per trovare i tartufi; indipendentemente dalla qualità del terreno, quando sono in azione, gli animali, attivano sempre la funzione di ricerca. Gli algoritmi euristici e l’intelligenza artificiale sono i settori di maggiore impiego di tale concetto.

Gli algoritmi di apprendimento automatico, i machine learning, stanno sollecitando in modo importante l’evoluzione della scienza, della tecnologia, il mondo del business, la politica e anche le strategie militari. Fonti sempre più copiose di dati come i satelliti, i sequenziatori di DNA e gli acceleratori di particelle esplorano la natura alla ricerca di dati sempre più dettagliati; gli algoritmi di apprendimento trasformano questi dati in informazioni e nuova conoscenza scientifica. Mai come oggi le aziende conoscono i gusti, i comportamenti e la propensione agli acquisti dei propri clienti; e le elezioni politiche ormai vedono vincente il candidato con il miglior modello di base elettorale. Aziende come Amazon sono in grado di suggerire prodotti graditi ai propri clienti, semplicemente perché li ha valutati il loro algoritmo di apprendimento, sulla base del comportamento di acquisto precedente. Il machine learning è un concetto completamente nuovo ed emblematico di questa nuova fase storica; è una tecnologia che si costruisce da sola. Gli algoritmi di apprendimento sono reali manufatti che progettano altri manufatti. Si potrebbe intendere il machine learning come l’ultima tappa di una lunga serie iniziate in tempi remoti; è uno strumento che consente alla realtà di capire cosa vogliamo e cambiare di conseguenza. La ragione di ciò risiede nel fatto che tutto nel machine learning ruota intorno alla capacità di prevedere; quello che desideriamo, la risultante delle nostre azioni, come raggiungere un obiettivo, come si evolverà il mondo. Dall’antichità remota a oggi questo compito è stato svolto, di volta in volta, da sciamani, indovini e veggenti, ma i loro sistemi si sono rivelati deboli alla prova dei fatti. Le predizioni della scienza sono più affidabili ma si limitano a tutto ciò che siamo in grado di osservare in modo sistematico e trasformare in un modello. Oggi con l’imporsi del machine learning e con i Big data, il campo d’azione e di indagine si amplia in modo inimmaginabile.

Ormai sono quotidiane le notizie circa il coinvolgimento di nuovi algoritmi di “machine learning”. La nuova App di Facebook, Chatbot, l’assistente personale di Apple, le strepitose vittorie di Watson, il nuovo computer di IBM, i magazzini Target a conoscenza della gravidanza di un’adolescente prima ancora della sua famiglia o la NSA (National Security Agency) in cerca di correlazioni tra i miliardi di informazioni che acquisisce continuamente al fine della sicurezza nazionale.

Ormai già oggi è, per esempio, l’algoritmo di Amazon, più di qualsiasi addetto al marketing, a decidere quali libri vengono letti nel mondo. E gli algoritmi della NSA decidono chi possono essere dei potenziali terroristi; i modelli climatici decidono il livello accettabile di CO2 nell’atmosfera e allo stesso tempo sono in grado di dare indicazioni sulla distribuzione di prodotti commerciali. E già da diversi anni i modelli per la scelta e la gestione dei titoli azionari governano l’economia, molto più di qualunque esperto umano.

Possiamo riassumere quanto esposto constatando che il Data mining si articola su due attività distinte, anche se tendono a un unico fine: estrarre un surplus di valore informativo dai dati, che può tradursi (quasi sempre) in maggiore profitto o nell’individuazione di innovative soluzioni a problemi molto complessi.

La prima riguarda l’estrazione dei dati, ma con tecniche analitiche sempre di avanguardia, di informazioni implicite, spesso nascoste o da dati già strutturati, per rendere questa estrazione disponibile e direttamente fruibile.

La seconda concerne l’esplorazione delle caratteristiche e l’analisi, che viene eseguita in modo automatico (Machine Learning) o semiautomatico, su gigantesche quantità di dati, allo scopo di individuare schemi (pattern) dotati di significato.

C’è di che sentirsi autorizzati nel pensare a un “Grande Fratello” che nelle Rete è in grado di individuare singolarmente ogni individuo digitale, sezionarne l’identità e studiarne e predirne parte del suo futuro, tramite algoritmi di acquisizione, analisi, classificazione e previsione.