Big Data: emersione di nuove tecniche di ricerca e trattamento dei dati – di Fiorello Casi

Per essere in grado di avere una panoramica sufficientemente vasta, al fine di abbracciare un fenomeno di così vasta portata come la diffusione della digitalizzazione e delle applicazioni a essa correlate – con le conseguenti mutazioni culturali – è necessario affrontare, seppur in modo accessibile ai non specialisti, qualche aspetto tecnico. Me ne scuso con i lettori ma sono certo che concedendomi un poco della loro pazienza, saranno in grado di apprezzare maggiormente gli argomenti successivi e formulare con maggiore autonomia le loro considerazioni circa questi fenomeni.

Il Data mining nasce con il Web 2.0, quando l’utente inizia un’attività di interazione con la Rete e i suoi contenuti, secondo un processo bidirezionale per quanto riguarda il traffico informativo. E’ un processo strutturato di creazione di modelli a supporto delle decisioni di business, che scopre relazioni, similitudini, sequenze e tendenze all’interno di database di grandi dimensioni contenenti informazioni eterogenee, utilizza tecniche statistiche e di intelligenza artificiale. E’ diventato uno standard per i ricercatori e i manager che scelgono di prendere decisioni migliori e ben informate. Utilizzato esclusivamente sui dati provenienti da indagini su dati nativi, cioè provenienti direttamente da fonti primarie di registrazione, o integrando altre informazioni di carattere strutturato (data set), il Data mining contribuisce in modo determinante all’individuazione all’interno di questa massa di dati, di pattern, situazioni e condizioni non evidenti alla ricognizione da parte dell’uomo e che richiedono l’ausilio delle macchine. Ci sono molte differenti definizioni per il Data Mining, ma tutte sono accomunate dalla presenza di alcune espressioni come: database di grandi dimensioni, relazioni nei dati e tecniche di analisi avanzate. Alcune definizioni sono legate alla presenza di tecniche specifiche, come le reti neurali o algoritmi genetici. Altre presentano il Data mining come soluzione a tutti i problemi legati a grandi quantità di dati da processare. Questo fatto dipende da condizionamenti culturali o da esigenze commerciali e di marketing degli operatori del settore ICT. Infatti tutte queste definizioni non tengono conto del fatto che il Data mining non è legato a nessuna tecnica specifica e non rappresenta una soluzione universale. Nella realtà dell’analisi dei dati i migliori risultati vengono raggiunti combinando una serie di tecniche distinte.

Una definizione aderente con la reale portata di questo insieme di tecniche, raccolte sotto il nome di Data mining la fornisce l’azienda di consulenza strategica Gurtner Group:

Il Data mining è un processo atto a scoprire correlazioni, relazioni e tendenze nuove e significative, setacciando grandi quantità di dati immagazzinati nei repository, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche” 

Altre definizioni ancora sono legate al concetto di data warehouse; anche se data mining e data warehousing sono complementari, non possono essere definiti senza distinzioni. Alcuni autori sostengono che il Data mining non sia altro che una definizione nuova e affascinante per una serie di tecniche già conosciute e utilizzate da tempo. In queste affermazioni c’è una parte di verità, ma non centrano il punto della questione.

Le condizioni attuali non sono più quelle in cui si operava alcuni anni fa. Ci sono stati molti cambiamenti che rendono disponibili a una più ampia fascia di utenti tecniche avanzate di analisi:

  • miglior accesso ai dati – e molti più dati a cui accedere;
  • grande incremento delle capacità di elaborazione, in particolare dei desktop;
  • miglior educazione statistica;
  • importanti cambiamenti nei software, ora più facili e intuitivi da utilizzare;

Il Data mining trova delle relazioni nei dati, ma questo è solo l’inizio. Il Data mining non prende decisioni, ma fornisce le informazioni necessarie a fronteggiare le difficoltà insite nella ricerca di soluzioni a numerosi problemi e analisi di scenari complessi; porta a nuove conoscenze e aiuta a prendere decisioni migliori. Utilizzando tecniche di indagine avanzate, è possibile scoprire informazioni nascoste, creare modelli esplicativi, trovare raggruppamenti significativi, identificare relazioni fra le attività e correggere gli errori. E tutto ciò porta a vantaggi reali in numerose attività, sia di ricerca, sia produttive e gestionali.

L’applicazione del Data mining si può ricondurre a cinque aree fondamentali:

  • Previsione – Utilizzo di valori noti per la previsione di quantità non note;
  • Classificazione – Individuazione delle caratteristiche che indicano a quale gruppo un certo caso appartiene;
  • Segmentazione – Individuazione di gruppi con elementi omogenei all’interno del gruppo e diversi da gruppo a gruppo;
  • Associazione – Individuazione di elementi che compaiono spesso assieme in un determinato evento;
  • Sequenze – Individuazione di una cronologia di associazioni.

Se quindi è vero che le origini del Data mining appartengono all’analisi dei dati, è anche vero che molto cose nel contesto di cui ci stiamo occupando, sono cambiate notevolmente. Difatti, con l’evoluzione del Web si costituiscono le reti sociali digitali (dai forum ai blog specialistici) e, soprattutto, a tutti quei dispositivi che consentono agli individui di generare e produrre contenuti da immettere in Rete e di modificare quelli già presenti. L’aspetto centrale riguarda il fatto che, per queste due facoltà dell’utente, quest’ultimo debba (in qualche modo) lasciare i propri dati identificativi o comunque una traccia di sé e del suo passaggio. Sempre durante la navigazione dell’utente altri sistemi o strumenti (come i browser dei siti visitati) si occupano di agganciare il computer del navigante depositando all’interno della sua macchina degli strumenti di tracciatura, i cookies, che identificano il terminale dell’internauta e lo stesso utente navigante (tramite l’indirizzo fisico del terminale, l’IP-address) e ne registrano i dati sensibili. Tutto in modo trasparente per l’utente.

Questo è un primo aspetto da tenere presente in un percorso di approfondimento sui metodi di reperimento dei dati per la costruzione di conoscenza e dei modelli predittivi sulle attività e comportamenti degli individui in Rete ma non solo.

Il Data mining ha avuto avvio abbracciando diversi contributi disciplinari. In primo luogo in ambito epistemologico, per quanto riguarda la complessità e l’incertezza; un rapporto complesso, teso ad attivare connessioni originali tra ambiti disciplinari apparentemente lontani tra loro come quello della biologia e delle scienze sociali. In secondo luogo ha attinto, in ambito scientifico, dalle scienze cognitive, dall’intelligenza artificiale per insegnare alle macchine a imparare una strategia di ricerca autonoma tramite esempi forniti dagli specialisti; e dalla computer science con la progettazione di software dedicati e con maggiore potenziale elaborativo. Dall’ambito statistico derivano l’assunzione della teoria dell’apprendimento statistico (learning from data), la statistica computazionale e le strategie di analisi. Mentre dall’ambito economico una parte sostanziale viene coperta dal marketing personalizzato e dai sistemi di supporto al management.  Da questo contesto di conoscenze unite tra loro, si evolvono le tecniche di Data mining e solo in seguito si è giunti al Web mining che concerne l’applicazione delle tecniche di Data mining al Web.

E’ nel Web ma soprattutto con l’avvento del Web 2.0 che iniziano a crescere in modo esponenziale quantità di dati inimmaginabili sino a pochi anni or sono, tutti immessi dalla massa sempre più vasta degli utenti della Rete. Abbiamo già accennato al fatto che, grazie ai sempre più nuovi dispositivi, i dati immessi in Rete assumono morfologie diverse e diversificate.

E’ opportuno al fine di una ricognizione rigorosa, riprendere per sommi capi le tipologie dei dati presenti in Rete:

I dati che costituiscono effettivamente la pagina Web. Sono composti essenzialmente di testi e immagini:

  • Struttura: sono i dati che descrivono l’organizzazione del contenuto della pagina. Sono sostanzialmente costituiti da istruzioni in linguaggi simbolici e processati da appositi compilatori residenti nel Software di base del server sul quale risiede l’applicazione;
  • Comportamento: dati che descrivono il modello di comportamento delle pagine Web, come, per esempio, gli indirizzi IP (indirizzo fisico delle macchine ), gli Url, la data e ora degli accessi;
  • Profilo utente: dati che forniscono le informazioni sugli utenti del sito Web visitato; includono i dati di registrazione e le informazioni sul profilo dei clienti.

Tutti questi dati acquisiti consentono di catalogare dettagliatamente i comportamenti durante la navigazione e altre attività degli utenti nella Rete.

Va sottolineato che la raccolta di questi dati prevede una sistematicità e un dettaglio molto elevati; infatti si registrano la frequenza delle visite, le informazioni dirette inserite sui siti, le zone delle pagine con numero di click associati, i colori, i contenuti e i tempi di permanenza sui vari segmenti.

Per collocare l’attuale momento storico in cui trova piena maturazione la tecnica del Data mining è utile ripercorrere brevemente le tappe evolutive, sia per collocare questo fenomeno in una prospettiva storica, sia per evidenziarne il grado di sviluppo tecnologico.

  • 1960: attività di raccolta dati (computazione codice Hollerith), modelli gerarchici e relazionali dei dati;
  • 1970: si fa strada il modello relazionale dei dati, nascono i primi DBMS (Data Base Management System) relazionali (IBM, Sperry Univac);
  • 1980: massima diffusione dei DBMS, in tutti gli ambiti (IBM, Digital Equipment);
  • 1990 – 2000: Data Mining e Data Warehouse;
  • 2001 – 2011: modelli predittivi (Apache Hadoop, IBM, Oracle, SAS, EMC2, ecc.).

Una prima, anche se evidente, considerazione riguarda il fatto che le tecniche di ricerca e analisi dei dati, in maniera importante nei settori merceologico ed economico-finanziario, esistono da molto prima che Internet fosse addirittura messo in cantiere.

E’ solo con l’avvento del Web e il suo progressivo proliferare, con la sua fase di maturità 2.0, che le società commerciali ormai anch’esse nella fase di evoluzione a livello globale, sentono l’irrimandabile necessità della ricerca di dati in questo nuovo ambito.

Lo sviluppo tecnologico anche in questo caso subisce un’accelerazione importante negli ultimi anni, sviluppando parimenti modalità in parte inedite circa la sua penetrazione nelle trame sociali; a questo si aggiunge la ineludibile tendenza delle economie di mercato verso la massimizzazione sempre crescente del controllo sui dati e quella sul profitto che ne deriva. Tutto ciò ha portato a far sì che le aziende più attente, già dagli anni ’90, abbiano avviato e realizzato dei sistemi, sia tramite enti specializzati, sia costituendo dipartimenti appositi al loro interno, in grado di raccogliere dati relativi ai loro clienti o utenti, attraverso le piattaforme e i prodotti stessi delle aziende fornitrici. E dopo la pericolosa cabrata, dovuta alla bolla speculativa del 2000, dove si temette la implosione di Internet, oggi la nascita di società specializzate in servizi informatici per la raccolta, gestione e analisi dei dati e delle potenzialità della Rete, sono numerosissime e un punto di forza che traina buona parte del mercato, sia del terziario che di quello produttivo. Il seguito è sostanzialmente storia dei nostri giorni, dove l’utente diviene il principale produttore di contenuti, dei propri e di quelli che saranno oggetto di fruizione di altri utenti.

Inoltre negli ultimi anni si è vista una crescita esponenziale legata alla raccolta e archiviazione di informazioni personali dei propri utenti e clienti da parte di tutte le aziende; istituti di credito, aziende commerciali e finanziarie, corporation farmaceutiche e aziende dell’industria culturale. In cambio di alcuni e, in molti casi, modesti benefici, l’utente è sollecitato a depositare nei grandi data base di queste aziende informazioni anagrafiche, demografiche e personali. Si determina una importante variazione di scala di un fenomeno ben noto e dibattuto almeno dagli anni ’70 del secolo scorso, e cioè lo sfruttamento dell’utente come lavoratore occulto al servizio del capitale.  Negli anni ’70 questo fenomeno vedeva la sua genesi ma il clima culturale (e tecnologico) di quegli anni era caratterizzato da una maggiore criticità nei confronti del capitale; si era usciti da poco tempo dalle contestazioni sociali e politiche del decennio precedente e l’attenzione sul ruolo sociale ricoperto dagli individui era elevata. Il dibattito sul ruolo del consumatore, fornitore di dati utili per la rilevazione dei suoi comportamenti sociali ed economici, tramite l’adesione volontaria nel fornire informazioni personali, era interpretata come una forma di sovrastruttura, in senso marxiano, adibita al drenaggio di risorse non remunerate, quindi di sfruttamento, operata dal capitale sui lavoratori-consumatori. Anche se la logica di questo schema interpretativo rimane immutata, oggi il clima culturale e sociale non pare avere un’attenzione particolare nei confronti di questo aspetto. L’attenzione è rivolta maggiormente ai problemi legati alla privacy e al possibile controllo che ne deriva da una sua violazione, piuttosto che sul fatto di lavorare in modo gratuito fornendo al capitale della materia prima per generare plus valore. E la disponibilità a lasciare tracce digitali è divenuto un atteggiamento pressoché automatico da parte della maggioranza degli individui in azione nella Rete.

Inoltre la diffusione del denaro elettronico ha raggiunto livelli tali per cui per molti versi è una conseguenza del tutto naturale poter tracciare le attività e i comportamenti digitali degli utenti.

I protagonisti assoluti di questo nuovo orientamento nel periodo attuale restano in ogni caso i social network i quali che, come unica e propria missione aziendale (Core Business), hanno quella di aggregare e incrementare la massa di utenti, i “followers”; e per questo scopo producono sistematicamente diversi e diversificati strumenti e sistemi di aggregazione. Dal parco dei giochi digitali per i bambini scaricabili su PC e Tablet, ai giochi per adulti che, connettendosi in Rete, consentono di giocare con individui quasi sempre remoti (sul solo Facebook ne esistono alcune migliaia), ai gruppi di discussione su i più diversi argomenti, sono solo alcuni degli esempi che mettono in grado gli operatori di questo settore, le aziende e le corporation che stanno dietro questa prima linea, di sollecitare una continua richiesta di informazioni, molte volte decisamente sensibili, quali il sesso, l’orientamento sessuale, religioso, politico, dati demografici, sulle propria salute, le condizioni familiari, ecc.

Lo scopo di tutto ciò è creare le condizioni per incrementare la velocità e la quantità delle aggregazioni fra gli individui in Rete e le loro relazioni. Il confine tra esigenze, necessità e garanzie democratiche degli individui connessi con quelle indotte da queste nuove strutture, resta in ogni caso molto incerto. Quanto fino a ora esposto descrive come si genera buona parte della materia prima sulla quale si sviluppa e articola l’attività dei detentori della supremazia tecnologica, i metadati.

Con il termine “metadati” si indica una serie di informazioni sui dati, di varia natura. L’esempio più utilizzato riguardo la descrizione dei metadati è quello che li associa a quelli racchiusi nella scheda di catalogo di un libro: il libro è l’insieme dei dati, la scheda l’insieme dei relativi metadati. L’ambito d’uso più rilevante è oggi senza dubbio quello informatico, in particolar modo quello legato alla gestione dell’informazione. A rigore si dovrebbero distinguere metadati “di struttura”, che definiscono l’architettura dei dati e la loro interrelazione, e metadati “di contenuto”, che invece classificano e descrivono la qualità dell’informazione. Il significato relativo al contenuto o alle caratteristiche dei dati è quello più diffuso, soprattutto nell’ambito tecnico. I metadati in questo senso sono dei marcatori, una sorta di post-it, collegati a un oggetto informatico (immagine, documento, pagina web, brano musicale, file dati, ecc.), o a una serie di oggetti informatici; e hanno lo scopo di descriverne il contenuto e/o gli attributi; difatti in una banca dati relazionale, un attributo rappresenta una delle proprietà significative di una relazione ai fini della descrizione della realtà applicativa di interesse. L’importanza sempre maggiore dei metadati, che di fatto ormai è una necessità, è legata all’enorme proliferazione dei contenuti web e delle banche dati; infatti, per esempio, con l’aumentare delle pagine web è diventato di fondamentale importanza classificarle con marcatori che consentano ai motori di ricerca di selezionare dei sottoinsiemi (in base alla lingua, in base al dominio, in base anche a parole chiave che identificano il contenuto); così come, con la realizzazione di biblioteche digitali che riproducono volumi per intero, è diventata indispensabile la descrizione delle pagine riprodotte, con classificatori che precisano non solo i ‘dati sul dato’ (il formato, la dimensione, la qualità, gli strumenti di riproduzione), ma anche i ‘dati in esso contenuti’ (autore, titolo, parole chiave ecc.).

Attraverso la tecnologia di internet che, pur non essendo l’unica, è certamente protagonista di questa fase di cambiamento, a qualsiasi livello, dai social network, alla fruizione di informazioni dei Blog o dalle pagine dei siti, lasciamo enormi quantità di tracce su noi stessi da diventare una vera e propria “miniera” di estrazione per gli algoritmi di Data mining preposti alla archiviazione, catalogazione, estrazione e proposta di contenuti che noi stessi e spesso anche a nostra insaputa, abbiamo determinato (quasi sempre) a farci indicare. Non vi sono dubbi che questo aspetto rechi con sé punti a nostro vantaggio; tuttavia, anche in questo caso, desta molte preoccupazioni il confine tra indubbi benefici della preselezione di determinate informazioni e una catalogazione e analisi, con conseguente predizione dei nostri gusti o scelte future, di tutte le nostre attività di internauti.

Inoltre va prontamente ricordato che parallelo al mondo del Web, così come lo abbiamo descritto e del quale ci occuperemo ancora, esiste il “Deep Web” o Web sommerso o oscuro; si tratta di tutta quella parte di dati che non è accessibile ai motori di ricerca. E il fatto inquietante è che questa parte celata del Web è cinquecento volte più grande di quella in chiaro. Quindi il problema del quale ci occupiamo riguarda principalmente la parte fruibile dalla massa generale degli utenti. Le implicazioni circa la navigazione anonima e segreta, senza lasciare traccia, a parte le attività criminali, ricade in una categoria denominata “Whistle blower”, uno “spifferatore”, cioè colui che perpetra delle attività illegali all’interno di un’azienda, di solito dove lavora, per mettere a conoscenza del vasto pubblico delle notizie ritenute utili alla comunità. Interrogarsi sul comportamento etico di questi personaggi, che approfittano del fatto di non lasciare traccia del loro passaggio, è un problema complesso. Il fatto certo è che il Deep Web resta il paradiso dei Whistle blower; solo in questo vero e proprio luogo possono lasciare le loro denunce proteggendo al tempo stesso la loro privacy. Sempre a patto di volersi nascondere e, soprattutto, essere in grado di usare gli strumenti giusti, pena essere scoperti in brevissimo tempo. Quindi l’anonimato contiene una riserva di rischio molto elevata nell’attività in rete.

Col fine di essere esaustivi su questa problematica è opportuno affrontare e puntualizzare alcuni aspetti che riguardano gli elementi che costituiscono il paniere delle dotazioni attraverso cui il Data mining opera.

Ci siamo basati sulla ricerca di Alberto De Bortoli (sviluppatore di sistemi presso la EF Education First di Londra) sul Web-Usage Mining.

La scoperta dei modelli è nata su metodi e algoritmi sviluppati in diversi campi, come la statistica, l’apprendimento automatico e il riconoscimento dei modelli. Nel Web mining, però, questi metodi devono tener conto dei differenti tipi di astrazioni dei dati e della conoscenza disponibile a priori. Per quanto riguarda la scoperta di regole associative, ad esempio, la nozione di transazione nella market-basket analysis non prende in considerazione l’ordine con cui gli articoli sono stati selezionati. Nel Webusage mining, però, una sessione server è una sequenza ordinata di pagine richieste dall’utente. Per di più, a causa delle difficoltà nell’identificazione di sessioni univoche, è richiesta un’addizionale conoscenza a priori (per esempio imporre un timeout predefinito).

I metodi che vengono segnalati dallo studio sopracitato sono in sintesi i seguenti:

Analisi statistiche. Sono di tipologia descrittiva (frequenza, media, mediana) e riguardano entità come pagine intere, tempo di visita, dimensione del percorso di navigazione;

Analisi delle sequenze di vista. Riguardano le relazioni definite sulle pagine Web, le percentuali di accesso a un determinato Link, la similarità tra pagine, il numero di utenti che passa da una pagina all’altra.

Regole associative. Vengono rese operative delle analisi e delle catalogazioni di tutte le associazioni e correlazioni tra i dati, in tutti i casi in cui alcuni elementi presenti in una data sessione di attività, venga rilevata la presenza di altri elementi, la correlazione appunto. E’ evidente che in casi come questo, data la enorme quantità di dati e di relative possibili correlazioni, vengono impostati dei valori soglia, calcolati in base al numero di utenti presenti nella lista dei partecipanti.

Analisi dei gruppi. Vengono costituiti dei gruppi aventi elementi con caratteristiche di similitudine. Vengono suddivisi in due sotto insiemi: gruppi di comportamento, riguardano utenti con comportamenti di navigazione simili; gruppi di pagine, in questo caso gruppi di pagine con contenuti collegati fra loro. Ciò consente la creazione di nuove pagine da offrire agli utenti personalizzate in base o alle parole chiave inserite o alla cronologia dei bisogni informativi.

Regole di classificazione. Vengono creati dei profili basati su elementi di classi predefinite; con questo metodo è possibile adeguare e rendere subito disponibili i profili degli utenti che accedono a determinati archivi, usando le informazioni demografiche o i profili di accesso. A tale fine vengono usati algoritmi di apprendimento induttivi (Google è il maggiore produttore di questa metodologia).

Modelli sequenziali. Nell’ambito di un’unità di tempo questo metodo individua gli insiemi di elementi presenti delle sessioni utente nell’intervallo considerato e propone al ciclo di sessioni successivo un’offerta la più omogenea possibile col precedente. Il tutto finalizzato alla previsione dei modelli di visita degli utenti.

Modellizzazione della dipendenza. Si tratta di creare il modello di navigazione dell’utente, al fine di disporre l’informazione esatta sulle dipendenze significative tra le variabili dell’ecosistema Web. Un esempio puntuale riguarda la costruzione del modello sulla raccolta e catalogazione delle azioni degli utenti simili in tutte le fasi di acquisto online, nel percorso completo da semplice visitatore a cliente.

La scelta di uno dei metodi sopraesposti dipende dalla finalità per la quale una determinata applicazione di Web mining è stata realizzata.

Un ultimo ma non secondario fattore legato alla metodologia di Web mining riguarda quello che viene chiamato “Clickstream Data Mart”. Questo metodo ormai totalmente diffuso ha come scopo la memorizzazione di tutte le attività di un utente sul Web. Significa che la gigantesca mole di click effettuati da un utente su un determinato sito vengono memorizzati ed analizzati. Il concetto di casualità è lontanissimo da questo approccio; infatti tutte le azioni che un utente compie su un sito forniscono grandi quantità di informazioni quantitative e qualitative quali:

  • Zone del sito che riceve maggiori visite;
  • Quali zone sono associabili a risultati di profitto aziendale effettivi (vendite);
  • Le zone meno visitate, e le ragioni;
  • Eventuali zone che possono dissuadere a proseguire la visita e le ragioni di ciò;
  • Esatto profilo di click di un nuovo utente;
  • Esatto profilo di click di un cliente acquisito o abituale;
  • Numero di visite di un utente prima di effettuare la registrazione o procedere ad un acquisto.

Quindi la disponibilità sempre crescente di dati è in prima battuta fornita da tutti gli utenti stessi. Le forme di alimentazione degli algoritmi di Data mining, come già accennato, sono numerose. Dispositivi cellulari, personal computer, ipod, ipad, sistemi GPS ma anche compilazione di format per l’utilizzo di determinati servizi, carte sconto o fedeltà, scrivendo in rete. In maniera più o meno consapevole tutti gli individui sono loro i fornitori di questa sorta di materia prima attraverso la quale le aziende alimentano un sistema di produzione volto a venderci dei prodotti ai quali abbiamo contribuito noi in prima battuta a realizzarlo.

Per affrontare la tematica più vasta dei Big Data è quindi necessario approfondire ancora due aspetti sostanziali del sub sistema del Data Mining: le modalità di connessione degli utenti alla Rete e le dimensioni quantitative della esposizione a tale connessione.