La business intelligence – di Fiorello Casi

Pubblichiamo il terzo articolo della rubrica “Etica e nuove tecnologie” dedicato all’analisi dei Big Data tra tecnica e tecnologia

La massa di dati (e di informazioni) generata è dunque gigantesca. E la nuova tecnologia dei Big Data non sfugge nell’operare anch’essa nel vasto campo della statistica ma con caratteristiche e potenzialità peculiari.

Infatti, nell’ambito della statistica in senso lato, interessata alla raccolta e all’analisi dei dati e all’interpretazione dei risultati, un primo filone riguarda quella descrittiva che si occupa di descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi; essa è impiegata solitamente quando non è necessario conoscere in dettaglio tutti i dati sperimentali per inferire qualcosa, ma sono sufficienti pochi numeri nei quali i dati sono stati precedentemente sintetizzati. Quindi, per così dire, si occupa di fotografare una data situazione e di sintetizzarne le caratteristiche salienti.

I Big Data, invece, operano al livello della statistica inferenziale, che ha come obiettivo quello di stabilire delle caratteristiche dei dati e dei comportamenti delle misure rilevate (variabili statistiche) con una possibilità di errore predeterminata. Le inferenze possono riguardare la natura teorica (la legge probabilistica) del fenomeno che si osserva. La conoscenza di questa natura permetterà poi di fare una previsione (per esempio, quando si dice che il “Prodotto Interno Lordo il prossimo anno avrà una certa entità” deriva dal fatto che esiste un modello dell’andamento del PIL derivato da tecniche inferenziali). La statistica inferenziale è fortemente legata alla teoria della probabilità. Sotto questo punto di vista descrivere in termini probabilistici o statistici un fenomeno aleatorio nel tempo, caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini di densità di distribuzione di probabilità e dei suoi parametri di media o valore atteso e varianza. Per quello che riguarda la teoria e la pratica delle misurazioni, indubbiamente la parte di maggiore interesse è la statistica inferenziale in quanto lo scopo delle misure è quello di fare affermazioni sul valore di una grandezza a partire da un numero comunque limitato di misure, effettuate con strumenti non ideali e con parametri e disturbi ambientali non noti con esattezza.

La storia dei Big Data inizia intorno alla fine degli anni ’50 del secolo scorso ed è riconducibile a un modello di analisi dei dati denominato “Business intelligence”. Questa espressione è stata coniata nel 1958 da Hans Peter Luhn, ricercatore e inventore tedesco, mentre stava lavorando per la IBM; e universalmente si riferisce: 1) a un insieme di processi aziendali per raccogliere dati e analizzare informazioni strategiche; 2) alla tecnologia utilizzata per realizzare questi processi; 3) alle informazioni ottenute come risultato di questi processi. Le organizzazioni raccolgono dati per trarre informazioni, valutazioni e stime riguardo al contesto aziendale proprio e del mercato cui partecipano (ricerche di mercato e analisi degli scenari competitivi); e utilizzano le informazioni raccolte attraverso una strategia di business intelligence per incrementare il loro vantaggio competitivo.

Quindi già il termine business intelligence ha, fin dall’origine, esso stesso ricompreso al suo interno, sia i tradizionali sistemi di raccolta dei dati finalizzati ad analizzare il passato o il presente e a capirne i fenomeni, le cause dei problemi o le determinanti delle performance ottenute, sia i sistemi rivolti a stimare o a predire il futuro, a simulare e a creare scenari con probabilità di manifestazione differente. Il termine business intelligence allude quindi a un campo molto ampio di attività, dai sistemi informativi aziendali alle tecnologie informatiche finalizzate a supportare, e in qualche caso ad automatizzare, processi di misurazione, controllo e analisi dei risultati e delle performance aziendali e delle organizzazioni complesse (sistemi di reporting e di visualizzazione grafica di varia natura, cruscotti più o meno dinamici, sistemi di analisi storica, sistemi di “allarme” su condizioni fuori norma o eccezioni, ecc.), e processi di decisione in condizioni variabili di incertezza (sistemi di previsione, di predizione, di simulazione e di costruzione di scenari alternativi, ecc.), il tutto integrato nel classico processo generale di “misurazione, analisi, decisione, azione”. Nella letteratura la business intelligence viene citata come il processo di “trasformazione di dati e informazioni in conoscenza”. Il software utilizzato ha l’obiettivo di contribuire in modo importante con le persone, al fine di operare delle scelte o prendere decisioni strategiche, fornendo loro informazioni precise, aggiornate e significative nel contesto di riferimento.

In termini pratici si può descrivere un’applicazione di business intelligence come uno strumento software che, acquisendo e manipolando masse di dati presenti su database o anche archivi de-strutturati, fornisce report, statistiche e indicatori, grafici, costantemente aggiornati, facilmente adattabili e configurabili da un utente finale non specialista. Quando su internet visualizziamo, per esempio, le informazioni del nostro conto telefonico o altre rendicontazioni, o quando riceviamo dal provider di telefonia mobile, via mail o via portale, dei report su consumi, fatture, navigazione, tutto ciò è realizzato da elaborazioni di business intelligence. Un aspetto importante da sottolineare è inoltre quello che i dati manipolati da questo strumento non sono mai quelli originari, presenti sul database fonte (per ovvie ragioni tecnologiche ma anche di disponibilità e sicurezza) ma essi sono in tempo reale resi disponibili in uno specifico contenitore, denominato Data Warehouse, messo a disposizione per le operazioni di business intelligence richieste. Un software (gli algoritmi) di business intelligence può operare e computare dati provenienti da diversi database contemporaneamente (per esempio, previsioni meteo, dati sulla mobilità, dati di vendita sui prodotti nella catena di distribuzione, dati di incasso e afflusso ad aree specifiche, ecc.).

Queste applicazioni sono nate in un periodo storico in cui si cominciava ad avvertire il problema della crescita massiccia degli archivi di dati senza una strategia chiara sul loro utilizzo a fini pratici ovvero di conoscenza delle informazioni per assumere decisioni corrette. Quindi la statistica è una componente fondamentale degli strumenti di business intelligence e ci si riferisce a loro anche con il termine “sistemi per il supporto alle decisioni” (Decision Support Systems o DSS), anche se l’evoluzione delle tecniche utilizzate rende tutte queste terminologie suscettibili di frequenti revisioni. E i dati generati dai vari sotto-sistemi (vendite, clima, produzione, mobilità, contabilità, ecc.) possono venire archiviati in particolari database, i Data Warehouse, che ne conservano le qualità informative, cioè la presenza di attributi misurabili o osservabili o ritenuti presenti. Le persone coinvolte nei processi di business intelligence utilizzano queste applicazioni software e altre tecnologie per raccogliere, immagazzinare, analizzare e distribuire le informazioni.

I Big Data si estendono seguendo questa linea, tracciata dallo sviluppo delle dimensioni degli archivi digitali disponibili in termini di volume, velocità e varietà da richiedere una ulteriore generazione di tecnologie e metodi analitici specifici per la loro ricognizione e analisi. Il progressivo aumento della articolazione e delle dimensioni di archivi di dati resi disponibili rende necessario poter operare, logicamente, su di un unico insieme di dati, con l’obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potevano ottenere analizzando serie contenute, con la stessa quantità totale di dati. Per esempio, l’analisi per sondare le tensioni di specifici mercati, delle borse valori o previsioni sulla richiesta di materie prime o i dati sulle bilance commerciali, quindi del trend complessivo della società e della massa di informazioni che vengono scambiate attraverso Internet. Inoltre i Big Data rappresentano anche l’interrelazione di dati provenienti da fonti eterogenee, quindi non soltanto i dati strutturati, come i database e la business intelligence, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network e dalla enorme varietà e vastità di sensori e “device” oggi disponibili e collegati in rete. Con i Big Data la mole dei dati è dell’ordine degli Zettabyte (1021 byte), ovvero decine di miliardi di Gigabyte (109 byte). Quindi si rende necessaria una potenza di calcolo grandissima, eseguita su macchine collegate in parallelo su decine, centinaia o anche migliaia di server computers.

Sintetizzando, per analizzare, misurare e valutare informazioni, la business intelligence” utilizza la statistica descrittiva con dati ad alta densità di informazione, ossia basi di dati (dataset) puliti, limitati e modelli relativamente semplici. I Big data utilizzano invece la statistica inferenziale e concetti di identificazione di sistemi non lineari per dedurre regressioni, effetti causali e relazioni da insiemi di dati di dimensioni enormi. Utilizzano inoltre modelli predittivi complessi e dataset eterogenei, ossia non correlati tra loro, per rivelare i rapporti e le dipendenze tra questi dati, in modo tale da poter prevedere in maniera il più possibile accurata risultati e comportamenti.

Queste sono le caratteristiche salienti dei Big Data che, che coadiuvate da un’adeguata potenza e capacità elaborativa, hanno consentito una rapida diffusione di questa vera e propria disciplina a tutti i settori. Probabilmente in questo caso si potrebbe parlare piuttosto di meta-disciplina, considerando il fatto che si applica a molti settori; dalla politica, all’economia, alle scienze sociali, alla ricerca scientifica ed al mondo della produzione, per citarne alcuni.

Fiorello Casi