I PILASTRI DEI BIG DATA: IL DATA MINING E IL MACHINE LEARNING (seconda parte) – di Fiorello Casi

Approfondire le principali tecniche adottate dal Data mining esula da questo lavoro, tuttavia riteniamo sia utile, per rendere la cifra del fenomeno, almeno sottolineare come tali tecniche e metodologie abbiano ricevuto negli ultimi anni la massima attenzione, sia da parte del settore pubblico, sia di quello privato. Gli investimenti in questo campo sono enormi già da alcuni anni e la centralità che assume questa nuova metodologia, nei più diversi e diversificati segmenti della società, dell’economia e della scienza, viaggia a una velocità elevata.

Sempre riguardo alla Rete e a “Grande Fratello”, si può affermare che esso sia decisamente ben dotato per svolgere le sue due attività, l’estrazione dei dati e la loro l’esplorazione e analisi.

Già da alcuni anni questo fenomeno legato al rischio del “Grande Fratello“ era all’attenzione del pubblico specializzato e alimentava un acceso dibattito tra chi sosteneva la completa liceità di determinate azioni compiute sui dati e chi nutriva delle perplessità legate a diversi fattori.

E’ certo che sia ogni singolo utente a fornire il materiale per alimentare l’attività di Data-mining ma è altrettanto certo che tale attività si è sviluppata in modo superlativo proprio in concomitanza dell’esplosione dei dati in rete. C’è da interrogarsi sul perché proprio il Data-mining sia al centro di questo fenomeno epocale.

Proponiamo un brano di un articolo, apparso sulla rivista online Wired Magazine del febbraio 2012, che aiuta a comprendere meglio le ragioni della nostra domanda e fornisce anche delle risposte in quel senso:

“[…] E’ più giusto dire, dunque, che il data mining è un processo di estrazione di conoscenza da una grande quantità di dati. Questa conoscenza può avere un valore enorme, a seconda della quantità di dati a disposizione e del settore di riferimento. C’è chi sfrutta il Data mining per estrarre potenziali conclusioni da una serie di dati biologici, metereologici, fisici o comunque concernenti la natura (realtà) fisica indipendentemente da scopi umani. Ci sono poi imprenditori che impiegano queste tecnologie di estrazione per decidere quale approccio utilizzare nell’organizzazione delle proprie risorse umane, la “natura o realtà sociale”, intrisa di scopi umani. E naturalmente, ci sono i grandi colossi del Web, per i quali i dati utente stanno diventando sempre più preziosi, poiché consentono di individuare quali utenti siano bersagli perfetti per la pubblicità mirate.”

Lo scopo principale degli algoritmi e di tutti i software necessari alla ricerca e catalogazione nella Rete, è fornire alle aziende e ai governi i dati di tutti gli individui in azione nel Web tramite applicazioni che consentano, come appena visto, di andare molto oltre la mera apparenza dei dati immediati. Tutto ciò diventa possibile acquisendo enormi banche dati degli utenti sulle quali operare con algoritmi sofisticati al fine di spremere dai dati nuove verità, nuove correlazioni, scenari celati o atti mancati in attesa dell’occasione per essere innescati.

E’ ormai di uso comune la vicenda che vede intensificarsi la pubblicità di determinati prodotti o servizi, a seconda dei siti o delle attività che abbiamo svolto in un immediato passato sul Web. Infatti un unico ma interessante ed emblematico esempio di quanto appena esposto sulle tecniche di Data mining riguarda un particolare algoritmo, denominato K-Means, il cui funzionamento è descritto come:

[…] il processo globale di analisi di grossi database finalizzata ad estrarre conoscenza nascosta è noto come Knowledge Discovery in Databases (KDD) in cui Data mining (DM) rappresenta la fase di modellizzazione […] Il KDD è l’intero processo automatico di scoperta e individuazione di strutture all’interno dei dati, dalla selezione e il pre-processing dei dati, fino alla interpretazione e valutazione dei risultati del modello ottenuto con l’applicazione di un algoritmo DM

L’algoritmo K-means, di cui si parla nell’articolo, è definito di tipo partizionante, partendo da un insieme di dati (dataset) ha l’obiettivo di individuare delle regioni (cluster) distinte nelle quali raggruppare i dati al fine di omogeneizzare quelli simili (affini) per regione di catalogazione a fronte di un criterio scelto all’inizio del processo. Il risultato del processo vede l’utente ricercatore che, nell’ambito di personali tecniche di valutazione, stabilisce il significato dei raggruppamenti ottenuti. Tra i tanti si è optato per utilizzare questo tipo di algoritmo perché, oltre a un suo uso massiccio in ambiti quali l’economia e il marketing, costituisce la fonte che alimenta i motori di ricerca. Infatti i risultati di un motore di ricerca si possono sottomettere alla analisi di raggruppamento con la finalità di inserire risposte tra loro simili in uno specifico cluster. In questo modo l’utente del motore di ricerca ottiene un numero di alternative (e più mirate) in risposta alla propria ricerca.

Un ulteriore approfondimento tecnico devierebbe, giunti a questo punto della ricognizione tecnica, dall’intento di questo lavoro. Infatti quello che ci si è proposti in questa sezione è stato di evidenziare cosa fa agire e chi seleziona, per noi utenti, le risposte alle nostre richieste e interrogazioni in Rete, cosa è e come funziona il Data mining. E le ragioni per cui questa tecnica e gli algoritmi da essa applicati risultano essere così invasivi (e pervasivi) rispetto alla nostra percezione della conoscenza.

Con conoscenza intendiamo la consapevolezza e la comprensione di fatti, verità o informazioni acquisite attraverso l’esperienza o l’apprendimento tramite elaborazioni di dati e informazioni acquisite. La conoscenza è quindi l’autocoscienza del possesso di informazioni connesse tra di loro, le quali, prese singolarmente, possono avere quasi certamente, un valore e un’utilità inferiori. Conoscenza è un termine che è in grado di esprimere significati diversi a seconda del contesto di riferimento, ma che in qualche modo intercetta sempre anche i concetti di significato, informazione, istruzione, comunicazione, rappresentazione, apprendimento e stimolo mentale.

Secondo quanto abbiamo specificato in precedenza, la conoscenza è qualcosa di diverso dalla semplice informazione. Entrambe sono alimentate da rilevazioni vere, certificate, ma la conoscenza è una particolare forma di sapere, dotata di una sua utilità. Infatti l’informazione può esistere indipendentemente da un possibile utilizzatore, come nel caso dei grandi Data Warehouse, la conoscenza possiede il diritto all’esistenza esclusivamente perché esiste una mente in grado di trattenerla. Quando si afferma di aver acquisito una conoscenza, quello che accade è che si stanno correlando e memorizzando le informazioni che la compongono insieme alle correlazioni che intercorrono fra di loro; ma la conoscenza vera e propria si ha solo in presenza di un utilizzatore che ricolleghi tali informazioni alla propria esperienza personale. La conoscenza esiste perché c’è un’intelligenza in grado di utilizzarla. C’è da aggiungere che in filosofia, come già accennato, si descrive spesso la conoscenza come informazione associata all’intenzionalità.   E lo studio della conoscenza, in questo ambito, è affidato all’epistemologia (che si interessa della conoscenza come esperienza o scienza ed è quindi orientata ai metodi e alle condizioni della conoscenza) e questo è il contesto sul quale operiamo, e alla gnoseologia (che si ritrova nella tradizione filosofica classica e riguarda i problemi a priori della conoscenza in senso universale).

Una diffusa definizione di conoscenza la vuole come “teoria della giustificazione” della verità delle convinzioni. Questa definizione, che deriva dal dialogo platonico Teeteto, pone in primo piano l’importanza delle condizioni necessarie, anche se non sufficienti, affinché un’affermazione possa rientrare nella conoscenza.

A questo punto è necessario accingerci ad affrontare come cambia la costruzione stessa della conoscenza quando, sempre con maggiore intensità, tutto viene lasciato filtrare e fluire attraverso la Rete. Quando numeri sempre crescenti di algoritmi, come quello appena descritto, operano nelle attività di regionalizzazione dei dati, di catalogazione e costruzione di risposte, non possiamo fare a meno di constatare come, di fatto, operino per produrre nuovi modelli di conoscenza. Infatti le tecnologie dell’informazione sono state in grado di modificare radicalmente il modo di gestire le informazioni e le conoscenze e inoltre hanno anche orientato diversamente gli stili cognitivi e le strutture mentali degli individui coinvolti nel loro utilizzo, rivoluzionando i modi di apprendere e costruire conoscenza (Per esempio: Il medium è il messaggio McLuhan ,1967). I processi conoscitivi, oggi, si arricchiscono e si potenziano in modo importante attraverso strumenti quali la multimedialità, la trasversalità dell’informazione, il multitasking e con la partecipazione e la condivisione tra utenti si orientano verso la costruzione di un sapere significativo, situato e autentico che sia in grado di contribuire alla comprensione e alla gestione delle problematiche entro i contesti nei quali si opera, servendosi di adeguate strategie d’azione.

Tutto ciò crea una frattura tra i modelli di scienza e conoscenza precedenti operando, probabilmente, un cambio di paradigma forse già in atto. Riteniamo che l’urgenza di una riflessione su tutto ciò sia necessaria. E una riflessione di tale portata non può essere condotta solamente dallo straripante potere della tecnica. Per la posta in gioco è necessario che, tra i molti rischi che si potranno correre, quello di vedere il mondo diviso, come nella tradizione millenaria, in due fasce di conoscenza, una, elitaria, depositaria del paradigma scientifico e dei confronti accademici e un’altra, populista, condensata attorno al meccanismo interrogazione-risposta (Google) destinata a una conoscenza generalista e superficiale. Il tentativo di una riflessione filosofica è quanto mai auspicato.