Le fonti dei Big Data: evoluzione nell’accesso e nell’esposizione al Web – di Fiorello Casi

Fino ad alcuni decenni or sono l’utente disponeva solo del computer (personal) ma a partire dagli anni ’90 del secolo scorso c’è stata un’accelerazione che ha portato a dei mutamenti enormi. E questa accelerazione continua.

Oggi ogni individuo ha almeno una apparecchiatura sempre con sé che gli permette, potenzialmente, la connessione al Web 24 ore su 24. Che sia uno smartphone o un tablet ormai il personal computer è relegato almeno in terza posizione in termini di accessibilità alla Rete. E’ bene ricordare che in questa sede parliamo di utenti medi e non di una popolazione legata ad attività professionali che richiedono l’utilizzo di computer con altre dimensioni e potenzialità di calcolo e gestione del software.

Un primo dato che rende chiara questa situazione riguarda il mercato degli smartphone, i telefoni intelligenti di ultima generazione, che ha ormai da tempo superato quello dei telefoni cellulari tradizionali, consentendo, di fatto, la possibilità di connessione anche lontano da un personal computer o in mancanza di esso. Secondo i dati forniti da Jupiner Research la presenza degli smartphone nel mondo, facendo riferimento al trimestre aprile-giugno 2013, era di 230 milioni, con un aumento di circa il 50% rispetto allo stesso periodo del 2012, e del 13% rispetto al primo trimestre del 2013. Un’altra società di ricerca, Strategy Analytics, ha calcolato che il primo miliardo di dispositivi smartphone è stato raggiunto in 16 anni ma le previsioni stimano che il secondo miliardo invece si raggiungerà in tempo molto inferiori, ovvero entro la fine del 2016. Ancora l’ABI Research conferma quanto asserito dai precedenti analisti di mercato affermando:

L’uso di internet in mobilità è cresciuto del 66% di anno in anno e al tempo stesso cresce il numero delle applicazioni, arrivato a 775.000. Nel 2009 e nel 2010 ce n’erano disponibili rispettivamente 100.000 e 440.000.

Contigui ai dati di diffusione degli smartphone (attivi) si debbono considerare anche quelli dei tablet. Secondo la International Data Corporation (svolge un monitoraggio sugli aspetti di innovazione tecnologica che coinvolgono le abitudini dell’individuo del Terzo Millennio) i tablet attivi, nel primo quadrimestre 2013 erano 45,1 milioni, un dato in aumento del 59,6 % rispetto ai 28,3 milioni del secondo trimestre 2012.

Viene naturale a questo punto dare una dimensione molto più definita delle grandezze in gioco quando ragioniamo sulle attività di connessione, navigazione, immissione e fruizione di contenuti dalla e nella Rete. Già oggi un terzo della popolazione mondiale dispone di un dispositivo portatile in grado di produrre immagini, video e sistemi di scrittura in grado di immetterli in Rete e lasciare, ormai lo si è visto, milioni di tracce del suo passaggio.

La prossemica è la disciplina semiologica che studia i gesti, il comportamento, lo spazio e le distanze all’interno di una comunicazione, sia verbale sia non verbale; il termine è stato coniato dall‘antropologo Edward T. Hall nel 1963.  E oggi sta assumendo un nuovo significato nell‘era della Rete; infatti distanza intima, distanza personale, distanza sociale e distanza pubblica si risolvono in un unico spazio di pochi centimetri, quelli che separano la nostra mano dal mouse o dalla tastiera, che è la distanza digitale, ossia la decisione secondo la quale stabiliamo quanto relazionarci con le persone che fanno parte della nostra cerchia sociale online, e con quali di loro. Nel libro The Idden Dimension [1966], Hall osservò che la distanza alla quale ci si sente a proprio agio con le altre persone vicine dipende dalla propria cultura sociale; le popolazioni orientali, quelle asiatiche e quelle occidentali hanno sostanziali diversità nella concezione della vicinanza. Quella digitale invece è fluida e informe come l‘ambiente nel quale prende forma, non ha nulla a che vedere con lo spazio fisico né con il linguaggio del corpo. Tutto ciò che immettiamo in una rete sociale in termini di interesse e disinteresse, in termini di “Mi Piace”, “Commenta”, “Condividi”, per esempio su Facebook, significa accettazione delle regole generali di utilizzo e di obbligo di accettazione dei cookies senza i quali, ad esempio, non vi è possibilità di registrarsi e acquistare; questi ultimi sono inviati dal browser (per esempio, Amazon) e divengono patrimonio comune di coloro che intendiamo rendere partecipi. Ma al contempo divengono anche patrimonio dei vari algoritmi di estrazione, catalogazione, apprendimento che si adoperano per trasformare i dati associabili a un utente in un profilo tipico di quello specifico utente; oppure a profilare gruppi di utenti associabili per tipologia di interesse; oppure, ancora, per identificare le leggi, gli schemi e i meccanismi che guidano la maggior parte delle azioni dell‘individuo al fine di definirne prevedibilità e conseguente riproducibilità; oppure per tentare di identificare presunti comportamenti criminali e aggregazioni di cellule terroristiche. Le opportunità che in questo senso offre la Rete sono pressoché infinite, la Rete non ha limiti, e con essa le variabili applicative degli algoritmi di data mining.

La parte mastodontica sta sotto la superficie. Le tracce lasciate, depositate per comunicare con i nostri partner sociali, diventano un patrimonio prezioso degli algoritmi di estrazione, stoccaggio, catalogazione e analisi che si attivano per la creazione del profilo di quell’utente, o per quello di gruppi di utenti secondo diversi criteri o, di più, per individuare leggi, schemi ricorrenti, e meccanismi che possono condurre i comportamenti degli individui; tutto col fine di poter disporre di un solido potere predittivo e quindi riproducibile, del comportamento degli utenti, individuare eventuali comportamenti criminogeni e criminali o terroristici. Si potrebbe continuare per molto sulle possibilità offerte dai dati e dagli algoritmi che li presiedono. Per il momento è sufficiente ribadire il concetto che la Rete con la sua dimensione in continua crescita, e attraverso le variabili e la versatilità degli algoritmi di Data Mining, aumenta ogni giorno la propria capacità interpretativa e predittiva nell’ambito del Web.

Prima di affrontare una veloce ricognizione sulle caratteristiche delle eterogenee fonti di dati, alle quali attingono gli algoritmi di Data mining, riteniamo utile stilare una breve descrizione delle categorie di estrazione utilizzate da questi ultimi:

  • Singoli utenti (demografia, interessi, circoli di conoscenze, idee, gusti, orientamento sessuale e di genere, ecc.);
  • Gruppi (relazioni tra persone, valori e interessi condivisi, per esempio che fa acquisti simili, ideologie, ecc.);
  • Tipologie di ricerche (Commerciali, sociali, culturali, finanziarie, politiche);
  • Tipologie di acquisto (turismo, viaggi, beni e servizi, vendite);
  • Tipologie di orientamento (culturale, sociale, politico, religioso, sessuale).

Parliamo ormai di miliardi di miliardi di dati, intellegibili e inter-relazionabili. E ci stiamo gradualmente avvicinando ai Big Data.

Su questa massa enorme e in espansione (con progressione geometrica) di dati, la possibilità di valutare variabili, individuare ricorrenze e costruire connessioni, si è ormai varcata la soglia dei limiti fisici della sola mente umana. Queste attività possono essere svolte solo da macchine, alimentate da altre macchine.

Ora il problema riguarda chi gestisce queste macchine, chi elabora i dati e ottiene i risultati e soprattutto, chi stabilisce i principi e i criteri con i quali queste devono elaborare i dati.

La Rete viene ad assumere una potenzialità esplicativa; una propria intelligenza che riguarda il rapporto esclusivo che i nodi della Rete, le macchine che la compongono, instaurano tra di loro. Si tratta di una nuova forma di intelligenza generata dalle macchine e dai dati stessi, una categoria simile a ciò che intendiamo con “intelligenza umana” e con “intelligenza artificiale”, come è stata definita da M. Nielsen.

Seguendo questo filone interpretativo un successivo approfondimento riguarda le tipologie delle fonti di dati che, secondo la tesi espressa da Andrea Palafioriti, alimentano questo sistema e che sono di due generi: quelle dirette che vanno dall’utente nella direzione della Rete, e quelle indirette, che dalla Rete ritornano alla Rete.

  1. Fonti dirette di primo genere (dall’utente alla rete). In questo caso è l’utente che, consapevolmente, decide di illustrarsi su di un network, con parole, immagini, video, scelta degli interlocutori (“Mi piace” di Facebook, per esempio); oppure di compilare schede e format di iscrizione a siti e portali Web, inviare i dati della carta d’identità, suggerire altri nominativi tramite le loro email, aderire a campagne di acquisto e altro.
  2. Fonti dirette di secondo genere (dall’utente alla rete attraverso un intermediario). Qui l’utente fornisce i propri dati ad un gestore (Google), a un negozio online, alle strutture alberghiere o corporation delle vacanze, aderisce a campagne per carte di credito, carte premio, fedeltà o compilando moduli e questionari su servizi o prodotti ricevuti. Ma anche operazioni con carte di credito, bancomat, ecc. Tutti questi dati acquistano un valore enorme quando vengono immagazzinati nei data base e, successivamente, trattati dagli opportuni algoritmi.
  3. Fonti indirette (dalla rete alla rete). Si generano, come si è visto più sopra, nella Rete, che trattiene miliardi di dati, li cataloga, li elabora e li analizza, individua correlazioni e interrelazioni, produce nuova conoscenza che reintroduce in Rete. Costruisce relazioni, produce risultati e aggregazioni attraverso i propri algoritmi. Questa rielaborazione continua e il continuo copioso fluire di dati immessi, sia consapevolmente, sia inconsapevolmente nel Web, genera finalmente il dato finale, quello più importante, il “metadato”.  L’informazione che descrive altri dati.

L’esempio più calzante di metadato è quello, ormai storico, che lo rappresenta come il catalogo dei libri di una biblioteca, dove è possibile avere tutte le informazioni su ogni singolo libro, dalla sua collocazione ai contenuti all’autore. Ciò completa il percorso sui quesiti che ci eravamo posti ad inizio del paragrafo, 1) le modalità di connessione degli utenti alla Rete e 2) le dimensioni quantitative della esposizione a tale connessione.

Prima di avviarci alla parte conclusiva riguardante il Data mining, quale operatore intelligente dei Big Data, rimane un ultimo aspetto da affrontare che, per molti versi, è la diretta e nodale derivazione di quanto fin ora affrontato e per larga parte, una sua diretta conseguenza. La privacy nel Web e sul Web.