Big Data: arriva il Big Impact?

Big Data for Big Impact è il tema del World Telecommunication and Information Society Day (WTISD 2017) del 17 maggio 2017. La giornata, organizzata dall‘International Telecommunication Union (ITU), è dedicata ogni anno ad aspetti rilevanti dell’impatto delle tecnologie di comunicazione sulla società.
L’ITU, organismo fondato nel 1865 a Parigi, raggruppa rappresentanti di 193 paesi, oltre a membri del settore accademico e dell’industria privata.

Ma cosa sono i Big Data, quale big impact avranno, e in quali campi?

Dai Data ai Big Data

Nell’erogazione di un servizio web, che sia un semplice sito o un complesso sistema di condivisione di informazioni sul web (social, posta elettronica), sono in gioco due tipi di dati.
Oltre ai dati strettamente legati al servizio stesso (contenuti, post, messaggi), vengono infatti raccolti dati che descrivono cosa accade durante l’erogazione del servizio. Lo scopo per cui si collezionano questi ultimi è estremamente ampio.

L’utilizzo più immediato, ed anche il più datato, è il problem fixing: rilevo (o gli utilizzatori del servizio mi segnalano) dei comportamenti non corretti dell’applicazione; dai dati registrati posso risalire alle condizioni che hanno prodotto l’inconveniente e predisporre le modifiche necessarie a impedire che si ripresenti.
Detta così non è evidente il sex appeal del lavoro coinvolto, ma garantisco che lavorare sui log delle applicazioni è divertentissimo, un’autentica caccia all’assassino. Basta non citare il paragone che mi scappò anni fa, poco estetico ma efficace, con l’analisi delle feci (log dei sistemi).

Il passo naturale oltre il problem fixing è l’ottimizzazione delle applicazioni. I dati raccolti consentono infatti di costruire o validare modelli dell’applicazione, che ne descrivono il reale funzionamento in campo e consentono di simulare l’effetto di modifiche strutturali dell’applicazione, prima ancora di realizzarle.

Negli ultimi anni la data intelligence ha ampliato il raggio di azione, offrendo numerose nuove opportunità. Ne sono esempi:

l’analisi del comportamento d’acquisto su un sito di e-commerce, per migliorarne l’efficacia;
il rilevamento di comportamenti fraudolenti da parte degli utilizzatori;
o, ancora, la possibilità di modellare i comportamenti di navigazione di un sito, consentendo di aumentare lo stay time del visitatore e facilitarne il ritorno sul sito stesso.

I Big Data e le tre V

Un numero maggiore di utilizzi diversi si traduce in una maggiore ricchezza di dati raccolti, e una maggiore disponibilità di dati fa venire l’appetito per nuovi utilizzi. È il fenomeno di crescita esponenziale tipico dell’informatica.
Per i Big Data le prime avvisaglie si hanno in campo scientifico. Nel 1997 due ricercatori della NASA, Michael Cox e David Ellsworth, commentando la difficoltà di gestire la crescente mole di dati generati nello studio dell’aerodinamica di velivoli, scrivono:

We call this the problem of big data.

Qualche anno più tardi è la società di analisi di mercato Gartner a caratterizzare il fenomeno, individuando l’e-commerce e la collaboration come gli àmbiti di crescita dei Big Data, e identificando le tre coordinate di espansione del fenomeno:

volume;
velocità;
varietà.

Se il crescente utilizzo del web giustifica l’aumento di volume dei dati, è l’esigenza di analisi in tempo reale che spinge sulla leva della velocità, mentre il moltiplicarsi delle sorgenti di dati spiega la Varietà. In seguito si aggiungerà una quarta V, la Veridicità. Poi arriveranno Viralità e Valore. Mi fermerei però al modello semplice e chiaro delle 3 V di Gartner, nelle V aggiunte in seguito si coglie un po’ di forzatura.

Le 3 V hanno l’effetto di far diventare Big i Data, in maniera impressionante, dicono le analisi predittive e le indagini di mercato effettuate in tempi recenti: dopo i TeraByte (1TB = 1024 GigaByte) si scoprono i PetaByte (1 PB = 1024 TB) e poi gli ExaByte (1 EB = 1024 PB).
La crescita di volumi in atto è indubbia, anche se non so quante realtà si trovino a gestire ExaByte di dati. Fin dai tempi delle medie sappiamo che noi maschietti tendiamo a esagerare quando si discute di dimensioni. Possibile che avvenga lo stesso anche nelle indagini di mercato dell’ICT.

Arriva l’IoT e i Big Data diventano ancora più Big

Dopo Big Data ecco un altro termine balzato alla notorietà negli anni più recenti: IoT, l’Internet of Things.
A coniare il termine è Kevin Ashton, dell’Auto-ID Center del MIT, gruppo di ricerca sugli RFID connessi in rete:

We need an internet for things, a standardized way for computers to understand the real world.

L’esigenza, o meglio l’opportunità, è quella di estendere l’automazione computerizzata agli oggetti che ci circondano, dotandoli di intelligenza (computing) e connettendoli in rete.

Siamo nel 2002. Se le etichette RFID sono già diffuse, altre tecnologie abilitanti per applicazioni reali sono ancora da venire. In particolare servono protocolli short range per una comunicazione robusta, sicura, scalabile, a basso consumo.
Arriveranno, e l’IoT comincerà a decollare nel campo dell’automazione industriale, delle applicazioni per rendere intelligenti le nostre abitazioni (smart-house) e le nostre città (smart-city). Un buon punto di osservazione del fenomeno è l’Osservatorio del Politecnico di Milano.

Più computing significa più dati raccolti da elaborare. Ancora una volta si tratta sia di dati strettamente legati all’azione dell’applicazione (il mio frigorifero mi avverte che ha comprato del latte, ne era rimasto poco), sia di dati utili ad analisi laterali (il mio consumo di latte è regolare? ci sono segnali di alimentazione scorretta?).

Immaginiamo questo fiorire di dati applicato alle varie realtà.

Nell’automazione industriale, con l’obiettivo di analizzare in finissimo dettaglio i processi produttivi, per aumentarne il grado di efficienza ed automazione. Nelle applicazioni per la casa intelligente (elettrodomestici, sistemi di allarme). Nelle città intelligenti, per il controllo del grado di inquinamento, la gestione intelligente della raccolta dei rifiuti, dell’illuminazione, dell’irrigazione, del traffico e dei trasporti.

Si intuisce che la mole di dati diventa davvero Big e che, come evidenziato dal tema del World Telecommunication and Information Society Day, siamo di fronte a un Big Impact.

Gli strumenti per i Big Data: HADOOP

Per raccogliere ed analizzare Big Data servono una memoria di massa scalabile (PetaByte / Exabyte) e strumenti per estrarre il valore informativo che racchiudono. Non è un compito semplice.

Il precursore in questo campo è, manco a dirlo, Google, con il suo MapReduce, utilizzato internamente, insieme al sistema di gestione dei dati (File System) proprietario di Google. L’impiego: l’analisi della sconfinata massa di informazioni a supporto degli arcinoti servizi di Search, gestione della Pubblicità, Mail.

La versione open source del framework di Google arriva nel 2006, progettata da Doug Cutting di Yahoo!, e battezzata HADOOP (non è un acronimo, bensì il nome con cui il bimbo di Cutting chiamava il suo elefantino giallo di pezza. E l’elefantino compare anche nel logo di HADOOP).

Cosa offre HADOOP alle applicazioni di analisi dei Big Data

Hadoop integra innanzi tutto una gestione del file system adeguato alle esigenze dei Big Data.
Dischi a basso costo, con replica dei dati immagazzinati (tipicamente 3 copie) per mantenere sia un’elevata affidabilità, sia la concorrenza di accesso ai dati. E poi ottimizzato per scrittura e lettura, a scapito della modifica (i dati raccolti si analizzano, non c’è necessità di modifica).
E poi, secondo il paradigma del MapReduce, un’infrastruttura di programmazione che consente di parcellizzare l’analisi dei dati, producendo dei dati intermedi (Map), che vengono poi riordinati (Sort + Send), correlati (Merge) e infine sintetizzati (Reduce).

Due i vantaggi di questo approccio.

La scalabilità, innanzitutto: all’aumentare dei dati da analizzare si aggiungono dischi e processori e le prestazioni crescono in maniera lineare.
Serve maggiore velocità? Si aggiungono processori: la parcellizzazione dei processi di calcolo consente, anche in questo caso, di ottenere le prestazioni volute.

Fin qui sono state indirizzate due delle tre V, il Volume e la Velocità. A indirizzare la terza V, la Varietà, è la concezione stessa dell’infrastruttura: la peculiarità dei dati raccolti dalle sorgenti più disparate viene indirizzata nel primo stadio (Map); da lì in avanti la gestione rimane invariata.

HADOOP per i Big Data, un successo?

Dal punto di vista tecnico HADOOP è una svolta nella gestione dei Big Data. Ma allora, perché la sua adozione non ha seguito le entusiastiche previsioni iniziali, tanto da far dubitare, qualche anno fa, che si fosse alla fine della bolla di HADOOP?

I fattori che hanno pesato, e pesano, sulla rapidità di adozione di HADOOP sono essenzialmente tre:

il costo di realizzazione;
la discontinuità che comporta;
la reale urgenza dell’adozione di soluzioni Big Data.

Mettiamoci per un momento nei panni di chi debba valutare l’investimento richiesto dall’adozione di una infrastruttura HADOOP. Servono risorse hardware (dischi, sistemi), competenze sia tecniche (programmatori sulla specifica infrastruttura), sia di analisi marketing (di che natura e come si quantifica esattamente il valore racchiuso nei Big Dati, e come si esplicita?).
E, va da sé, questo investimento deve giocarsela con altre esigenze di investimento, sia per lo sviluppo dei servizi, sia per gli analytics classici.

Qui si innesta il secondo punto critico: la discontinuità.

L’azienda è già dotata di strumenti di Data Intelligence, per semplici o complessi che siano, basati su tecnologie classiche: elaborazione dei dati di ingresso, immagazzinamento dei dati di sintesi in tradizionali database, report via query.
Come integro in questa realtà che sopporta il day-by-day aziendale, un’infrastruttura così innovativa e diversa, e che soprattutto assorbe competenze tecniche, per loro natura scarse? Peraltro mettendo d’accordo IT (che controlla il budget dell’infrastruttura) e Marketing (che esprime desideri).

Sul terzo fattore di ritardo, la reale urgenza della adozione di soluzioni Big Data, non è del tutto superato quanto scriveva nel 2003 Dan Ariely, professore di Psicologia ed Economia comportamentale della Duke University:

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it…

Come gestire allora l’impatto dei Big Data?

Una recente pubblicazione di Tableau.com delinea i Top 10 trends nel 2017 per i Big Data. Di seguito una rapida sintesi delle indicazioni.

Se la gestione dei dati alla HADOOP è ancora la soluzione giusta per i Big Data, la discontinuità indotta nell’infrastruttura aziendale di analisi dei dati va gestita offrendo un accesso SQL allo storage HADOOP (esempio: Apache Hive 2 LLAP – Live Long and Process) e con l’utilizzo di database più veloci.

Altra indicazione: nel 2017 dovrebbero emergere soluzioni di self service data analytics, capaci di realizzare il sogno di ogni reparto Mktg: “perform queries and generate reports on their own, with nominal IT support“, abbassando la barriera all’ingresso nell’adozione di una nuova infrastruttura.

E, infine, l’IoT, alimentando l’immenso bacino di dati disponibili, il data lake nella definizione di Gartner, dovrebbe incoraggiare l’emergenza di nuovi servizi, incoraggiando i relativi investimenti.

Rimane da vedere se il 2017 sarà davvero l’anno del Big Impact.

Immagine di apertura tratta da ITU Pictures, con licenza CC BY 2.0