Esplorare i Big Data per prendere decisioni strategiche

I Big Data possono dare informazioni molto utili all’azienda. Ma una massa di dati è sostanzialmente inutile se non viene trasformata in qualcosa di significativo. Solo dopo la loro combinazione e normalizzazione possono mostrare tutte le loro potenzialità

di Valerio Alessandroni

Nel 1999 l’arrivo dei blog diede inizio a quello che avremmo imparato a conoscere come “Web 2.0”: da fruitori di contenuti generati da un numero ristretto di fonti, gli utenti di Internet sono diventati gli autori di tali contenuti. La quantità di informazioni disponibili è esplosa e non ci è voluto molto tempo perché aziende ed esperti ITC capissero che la mole di dati generati online, benché quasi impossibile da gestire, presentava un potenziale enorme in termini di business intelligence. Nel 2010, l’ex presidente del consiglio di amministrazione di Google, Erick Schmidt, ha ricordato come siano stati creati cinque Exabyte (miliardi di miliardi di byte) di informazioni nel periodo che va dall’alba della civiltà fino al 2003. Oggi, questi stessi cinque Exabyte vengono generati ogni due giorni.

Un cambiamento epocale che vale enormi quantità di dati
Bastano pochi esempi per capire questo cambiamento che ha fatto la storia. Nel 2016, il volume stimato di traffico mobile a livello mondiale è stato pari a 6,2 miliardi di Gbyte (6,2 Exabyte) al mese. Per il 2020 si prevedono quasi 40.000 Exabyte di dati (40 Zetabyte). Su Google vengono eseguite oltre 3,5 miliardi di ricerche al giorno, mentre gli utenti di FaceBook aumentano all’incirca del 22% anno dopo anno. Possiamo aggiungere i 187 milioni di email, i 38 milioni di messaggi WhatsApp e i 18 milioni di sms scambiati ogni minuto, e così via. Si stima che dalla sola Cina, entro il 2020, proverrà il 20% di tutti i dati generati sul pianeta.
Difficile visualizzare numeri di questo tipo. Per dare un’idea, ecco un paio di termini di paragone. Supponendo che su tutte le spiagge della Terra vi siano 700,5 miliardi di miliardi di granelli di sabbia, i 40 Zb citati prima equivarrebbero a 57 volte tale quantità. Oppure, se potessimo salvare tutti i 40 Zb su dischi Blu-ray, il peso di tali dischi (senza custodia) sarebbe pari a quello della portaerei da guerra Nimitz. L’espressione “Big Data” si riferisce appunto alle grandi quantità di dati come queste.

I megadati diventeranno la pietra angolare del futuro Internet 3.0
Di tutti questi dati, solo un quarto potrebbe dimostrarsi utile ad aziende e consumatori, se opportunamente classificato e trattato. Ma solo il 3% di essi viene “taggato” e una percentuale ancora minore, stimata intorno allo 0,5%, viene davvero esaminata. Nella loro forma grezza, i Big Data sono infatti difficili da sfruttare, ma non rimarranno sempre così. Si prevede infatti che i megadati diventeranno la pietra angolare del futuro Internet 3.0 o “Web semantico”, che vedrà il passaggio alla produzione di massa e al consumo mirato. Per giungere a questo, tuttavia, saranno necessari strumenti capaci di elaborare e strutturare i megadati, senza costi troppo elevati. Attualmente, solo una manciata di aziende possiede le competenze e i mezzi per sfruttare i megadati, e questo sta ostacolando pesantemente lo sviluppo di un mercato che, entro il 2027, dovrebbe arrivare a valere 103 miliardi di dollari.
È tuttavia evidente che una massa tanto enorme di dati non può essere gestita e analizzata utilizzando metodi tradizionali per estrarre le informazioni in essi “nascoste”, ed eseguire operazioni come la manutenzione predittiva degli impianti, l’analisi dei comportamenti dei consumatori, proiezioni di mercato e così via.

Cosa sono le cinque “V” che caratterizzano i Big Data
In generale, i Big Data possono essere caratterizzati da 5 “V”: volume, velocità, varietà, veracità e valore. Del volume abbiamo già detto. La velocità si riferisce invece alla quantità di dati accumulati nell’unità di tempo, considerando che nei Big Data vi è un flusso enorme e continuo. Per quanto riguarda la varietà, si riferisce alla natura dei dati, che possono essere strutturati o meno. Quelli strutturati sono fondamentalmente dei dati organizzati, con lunghezza e formato definiti, mentre quelli non strutturati, in genere non organizzati, non si inseriscono nella tradizionale struttura a righe e colonne dei database relazionali. Esempi possono essere testi, immagini, video e via dicendo.
La veracità indica le incongruenze e l’incertezza nei dati, perché quelli disponibili, provenendo da più sorgenti diverse, possono essere disordinati rendendo difficile il controllo della qualità e della precisione.
In particolare, una massa di dati disordinati può creare confusione, mentre pochi dati possono fornire informazioni incomplete. Infine, il valore.
Dobbiamo ricordare che una massa di dati non ha alcun valore ed è sostanzialmente inutile se non viene trasformata in qualcosa di significativo, da cui si possano estrarre delle informazioni. Di fatto, questa è la ‘V’ più importante delle cinque.

L’importanza di prendere decisioni sulla base di modelli e trend
Dopo la loro combinazione e normalizzazione, i Big Data possono mostrare tutte le loro potenzialità. Per esempio, si possono applicare modelli di analisi e algoritmi per identificare i possibili risparmi in termini operativi e di energia, si possono prevedere i futuri malfunzionamenti dei sistemi di produzione dell’azienda e così via. Prendere decisioni sulla base dei modelli e dei trend individuati nei dati raccolti può creare la differenza nella gestione dell’edificio. Il problema è farlo con un BMS, che tipicamente è progettato per il comando e il controllo dei sistemi dell’edificio mentre i dati vengono raccolti. Occorre quindi una nuova piattaforma da affiancare al BMS che, appunto, si occupi del Data Mining, ossia dei programmi di estrazione di informazioni utili dalle grandi quantità di dati disponibili.

Data Mining: sfruttare al massimo i dati disponibili in azienda
Il Data Mining è un processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste” (pattern) tra i dati e le rendono visibili. L’analisi statistica dei dati può infatti evidenziare comportamenti anomali e correlazioni tra parametri di funzionamento e di ambiente utili, per esempio, a ottimizzare gli interventi manutentivi. Si può scoprire che un certo tipo di guasto in un’apparecchiatura si verifica sempre quando c’è un calo di tensione superiore al 5%, o quando l’apparecchiatura viene utilizzata insieme a un altro dispositivo. A differenza della statistica, che permette di elaborare informazioni generali come percentuali di disoccupazione o nascite, il data mining viene utilizzato per cercare correlazioni tra più variabili relativamente a singoli soggetti; conoscendo il comportamento medio dei clienti di una compagnia telefonica, ad esempio, si può cercare di prevedere quanto spenderà il cliente medio nell’immediato futuro. Oppure, analizzando l’andamento delle vibrazioni di un albero meccanico, si può prevedere in anticipo il momento della sua rottura.

Un esempio concreto nell’ispezione delle valvole idrauliche
Le tecniche di Data Mining stanno diventando molto importanti alla luce dei progressi di Industry 4.0 e dell’Internet of Things. Quest’ultima, infatti, permette di raccogliere grandi quantità di dati attraverso sensori “intelligenti” posizionati all’interno di oggetti (strumentazione, apparecchi elettrici, dispositivi industriali e così via).
Tali dati, tuttavia, rimarrebbero privi di valore se non ci fornissero informazioni utili. Scopo del Data Mining è appunto quello di ricavare informazioni “nascoste” in grandi moli di dati che, osservate in quanto tali, apparirebbero casuali o prive di significato.
Valutando i dati di produzione, ad esempio, un’importante azienda tedesca è riuscita a ridurre il tempo necessario per ispezionare le valvole idrauliche del 17,4%. Con circa 40.000 valvole prodotte ogni anno, l’azienda può contare su un risparmio di 14 giorni. Quando si parla di milioni di pezzi, anche pochi secondi risparmiati possono accumularsi rapidamente, trasformando i centesimi in milioni di euro. La capacità di generare nuove conoscenze dai Big Data si sta quindi confermando come una competenza chiave del futuro.