
Sto conseguendo la laurea magistrale in Ingegneria Informatica e studiando di uno studio matto e disperatissimo come citava Leopardi, ho sostenuto il mio terzo esame.
Si è trattato in tutto il corso di uno dei topic di cui si dibatte diffusamente in ambito informatico: i big data.
Partiamo con il tracciarne una definizione: “Raccolte estremamente grandi di dati ( che definiremo set di dati) che possono essere analizzate per rivelare modelli, tendenze e associazioni, relativi al comportamento e alle interazioni umane.”
I set di dati sono divenuti via via nel tempo così grandi, che i metodi convenzionali di archiviazione ed elaborazione dei dati non funzionavano più come accadeva nel passato.
Nel lontano ormai 2001, Doug Laney, analista di Gartner ( società di consulenza informatica statunitense) affermò che i big data hanno le seguenti caratteristiche, note come 3V:
- Volume
- Varietà
- Velocità
Viene aggiunta in seguito una quarta “V” che sta per Veridicità: i dati sono veri e come si può fare affidamento sulla loro accuratezza?
Volume
Il volume dei big data detenuti da grandi aziende come Apple o eBay è misurato in petabyte.
Un petabyte equivale a 1015 byte (caratteri) di informazioni.
Un disco di un laptop contiene mediamente 109 byte (un gigabyte), quindi i grandi depositari di dati di queste aziende conservano almeno i dati che normalmente potrebbero essere conservati su 1 milione di PC, forse anche da 10 a 20 milioni di PC.
Avete mai realizzato quali siano le fonti dei big data?
Dalle carte fedeltà strisciate alle casse con il dettaglio di tutti gli acquisti effettuati, quando, dove, come si paga, l’utilizzo dei coupon, ai siti web: ogni prodotto che un utente guarda, ogni pagina che visita, ogni prodotto che acquista. Sono degli esempi.
I dati dei Social media: amici e contatti, post pubblicati, la posizione al momento del post, le fotografie (che possono essere scansionate per l’identificazione), qualsiasi dato che ogni utente sceglie di rivelare all’universo.
Varietà
I dati provengono quindi da una varietà di fonti ( ne abbiamo elencati qualcuno poche righe sopra)
In particolare, sono conservate le seguenti tipologie di informazioni: dati che possono essere sia strutturati che non strutturati.
I dati strutturati: questi vengono archiviati all’interno di campi ben definiti (numerici, di testo, di data, ecc.) spesso con lunghezze definite, all’interno di un record definito, in un file di record. I dati strutturati richiedono un modello di dati.
La progettazione del modello definisce e limita i dati che possono essere raccolti e archiviati e l’elaborazione che può essere eseguita su di essi.
Un esempio di dati strutturati si trova nei sistemi bancari, che registrano gli incassi e i pagamenti del conto corrente: data, importo, incasso/pagamento.
I dati strutturati sono facilmente accessibili tramite linguaggi di query di database consolidati.
I dati non strutturati non hanno a loto volta un modello di dati predefinito. Questa varietà e irregolarità rende difficile conservarli in modo da consentirne l’analisi, la ricerca o l’utilizzo in altro modo. I dati non strutturati si presentano sotto forma di immagine, video, testo o audio.
Vengono comunemente archiviati in database NoSQL, in quanto capaci di gestire un’alta varietà di dati offrendo storage più flessibili rispetto al classico database SQL, ma soprattutto perchè i database NoSQL non hanno strutture tabulari o schemi precisi, ma raccolgono i dati insieme.
Esempi di questa tipologia di dati sono i documenti in formato di file .pdf o .docx. , e file come audio, video, e-mail o immagini.
Velocità
Le informazioni devono essere fornite rapidamente per essere utili nel processo decisionale.
La sfida per l’IT è trovare metodi per elaborare enormi quantità di dati non uniformi e scomodi in tempo reale: quindi Software per big data.
Una libreria di software come Apache Hadoop è specificamente progettata per consentire l’elaborazione distribuita di grandi insiemi di dati (cioè big data) su cluster di computer utilizzando semplici modelli di programmazione.
Hadoop IT è progettato per scalare da singoli server a migliaia di macchine, ciascuna delle quali offre elaborazione e archiviazione locali.
Il trattamento dei Big Data è generalmente noto come Big Data Analytics e comprende:
- Data mining: analisi dei dati per identificare modelli e stabilire relazioni come associazioni,sequenze e correlazioni.
- Analisi predittiva: un tipo di data mining che mira a prevedere eventi futuri.
- Analisi del testo: scansione di testo come e-mail e documenti di elaborazione testi per estrarre informazioni utili.
- Analisi vocale: come sopra ma con audio.
- Analisi statistica: utilizzata per identificare tendenze, correlazioni e cambiamenti nel comportamento.
Ma esistono delle criticità rispetto ai big data?
Una è sicuramente il costo nello stabilire l’hardware e il software analitico necessari. Le normative vigenti in ogni paese che sono diverse e non quindi uniformi, e questo porta quindi a dei costi variabili e difficilmente prevedibili.
La perdita o il furto di dati: a parte le conseguenze derivanti dalle violazioni normative vigenti in ogni Paese, le aziende potrebbero trovarsi esposte ad azioni legali civili se i dati venissero rubati e gli individui ne subissero le conseguenze. ( ed abbiamo recenti esempi di questo accaduto!!)
Dati errati (veridicità): se i dati conservati non sono corretti o non aggiornati, è probabile che si arrivi a conclusioni errate.
Prima di implementare iniziative relative ai big data nella tua organizzazione, lavora per rendere la cultura aziendale più collaborativa e adattabile. Secondo un recente studio, quasi il 78% delle aziende ritiene che la cultura del luogo di lavoro sia uno dei maggiori ostacoli all’adozione di azioni basate sui dati.