• Skip to primary navigation
  • Skip to main content
  • Skip to footer

Codemotion Magazine

We code the future. Together

  • Discover
    • Events
    • Community
    • Partners
    • Become a partner
    • Hackathons
  • Magazine
    • Backend
    • Dev community
    • Carriere tech
    • Intelligenza artificiale
    • Interviste
    • Frontend
    • DevOps/Cloud
    • Linguaggi di programmazione
    • Soft Skill
  • Talent
    • Discover Talent
    • Jobs
    • Manifesto
  • Companies
  • For Business
    • EN
    • IT
    • ES
  • Sign in
ads

claudia caldaraFebbraio 19, 2025 4 min di lettura

I Big Data: ascesa senza limiti ed i suoi effetti nel panorama IT odierno

Big Data
facebooktwitterlinkedinreddit

Sto conseguendo la laurea magistrale in Ingegneria Informatica e studiando di uno studio matto e disperatissimo come citava Leopardi, ho sostenuto il mio terzo esame.

Si è trattato in tutto il corso di uno dei topic di cui si dibatte diffusamente in ambito informatico: i big data.

Recommended article
data science, data scientist, python libraries
Marzo 21, 2024

Lavorare con i Big Data e l’AI: che skill servono?

Norman Di Palo

Norman Di Palo

Big Data

Partiamo con il tracciarne una definizione: “Raccolte estremamente grandi di dati ( che definiremo set di dati) che possono essere analizzate per rivelare modelli, tendenze e associazioni, relativi al comportamento e alle interazioni umane.”

I set di dati sono divenuti via via nel tempo così grandi, che i metodi convenzionali di archiviazione ed elaborazione dei dati non funzionavano più come accadeva nel passato.

Nel lontano ormai 2001, Doug Laney, analista di Gartner ( società di consulenza informatica statunitense) affermò che i big data hanno le seguenti caratteristiche, note come 3V:

  • Volume
  • Varietà
  • Velocità

Viene aggiunta in seguito una quarta “V” che sta per Veridicità: i dati sono veri e come si può fare affidamento sulla loro accuratezza?

Volume

Il volume dei big data detenuti da grandi aziende come Apple o eBay è misurato in petabyte.
Un petabyte equivale a 1015 byte (caratteri) di informazioni.

Un disco di un laptop contiene mediamente 109 byte (un gigabyte), quindi i grandi depositari di dati di queste aziende conservano almeno i dati che normalmente potrebbero essere conservati su 1 milione di PC, forse anche da 10 a 20 milioni di PC.

Avete mai realizzato quali siano le fonti dei big data?

Dalle carte fedeltà strisciate alle casse con il dettaglio di tutti gli acquisti effettuati, quando, dove, come si paga, l’utilizzo dei coupon, ai siti web: ogni prodotto che un utente guarda, ogni pagina che visita, ogni prodotto che acquista. Sono degli esempi.

I dati dei Social media: amici e contatti, post pubblicati, la posizione al momento del post, le fotografie (che possono essere scansionate per l’identificazione), qualsiasi dato che ogni utente sceglie di rivelare all’universo.

Varietà

I dati provengono quindi da una varietà di fonti ( ne abbiamo elencati qualcuno poche righe sopra)

In particolare, sono conservate le seguenti tipologie di informazioni: dati che possono essere sia strutturati che non strutturati.

I dati strutturati: questi vengono archiviati all’interno di campi ben definiti (numerici, di testo, di data, ecc.) spesso con lunghezze definite, all’interno di un record definito, in un file di record. I dati strutturati richiedono un modello di dati.

La progettazione del modello definisce e limita i dati che possono essere raccolti e archiviati e l’elaborazione che può essere eseguita su di essi.

Un esempio di dati strutturati si trova nei sistemi bancari, che registrano gli incassi e i pagamenti del conto corrente: data, importo, incasso/pagamento.

I dati strutturati sono facilmente accessibili tramite linguaggi di query di database consolidati.

I dati non strutturati non hanno a loto volta un modello di dati predefinito. Questa varietà e irregolarità rende difficile conservarli in modo da consentirne l’analisi, la ricerca o l’utilizzo in altro modo. I dati non strutturati si presentano sotto forma di immagine, video, testo o audio.

Vengono comunemente archiviati in database NoSQL, in quanto capaci di gestire un’alta varietà di dati offrendo storage più flessibili rispetto al classico database SQL, ma soprattutto perchè i database NoSQL non hanno strutture tabulari o schemi precisi, ma raccolgono i dati insieme. 

Esempi di questa tipologia di dati sono i documenti in formato di file .pdf o .docx. , e file come audio, video, e-mail o immagini.

Velocità

Le informazioni devono essere fornite rapidamente per essere utili nel processo decisionale.

La sfida per l’IT è trovare metodi per elaborare enormi quantità di dati non uniformi e scomodi in tempo reale: quindi Software per big data.

Una libreria di software come Apache Hadoop è specificamente progettata per consentire l’elaborazione distribuita di grandi insiemi di dati (cioè big data) su cluster di computer utilizzando semplici modelli di programmazione.

Hadoop IT è progettato per scalare da singoli server a migliaia di macchine, ciascuna delle quali offre elaborazione e archiviazione locali.

Il trattamento dei Big Data è generalmente noto come Big Data Analytics e comprende:

  • Data mining: analisi dei dati per identificare modelli e stabilire relazioni come associazioni,sequenze e correlazioni.
  • Analisi predittiva: un tipo di data mining che mira a prevedere eventi futuri.
  • Analisi del testo: scansione di testo come e-mail e documenti di elaborazione testi per estrarre informazioni utili.
  • Analisi vocale: come sopra ma con audio.
  • Analisi statistica: utilizzata per identificare tendenze, correlazioni e cambiamenti nel comportamento.

Ma esistono delle criticità rispetto ai big data?

Una è sicuramente il costo nello stabilire l’hardware e il software analitico necessari. Le normative vigenti in ogni paese che sono diverse e non quindi uniformi, e questo porta quindi a dei costi variabili e difficilmente prevedibili.

La perdita o il furto di dati: a parte le conseguenze derivanti dalle violazioni normative vigenti in ogni Paese, le aziende potrebbero trovarsi esposte ad azioni legali civili se i dati venissero rubati e gli individui ne subissero le conseguenze. ( ed abbiamo recenti esempi di questo accaduto!!)

Dati errati (veridicità): se i dati conservati non sono corretti o non aggiornati, è probabile che si arrivi a conclusioni errate.

Prima di implementare iniziative relative ai big data nella tua organizzazione, lavora per rendere la cultura aziendale più collaborativa e adattabile. Secondo un recente studio, quasi il 78% delle aziende ritiene che la cultura del luogo di lavoro sia uno dei maggiori ostacoli all’adozione di azioni basate sui dati.

Codemotion Collection Background
Dalla community
Selezionati per te

Vuoi scoprire più articoli come questo? Dai un’occhiata alla collection Dalla community dove troverai sempre nuovi contenuti selezionati dal nostro team.

Share on:facebooktwitterlinkedinreddit

Tagged as:AI Framework

claudia caldara
Mi chiamo Claudia Caldara, dopo dieci anni all'estero sono tornata a vivere in Italia. Dal 2021 ho intrapreso un cambio di carriera radicale conseguendo una seconda laurea in Informatica a Luglio 2024, e proseguendo ad oggi la laurea magistrale in Ingegneria Informatica. Amo molto il mio lavoro perché convoglia una complessità di hard e soft skills. Nel tempo libero adoro viaggiare, fare trekking e studiare. Vorrei poter essere di aiuto e di ispirazione per tutte quelle donne che desiderano intraprendere un percorso di carriera in ambito IT.
Spyware Graphite: cos’è, come funziona e perché tutti ne parlano
Previous Post
Hashing e sicurezza informatica
Next Post

Footer

Discover

  • Events
  • Community
  • Partners
  • Become a partner
  • Hackathons

Magazine

  • Tech articles

Talent

  • Discover talent
  • Jobs

Companies

  • Discover companies

For Business

  • Codemotion for companies

About

  • About us
  • Become a contributor
  • Work with us
  • Contact us

Follow Us

© Copyright Codemotion srl Via Marsala, 29/H, 00185 Roma P.IVA 12392791005 | Privacy policy | Terms and conditions