I dati sono una delle componenti fondamentali di qualsiasi azienda, in quanto permettono di personalizzare i prodotti per i potenziali clienti. Nonostante questa importanza, alcuni studi hanno dimostrato che circa il 50-70% dei dati raccolti dalle organizzazioni rimane inutilizzato e diventano quelli che Gartner definisce Dark Data. Questa grande quantità di dati inutilizzati può essere attribuita alle inefficienze dei sistemi che li gestiscono.

Lo scopo di questo post è mostrare come due metodi emersi nello scorso decennio, il Data Mesh e il Data Fabric, possono contribuire a mitigare i problemi associati alla gestione dei dati. Illustreremo quindi cosa sono Data Mesh e Data Fabric, le loro differenze e i motivi per cui uno dei due potrebbe superare l'altro.

 

Cos’è un Data Mesh?

Secondo la definizione di IBM, il Data Mesh è un'architettura di dati decentralizzata che organizza i dati in base a uno specifico dominio aziendale, fornendo una maggiore ownership ai produttori di un determinato set di dati. Decentralizzando i dati, una Data Mesh offre un'alternativa al Data Lake centrale e alla cultura dei team che ha caratterizzato le aziende per decenni.

È importante notare che il Data Mesh è un approccio, quindi è indipendente dai linguaggi e dalla tecnologia e si concentra di più sui cambiamenti organizzativi.

 

I principi di un Data Mesh

I Data Mesh sono costruiti sui quattro principi spiegati di seguito:

  • Ownership del dominio: i domini che necessitano di un particolare tipo di dati sono incaricati di raccogliere, pulire e gestire l'ingestione di tali dati, abilitando così la decentralizzazione dei dati. Questo principio prevede che i vari domini abbiano la responsabilità dei loro dati.
  • Data as a Product: i dati potrebbero essere utilizzati anche da altri consumatori al di fuori del dominio che ne ha la responsabilità, quindi il dato deve essere considerato un vero e proprio prodotto di cui prendersi cura.
  • Piattaforma di infrastruttura dati self-service: le complessità tecniche dell'infrastruttura per la creazione dei dati devono essere astratte. Questa astrazione è necessaria perché è complesso replicare l’infrastruttura per costruire, eseguire e monitorare i dati in ciascun dominio che ha bisogno di quei dati. Questo principio permette ai consumatori in altri domini di concentrarsi ad utilizzare il dato invece che a ricreare l’infrastruttura.
  • Governance federata: siccome più domini possono utilizzare i dati prodotti da un dominio, le organizzazioni devono standardizzare la formattazione, la governance e altre caratteristiche dei dati per consentire la collaborazione e la comprensione. Questo principio consente la standardizzazione dei dati in tutta l'organizzazione.

 

Cos’è un Data Fabric?

Secondo la definizione di IBM, un Data Fabric è un'architettura che facilita l'integrazione end-to-end di varie pipeline di dati e ambienti cloud attraverso sistemi intelligenti e automatizzati. È adattabile, flessibile, sicuro e garantisce un'esperienza utente coerente in tutti gli ambienti integrati. Con un Data Fabric, è possibile monitorare e gestire le applicazioni di dati indipendentemente da dove si trovano.

Al centro del Data Fabric ci sono metadati robusti e strutturati che consentono di automatizzare l'integrazione, la progettazione e la governance dei dati tra fornitori e consumatori.

 

Responsabilità di un Data Fabric

Oltre all'automazione, il Data Fabric ha le seguenti responsabilità.

  • Accesso ai dati: l'architettura Data Fabric ha il compito di aggregare i dati provenienti da varie fonti. È importante notare che il Data Fabric fornisce un livello di virtualizzazione che permette di raccogliere i dati senza copiarli o spostarli. Insieme al livello di virtualizzazione, un'architettura Data Fabric si avvale di una solida integrazione dei dati e di strumenti ETL (Extract, Transform, Load) per spostare i dati quando necessario.
  • Gestione del ciclo di vita dei dati: dopo aver raccolto i dati da diverse fonti, il Data Fabric garantisce la privacy e la conformità dei dati alle normative.
    • Governance e Privacy: il Data Fabric assicura che le giuste persone accedano al dato corretto. I Data Fabric utilizzano metadati attivi per automatizzare l'applicazione dei criteri e raggiungere un alto livello di privacy. Queste politiche di Data Fabric regolano il filtro e l'accesso a determinati aspetti dei dati secondo un metodo basato sui ruoli. La policy del Data Fabric richiede anche di fornire informazioni complete sul percorso dei dati (ovvero l’origine, le modifiche subite ecc.), in modo da controllare i dati e a ottimizzarne la qualità.
    • Conformità: aggregando e filtrando i dati da diverse fonti, l'architettura del Data Fabric assicura che i dati siano conformi alle normative stabilite dalle organizzazioni governative, come ad esempio il GDPR e il Fair Credit Reporting Act.
  • Esposizione dei dati: successivamente, il Data Fabric ha il compito di esporre i dati a diversi consumatori di dati attraverso altri cataloghi di ricerca aziendali.

 

Quali sono le differenze tra Data Mesh e Data Fabric?

Poiché entrambi i paradigmi dei dati sono stati creati per favorire la raccolta, la governance e la distribuzione dei dati, è facile notare delle somiglianze tra loro. Tuttavia, anche le differenze sono evidenti e devono essere considerate prima che un'organizzazione scelga un paradigma.

In questa sezione illustreremo le differenze tra Data Mesh e Data Fabric.

  • Archiviazione dei dati decentralizzata vs centralizzata
    In un Data Mesh i dati sono distribuiti nei rispettivi domini, e non è necessariamente richiesto un punto di controllo centralizzato.
    In un Data Fabric, l'accesso ai dati è centralizzato con server ad alta velocità per la condivisione di risorse in rete e ad alte prestazioni.
  • Automazione vs intervento umano
    Il Data Mesh tratta i dati come un prodotto e si affida ai proprietari del dominio per definirne i requisiti.
    Data Fabric si basa sull'automazione per scoprire, governare, suggerire e fornire dati ai consumatori. Questa automazione si basa su una ricca base di metadati.
  • Architettura
    Il paradigma Data Mesh è indipendente dal linguaggio e dalla tecnologia e si concentra maggiormente sui cambiamenti organizzativi. L'architettura Data Mesh segue un design orientato al dominio e al prodotto per superare le sfide dei dati.
    Data Fabric è una soluzione di integrazione dei dati più tecnica. L'architettura di Data Fabric è anche più compatibile con i dati tecnici, aziendali e operativi.

 

Quale approccio scegliere?

Secondo Gartner, nei prossimi anni i Data Fabric assumeranno un ruolo di primo piano nella gestione efficiente dei dati. I Data Fabric collegano i dati dell'intera organizzazione e facilitano la condivisione dei dati senza attriti.

Poiché i Data Fabric sono incentrati sull'automazione, è possibile ottimizzare la gestione dei dati e inviare approfondimenti e analisi in tempo reale agli utenti dei dati. Inoltre, i Data Fabric offrono una maggiore sicurezza: il livello di virtualizzazione garantisce che i dati non vengano spostati inutilmente. I Data Fabric sono anche efficienti dal punto di vista dei costi.

Tuttavia, Data Mesh e Data Fabric non si escludono a vicenda. Strutturando correttamente i metadati, un Data Fabric può consentire l'implementazione di un Data Mesh automatizzandone le attività ripetitive. Con un Data Fabric, i proprietari di dati nel paradigma Data Mesh possono ottenere le capacità per creare prodotti di dati.

 

Conclusione

In questo articolo sono stati discussi i paradigmi Data Mesh e Fabric, le loro differenze e, soprattutto, quale dei due metodi di gestione dei dati prenderà il sopravvento nei prossimi anni.

Mia‑Platform Fast Data è un perfetto esempio di coabitazione tra i due paradigmi e, oltre alle sue funzionalità principali, può aiutare il passaggio da uno all'altro, se necessario. Per saperne di più, leggi questo articolo.


Torna all'inizio

White Paper_Fast data: i vantaggi per le aziende

© MIA s.r.l. Tutti i diritti riservati