Che cos'è un prodotto dati?

Ogni applicazione crea e archivia i dati temporaneamente o definitivamente. Molte applicazioni creano e salvano anche i dati a scopo di gestione operativa, ad esempio la registrazione degli errori e il monitoraggio dell'integrità. Per utilizzare ed elaborare i dati prodotti da queste applicazioni, i team di dati centralizzati usano processi di estrazione, trasformazione e caricamento (ETL). I team operativi delle applicazioni hanno spesso altri flussi di elaborazione dati per dati come i dati sull'integrità dell'applicazione e i dati di monitoraggio dello stato kpi.

Per l'integrazione dei dati, un approccio a cascata tradizionale in cui i team seguono un ordine specifico di fasi non è ideale. Può causare lacune nelle conoscenze, problemi di proprietà e conflitti di comunicazione che influiscono sulla qualità, la tempestività e il valore dei dati per gli utenti. I team delle applicazioni sono responsabili delle prestazioni e del successo delle applicazioni. Quando usano un approccio a cascata, apportano modifiche ai processi downstream di cui altri team sono proprietari. In alcuni casi queste modifiche possono influire su altre aree. Ad esempio, una piccola modifica upstream potrebbe modificare drasticamente la tendenza di un indicatore KPI. Questi conflitti possono influire sulla capacità di prendere decisioni critiche.

Dati come prodotto

Per evitare questi problemi, l'approccio basato sulla mesh di dati adotta il concetto di dati come prodotto. I proprietari delle applicazioni e i team dell'applicazione considerano i dati come un prodotto completamente indipendente per cui sono responsabili, anziché come prodotto di un altro team. Le applicazioni e le attività di gestione dei dati analitici rientrano nelle aree di responsabilità del dominio.

I prodotti dati vengono creati specificamente per il consumo analitico. Hanno definito e concordato forme, interfacce di consumo e cicli di manutenzione e aggiornamento, tutti documentati.

I prodotti dati vengono elaborati con asset di dati di dominio o set di dati che è possibile condividere con processi downstream tramite interfacce in un obiettivo a livello di servizio. Se non diversamente richiesto, è necessario elaborare, modellare, pulire, aggregare e normalizzare i dati non elaborati in modo da soddisfare gli standard di qualità concordati prima di renderli disponibili per l'uso.

Le sezioni seguenti illustrano le caratteristiche comuni dei prodotti di dati validi.

Caratteristiche del prodotto dati

Assicurarsi che i prodotti dati siano:

  • Individuabile, comprensibile e affidabile. Per fornire individuabilità e chiarezza, condividere e aggiornare informazioni su ogni prodotto dati, i relativi dati, il suo significato, il formato della forma dei dati e il ciclo di aggiornamento. Comunicare le modifiche ai dati o le modifiche delle forme ai consumer downstream in modo tempestivo. Per garantire affidabilità, le interfacce offrono compatibilità con le versioni precedenti con limiti di tempo per le forme del prodotto dati.

  • Indirizzabile, accessibile in modo nativo e sicuro. Per garantire la indirizzabilità, creare processi definiti per individuare e ottenere l'accesso a ogni prodotto dati. Implementare misure di sicurezza per diversi requisiti di accesso. Spostare la mentalità di proprietà del dominio dati dal controllo dei dati alla gestione dei dati con precauzioni di sicurezza ben definite. Le interfacce di accesso ben documentate possono variare in diverse tecnologie. Le interfacce comunemente usate per i prodotti dati accessibili in modo nativo includono API, utenti di database, tabelle o viste e file con diritti di accesso necessari.

  • Interoperabili, veritieri e preziosi. Per garantire l'interoperabilità, assicurarsi che i dati seguano standard comuni definiti, ad esempio valori con lo stesso nome e tipo di dati. Ad esempio, è possibile assegnare un nome a una colonna contenente i dati di identificazione del cliente CustomerID in ogni prodotto dati e i relativi dati potrebbero essere sempre un numero intero. I prodotti dati offrono valore ai clienti ed è possibile usarli come origini upstream per i nuovi prodotti dati nello stesso dominio o domini diversi. Ma non è possibile solo trasportare e copiare lo stesso prodotto di dati in più posizioni. Ogni prodotto di dati proveniente da un prodotto di dati precedente deve fornire nuovi valori e informazioni ai consumer downstream. I prodotti dati devono anche fornire dati accurati e veritieri.

Usare prodotti dati ben progettati e ben gestiti e le relative interfacce per evitare la duplicazione dei dati e creare una singola origine nativa di verità.

Raccomandazioni per la progettazione dei prodotti dati

Per soddisfare i requisiti di gestione dei prodotti dati, i team di dominio devono acquisire un nuovo set di competenze e usare nuovi strumenti e piattaforme.

Per compilare le applicazioni dati e produrre o distribuire prodotti dati, assegnare completamente ai team dell'applicazione di dominio il proprio team. I team possono usare uno stack di tecnologie familiare per creare prodotti dati. Potrebbero anche preferire un'istanza spark o un motore della pipeline. Ad esempio, un dominio di grandi dimensioni che serve molti prodotti dati potrebbe elaborare e gestire i prodotti dati dalla propria istanza di Azure Synapse Analitica. Le organizzazioni più piccole e i domini più piccoli di organizzazioni di grandi dimensioni possono sviluppare ed eseguire le applicazioni dati in una piattaforma condivisa, ad esempio un'istanza di Azure Data Factory situata centralmente, Azure Synapse Analitica o Azure Databricks.

Assicurarsi che i prodotti dati abbiano le caratteristiche comuni descritte in questo articolo, che il repository di derivazione rifletta la derivazione dell'applicazione dati e che si gestisca l'implementazione e l'accesso.

Il diagramma seguente mostra un layout logico dell'applicazione dati di esempio in un dominio e in una zona di destinazione.

Diagramma che mostra un possibile layout logico dell'applicazione dati in un dominio e in una zona di destinazione.

Linee guida per l'applicazione dati e prodotti per i dati per Azure

È possibile posizionare gli approcci per l'ambiente dell'applicazione dati all'interno delle zone di destinazione dei dati di Azure se i team dell'applicazione di dominio usano una piattaforma condivisa e un set condiviso di servizi.

Diagramma che mostra il gruppo di risorse data-application-rg dal contesto applicazioni dati e dal gruppo di risorse shared-application-rg dal contesto di Servizi di base.

Per i modelli di modello di applicazione dati per le zone di destinazione dei dati di Azure, vedere Applicazioni dati di esempio.

Passaggio successivo