Standard dei metadati
La gestione dei metadati svolge un ruolo fondamentale nell'architettura dei dati. I metadati sono dati relativi ad altri dati. Descrive i dati, fornendo un riferimento che consente di trovare, proteggere e controllare i dati. I metadati associano anche i dati. Possono essere usati per convalidare l'integrità e la qualità dei dati, indirizzare o replicare i dati in una nuova posizione, trasformare i dati e conoscere il significato dei dati. I metadati sono essenziali anche per la democratizzazione dei dati tramite portali self-service.
C'è una tendenza in crescita nel settore per avvicinare i dati analitici agli analisti dei dati e agli scienziati che usano portali che usano più metadati. Questa tendenza è nota come osservabilità dei dati. L'osservabilità dei dati usa concetti come metadata lake, grafici delle conoscenze o grafici di metadati per descrivere le piattaforme in cui sono centralizzati i metadati. È un buon modo per creare una visualizzazione unificata del modo in cui i dati vengono usati e originati nell'organizzazione quando si usa una mesh di dati distribuita.
Una buona strategia di gestione dei metadati si sviluppa in modo organico. Inizia da una base semplice identificando prima le aree più importanti. Una buona strategia di gestione dei metadati è supportata anche con servizi e processi chiari. Per iniziare, è consigliabile tenere presenti le diverse categorie di metadati:
- I metadati aziendali descrivono tutti gli aspetti usati per la governance, la ricerca e la comprensione dei dati. Alcuni esempi noti includono termini e definizioni aziendali nonché informazioni sulla proprietà dei dati, l'utilizzo e l'origine.
- I metadati tecnici descrivono gli aspetti strutturali dei dati in fase di progettazione. Alcuni esempi noti includono informazioni sullo schema, informazioni sul formato dei dati e il protocollo e chiavi di crittografia e decrittografia.
- I metadati operativi descrivono gli aspetti dell'elaborazione dei dati in fase di esecuzione. Alcuni esempi noti includono informazioni sui processi, tempo di esecuzione, informazioni sugli errori del processo e ID processo.
- I metadati sociali descrivono la prospettiva utente dei dati dei relativi consumer. Alcuni esempi noti includono informazioni di rilevamento uso e utenti, dati dei risultati di ricerca, filtri e clic, tempo di visualizzazione, riscontri del profilo e commenti.
Nell'architettura dei dati decentralizzata, la gestione dei metadati è un aspetto organizzativo che richiede un equilibrio tra i metadati gestiti centralmente e i metadati gestiti federati. È importante comprendere i team e le funzioni per l'analisi su scala cloud in Azure durante la pianificazione della gestione dei metadati. L'uso di una pratica di gestione dei dati collaborativa migliora la comunicazione, l'integrazione e l'automazione del flusso di dati tra i team. È possibile risolvere alcune delle complessità della gestione dei metadati trovando il giusto equilibrio tra la governance centrale e la proprietà del dominio.
Quando si decide quali metadati gestire centralmente o federate nei domini dati e iniziare l'implementazione, chiedere:
- Quali metadati aziendali sono critici?
- Quali metadati tecnici sono necessari per l'interoperabilità?
- Quali processi e flussi acquisiscono i dati?
- Dove vengono creati e gestiti i modelli o gli schemi?
- Quali team delle informazioni devono fornire dati centralmente per permettere al reparto governance dei dati di svolgere correttamente il proprio lavoro?
Usando le risposte a queste domande, eseguire il mapping del ciclo di vita del contenuto per ognuno dei flussi di metadati e determinare tutte le dipendenze. Si dispone di un modello di metadati in grado di connettere domini aziendali, processi, tecnologia e dati.
Dopo aver individuato i metadati necessari, è necessario scegliere una posizione in cui archiviarli ed elaborarli. A tale scopo, è possibile usare Microsoft Purview.
Usare Microsoft Purview per gestire il patrimonio dati su larga scala
Microsoft Purview è una soluzione unificata per la governance dei dati che semplifica la gestione e la regolamentazione dei dati locali, multi-cloud e SaaS (software come un servizio). Esegue la gestione dei metadati su larga scala, perché è un servizio completamente automatizzato che esegue in modo intelligente l'individuazione dei dati, l'analisi dei dati, la qualità dei dati e la gestione degli accessi. Fornisce anche una mappa olistica di molte informazioni dettagliate sull'architettura del mesh di dati.
Microsoft Purview è un set completo di soluzioni che consentono all'organizzazione di gestire, proteggere e gestire i dati ovunque si trovino. Le soluzioni Microsoft Purview offrono copertura integrata e consentono di risolvere la frammentazione dei dati tra le organizzazioni, la mancanza di visibilità che ostacola la protezione e la governance dei dati e la sfocatura dei ruoli di gestione IT tradizionali.
Microsoft Purview combina servizi e soluzioni di conformità e governance dei dati in una piattaforma unificata per aiutare l'organizzazione:
- Ottenere visibilità sui dati nell'organizzazione
- Proteggere e gestire i dati sensibili per tutto il ciclo di vita, ovunque si trovino
- Regolamentare i dati in modi nuovi e completi
- Gestire i requisiti normativi e i rischi associati ai dati critici
Quando si implementa Microsoft Purview, non introdurre troppe modifiche e complessità. I metadati tecnici sono la base di Microsoft Purview. È necessario raccogliere e organizzare i metadati prima di poterli comprendere.
Dopo aver ottenuto i metadati, iniziare con le nozioni di base:
- Termini aziendali
- Elenchi di origini dati autorevoli
- Elenchi di database
- Domini di governance
- Informazioni sullo schema
- Proprietà dei dati
- Gestione dei dati
- Sicurezza
- Qualità dei dati
Ridimensionare coinvolgendo gradualmente un maggior numero di proprietari di dominio e amministratori dei dati e aggiungendo altre classificazioni ed etichette di riservatezza. Queste aggiunte migliorano l'esperienza di ricerca e agevolano la gestione degli accessi ai dati.
Microsoft Purview prevede i cosiddetti domini di governance, che stabiliscono i limiti per la governance unificata, la proprietà e l'individuazione dei prodotti di dati e dei concetti aziendali nell'ambito dell'architettura orientata al dominio. Per altre informazioni, vedere Domini di governance in Microsoft Purview.
Usare Azure Cosmos DB per creare un Knowledge Graph
Una soluzione di informazioni dettagliate sui dati deve descrivere il modo in cui i dati vengono usati e le relazioni tra entità quali dati di origine e prodotti di dati e tra prodotti di dati di un dominio e prodotti dipendenti di un altro dominio. È possibile usare un database a grafo o un'interfaccia utente personalizzata per modellare queste relazioni.
Per creare una visualizzazione unificata dei dati dell'organizzazione con un'esperienza utente personalizzata, fare riferimento ad Azure Cosmos DB. Azure Cosmos DB è un servizio di database multi-modello e distribuito a livello globale con endpoint NoSQL. Fornisce un servizio di database a grafo tramite Azure Cosmos DB for Apache Gremlin per archiviare grafi di grandi dimensioni con miliardi di vertici e bordi.
Il risultato finale dell'architettura di Azure Cosmos DB è un grafico a livello di organizzazione che fornisce una visualizzazione unificata di tutti i dati nell'organizzazione usando un contesto end-to-end. Il metadata lake non riguarda solo l'archiviazione delle informazioni. Organizza anche attivamente i metadati come grafo connettendolo ad altri servizi e strumenti. Questo grafo organizzato consente di creare correlazioni tra più aree tematiche, tra cui:
- Domini
- Qualità dei dati
- Consumo dati
- Funzionalità aziendali
- Funzioni delle applicazioni
- Informazioni sull'architettura tecnica
- Eventi operativi
- Metadati dell'organizzazione
- Metadati di proprietà dell'applicazione
- Informazioni sulla posizione
- Informazioni sulla gestione del ciclo di vita dell'applicazione