Procedure consigliate per lo sviluppo del catalogo dati

In questo articolo vengono esaminate le strategie di governance dei dati che è possibile implementare per mantenere dati integri, preziosi e individuabili. Per un elenco dei passaggi tecnici per configurare il catalogo dati, vedere la guida per iniziare a usare il catalogo dati.

  1. Conoscere i dati con i concetti aziendali
    1. Creare domini di governance
    2. Crea prodotti dati
    3. Definire i termini del glossario
  2. Sbloccare il valore aziendale
    1. Consentire agli utenti di cercare e esplorare i nuovi domini e prodotti
    2. Creare OKR
    3. Accesso ai dati conforme
    4. Compilare modelli di dati logici con elementi di dati critici
  3. Migliorare la maturità dei dati
    1. Migliorare i prodotti dati con azioni incentrate sulla governance
    2. Migliorare l'affidabilità dei dati con la qualità dei dati\
    3. Creare prodotti di dati di origine della verità con la gestione dei dati master
    4. Misurare la maturità della governance con i controlli di integrità dei dati
    5. Creare standard specifici del dominio

Conoscere i dati con i concetti aziendali

Concetti aziendali come domini di governance, prodotti dati e termini di glossario uniscono i dati alle procedure aziendali quotidiane. Questo non solo rende più facile per i consumer di dati comprendere i dati che stanno usando, ma consente di democratizzare la governance dei dati di tali risorse. Usare gli esperti e i campioni di dati esistenti per creare il catalogo dati in una risorsa avanzata.

Creare domini di governance

I domini di governance vengono usati per distribuire le attività di proprietà e manutenzione e semplificare la ricerca dei dati necessari per gli utenti. La distribuzione di informazioni per domini di governance consente agli utenti di raggiungere il livello corretto di informazioni necessarie, senza dover attraversare l'intero patrimonio dati.

Quando si creano domini di governance o si esamina la struttura del dominio di governance, ecco alcuni aspetti da considerare:

  1. Modello di struttura del dominio di governance
  2. Pianificazione dello sviluppo

Modelli di struttura del dominio di governance

  • Dominio centrale (buono): l'uso di un singolo dominio può essere efficiente per le organizzazioni di piccole dimensioni, ma potrebbe non essere scalabile correttamente ed è soggetto a colli di bottiglia durante la crescita.
  • Domini basati su reparto (buoni): i reparti non prendono decisioni in modo coerente e, se i reparti cambiano regolarmente, potrebbe essere necessario spostare la struttura del catalogo dati.
  • Domini funzionali/line-of-governance (migliore): offre flessibilità ai team e si allinea al modello di business esistente. Questa operazione può essere difficile da gestire su larga scala e potrebbe richiedere molti sottodomini per consentire ai responsabili delle decisioni relative ai dati. Può anche creare silos di utilizzo dei dati, che è l'antitesi dell'approccio di governance del catalogo dati.
  • Combinazione di domini (migliore): una combinazione di domini tra aree interessate/domini dati, domini funzionali, domini normativi e domini di progetto consente di allineare i dati ai propri esperti. Nel catalogo dati, gli esperti di dati sono la risorsa più potente; sanno quali criteri devono essere applicati e quali altri devono sapere per sfruttare al meglio i dati. Questa struttura sarà anche la più durevole per gli aggiornamenti dell'organizzazione, in quanto si basa sul modo in cui i dati vengono usati quotidianamente, anziché sulle strutture aziendali.

Pianificazione dello sviluppo del dominio di governance

  1. Quando si inizia a creare i domini di governance, iniziare con alcuni domini allineati ai team che hanno già una solida gestione dei dati:
    1. Assegnare amministratori dei dati e proprietari di prodotti dati ai domini di governance e fare in modo che inizino lo sviluppo su un glossario e prodotti dati in linea con le procedure correnti.
    2. Se necessario, analizzare i dati nella mappa dati in parallelo per integrare i prodotti dati.
    3. Lasciare il dominio di governance in uno stato bozza fino a quando non sono stati sviluppati alcuni prodotti dati e sono pronti per gli utenti.
  2. Pubblicare il dominio di governance e assegnare le autorizzazioni di lettura del catalogo dati ai primi utenti per consentire loro di iniziare l'esplorazione.
  3. Con il feedback del primo batch di utenti, eseguire l'iterazione sui prodotti dati esistenti o espandere fino ai prodotti dati o ai domini di governance successivi.
  4. A partire da alcuni domini di governance che hanno per lo più una copertura completa con i prodotti dati, i consumer di dati garantiscono che il catalogo dati abbia ciò di cui ha bisogno e che possa continuare a tornare.

Consiglio

Non è consigliabile allineare i domini di governance ai domini della piattaforma. L'IT è in genere allineato a una struttura tecnologica o a un servizio/applicazione e non è allineato al modo in cui i dati vengono usati dai team aziendali. È probabile che i domini della piattaforma nella mappa dati siano allineati a questi team tecnologici anziché ai team aziendali. L'obiettivo dei domini di governance è allineare gli utenti aziendali alle informazioni più utili. Concentrarsi sull'uso dei dati, anziché sulla struttura dei dati, per sviluppare i domini di governance.

Crea prodotti dati

Gran parte dei dati archiviati oggi ha un valore noto minimo o nullo e può richiedere tempo e impegno manuale per valutare e comprendere prima che possa essere rimosso o migliorato. Concentrarsi sui dati con valore e uso noti consentirà a più team di creare valore coerente e mostrare i vantaggi di avere dati ben compresi e altamente utilizzati. Ciò favorisce un'ulteriore adozione delle procedure di governance dei dati e semplifica lo sforzo di pulizia delle proprietà dei dati man mano che il valore di ogni asset di dati diventa più chiaro.

Concentrarsi sulle risorse dati già esistenti nell'organizzazione. L'aggiunta di questi prodotti come prodotti dati nel catalogo dati renderà più semplice per gli utenti individuarli. Renderà anche l'accesso più scalabile e migliorerà l'affidabilità con derivazione, qualità dei dati e responsabilità. Alcuni esempi di risorse dati esistenti sono:

  1. Data lake della zona Gold, archivi SQL altamente curati, data warehouse curati/data lakehouse usati dai team per supportare le procedure quotidiane.
  2. Report usati per prendere decisioni.
  3. Tabelle dati usate negli ambienti di creazione di report.
  4. Dati master e di riferimento.

Pianificazione dello sviluppo di prodotti dati

  1. I prodotti dati di pianificazione devono far parte del processo di assunzione quando le origini dati vengono aggiunte alla Microsoft Purview Data Map. I proprietari dei prodotti dati devono sapere quali archivi dati vengono registrati e analizzati e quali hanno asset di dati pronti per essere aggiunti al catalogo dati.
  2. Compilare i primi prodotti dati da asset di dati di base analizzati nella mappa dati.
  3. Pubblicare i primi prodotti dati quando gli utenti sono pronti a usare i dati con tale dominio.

Definire i termini del glossario

Quando si creano i termini, iniziare con ciò che già si conosce e continuare a creare valore dai dati per mostrare dove l'impegno è il più significativo. Ecco alcuni suggerimenti che è possibile seguire durante la creazione e la gestione dei termini del glossario per creare il valore massimo.

  1. L'assegnazione di dati agli utenti più appassionati dimostra la capacità di continuare a crescere valore e fornisce la priorità per una maggiore governance.
  2. Molti team aziendali hanno già un glossario per aiutare i nuovi dipendenti a orientarsi verso l'azienda. Usare questi elementi come candidati al primo termine per descrivere un dominio di governance e i relativi dati.
  3. Se non si è certi che un termine rappresenti un altro concetto ,ad esempio un'entità o un processo aziendale, l'aggiunta di un termine è un buon punto di partenza, quindi vengono raccolti i metadati più di base. Se necessario, il termine può essere scaduto e può essere usato un nuovo concetto per raccogliere più metadati e gestire l'esperienza end-to-end prevista.
  4. Una volta aggiunti i termini del glossario, il collegamento di questi termini ai prodotti dati migliorerà l'individuabilità dei prodotti dati e migliorerà la conoscenza dei dati da parte dei consumatori.
  5. Controllare periodicamente i prodotti dati mappati a un termine per consentire agli amministratori dei dati di comprenderne meglio l'uso nell'intera area dati.
  6. Le definizioni dei termini possono sempre essere migliorate e modificate. In attesa di pubblicare un termine fino a quando non è completamente allineato, i team ritarderanno l'uso del termine e impediranno la creazione di nuovi valori o l'escalation di potenziali miglioramenti.

Pianificazione dello sviluppo dei termini

  1. Gli amministratori dei dati devono apprendere il framework del dominio di governance e quindi iniziare ad aggiungere termini noti e iniziare a svilupparne di nuovi.
  2. Le definizioni dei termini devono essere sviluppate e contenere informazioni preziose per consentire ai consumer di comprenderne il contesto e l'uso.
  3. Il primo set di termini e prodotti dati deve essere pubblicato insieme per consentire ai consumer di avviare i casi d'uso dei dati e l'individuazione dei dati nel catalogo.
  4. La creazione di conoscenze semantica non si arresta mai, quindi definire un piano su come consentire al team di continuare a contribuire ai termini per tutto il ciclo di vita della governance.

Sbloccare il valore aziendale

Ora che le strutture del catalogo dati di base sono disponibili, è il momento di iniziare a sbloccare il valore dei dati rendendoli accessibili agli utenti e legandoli direttamente agli obiettivi aziendali. La creazione di valore dai dati deriva dall'uso di tali dati, ma l'uso dei dati significa che ogni persona nell'azienda deve trovare i dati corretti al momento giusto e nel formato corretto per fornire le informazioni o le funzionalità necessarie. I consumer di dati sono la chiave per creare nuovo valore aziendale dai dati.

Consentire agli utenti di cercare e esplorare i domini di governance e i prodotti dati

Si è impiegato il tempo necessario per compilare domini di governance e prodotti dati, in modo da consentire ai consumer di dati di accedervi e vedere come funzionano. Gli utenti aziendali potrebbero cercare report strategici già disponibili con le informazioni dettagliate necessarie per prendere decisioni aziendali in modo tempestivo e ben informato.

Ecco come si può pensare di concedere l'accesso agli utenti in modo strategico:

  • Non iniziare concedendo l'accesso al catalogo dati a tutti gli utenti dell'azienda. Abilitare prima i team che necessitano dei dati disponibili nel catalogo. Se i prodotti dati non sono disponibili nel formato richiesto dai data scientist o i dati non sono inclusi nei report predefiniti per gli utenti aziendali, perderanno fiducia nel catalogo. Abilitazione dei ruoli corretti per usare prima il catalogo per creare il percorso per il successo.
  • Iniziare con i team che hanno bisogno dei dati disponibili nel catalogo. Per chi sono stati compilati i prodotti dati? Quali team hanno contribuito a sviluppare i termini del glossario? Questi sono buoni candidati iniziali.
  • Iniziare con analisti ed esperti di dati in grado di indicare dove sono presenti lacune nel catalogo. Possono aiutare a puntare a esperti e proprietari aziendali che possono contribuire al catalogo dati. Nel corso del tempo la completezza del catalogo dati sarà sufficiente che tutti gli utenti dell'azienda siano in grado di trovare la maggior parte delle proprie esigenze di dati.

Creare gli OKR

Dimostrare il valore aziendale dei dati creando obiettivi e risultati chiave e legandoli ai prodotti dati che consentono di guidare o misurare tale valore. Garantire che i leader aziendali apprezzino il valore dei dati e l'importanza della governance determineranno la definizione delle priorità e nuove sinergie nel modo in cui i team creano, gestiscono e gestiscono i dati per creare informazioni dettagliate.

La creazione di un obiettivo fornisce un riconoscimento immediato dell'importanza dei dati per gli utenti e l'azienda che guida. Ciò migliora notevolmente la comprensione del ruolo svolto da alcuni dati nei processi aziendali o nella capacità di raggiungere i propri obiettivi.

  1. Prendere in considerazione gli OKR per i miglioramenti dei processi, i problemi di qualità, gli obiettivi strategici principali e qualsiasi altra misura da misurare con i dati per dimostrare il valore aziendale e il cambiamento.
  2. Assicurarsi di creare un risultato chiave per ogni obiettivo per mostrare come viene misurato e valutato l'obiettivo e creare responsabilità per raggiungere tale obiettivo.
  3. Possono esistere obiettivi complessi che hanno molti risultati chiave necessari per essere in grado di raggiungere. I risultati chiave potrebbero progredire indipendentemente dagli altri risultati chiave che la misurazione può mostrare le aree che richiedono la definizione delle priorità o aiutare a tornare in pista.

Accesso ai dati conforme

Fornire l'accesso ai dati può introdurre rischi per l'azienda e seguire gli standard e i criteri noti è un must per garantire che l'accesso venga concesso in modo appropriato e che vi sia un uso responsabile dei dati. Gli utenti nel catalogo dati possono completare un modulo per l'accesso ai dati al momento dell'individuazione o dell'uso dei dati. Mantenere questo modulo e questo processo come parte del catalogo rende l'accesso, sicuro, rapido e coerente per un patrimonio di dati altamente variabile e tecnico. Ecco alcuni modi per configurare correttamente l'accesso nel catalogo:

  • Assicurarsi che i responsabili approvazione appropriati siano presenti nei prodotti dati e che comprendano le esigenze di elaborazione dei prodotti dati.
  • Alcuni prodotti dati potrebbero avere centinaia o migliaia di richieste di accesso, pertanto potrebbe essere necessario disporre di un team in fusi orari distribuiti per garantire l'approvazione e il provisioning dell'accesso tempestivi.
  • Preparare i gruppi o eseguire il backup dei responsabili approvazione in caso di ferie o time off non pianificati.
  • I proprietari del dominio di governance devono controllare periodicamente il riepilogo delle richieste di accesso per convalidare le aspettative e verificare se le modifiche apportate ai controlli che monitorano il processo di richiesta di accesso stanno determinando i tempi di risposta desiderati.

Creare modelli di dati logici con elementi di dati critici

Il miglioramento della comprensione tecnica approfondita e delle aspettative delle entità e degli elementi di dati includerà nuovi controlli per l'asserzione se i dati soddisfano tali aspettative. La creazione di dizionari di dati e modelli logici di dati fornisce la struttura e le aspettative aziendali profonde dei dati che ne garantiscono la adattabilità allo scopo. Incorporando queste conoscenze nel Data Catalog i team acquisiranno immediatamente una comprensione del modo in cui i dati sono strutturati e del motivo e di come ciò che è effettivamente disponibile nel data estate fisico potrebbe differire.

  • Concentrarsi sugli elementi di dati più importanti per il dominio. Gli elementi di dati critici mostreranno le competenze approfondite e l'importanza dei dati nell'azienda.
  • Non concentrarsi sulla completezza degli elementi in un intero dominio. Non tutte le colonne necessitano di questo livello di controllo e molti elementi dati potrebbero essere autoesplicativi per gli utenti.
  • La valutazione degli elementi di dati critici in team diversi garantisce che i team aziendali abbiano una conoscenza comune dei dati e del modo in cui ciò che un team crea influisce su molte altre aree dell'azienda.
  • L'allineamento dei criteri di accesso con elementi di dati critici garantisce l'applicazione di controlli di accesso appropriati per i dati critici nell'intero patrimonio dati.
  • La creazione di regole di qualità dei dati per elementi di dati critici garantisce che i dati soddisfino le aspettative indipendentemente da dove o come vengono usati.

Migliorare la maturità dei dati

Migliorare il patrimonio dati e la governance per colmare le lacune e rimuovere i colli di bottiglia per la creazione di valore:

  • Monitorare le azioni di integrità per migliorare la governance in modo incrementale nell'intero catalogo dati.
  • Ottimizzare i nuovi usi dei dati ed eliminare i problemi relativi ai dati migliorando la qualità dei dati.
  • Creare prodotti dati di livello ottimale per singole origini di verità con la gestione dei dati master.
  • Valutare l'integrità dei dati e assegnare priorità per l'impatto maggiore sul valore.

Investire profondamente nei dati di base che eseguono l'azienda garantisce che questi dati siano utilizzabili nell'intera azienda eliminando in modo coerente i problemi dei dati e fornendo una base stabile per la creazione di informazioni dettagliate. La presenza di prove di problemi relativi ai dati consente di garantire l'attuabilità della governance dei dati, ma consentirà di ottenere miglioramenti che consentiranno di sbloccare immediatamente un nuovo valore senza investire in aree dati con valore basso non ancora completamente comprese. Il miglioramento continuo della maturità dei dati aiuterà i team a condividere le conoscenze tra loro e a mostrare la prova del miglioramento man mano che si verificano le modifiche.

Migliorare i prodotti dati con azioni incentrate sulla governance

La creazione di attendibilità nei dati richiede il miglioramento continuo e il supporto. Anche se i consumer impiegano tempo per trovare e applicare i dati, per prestare attenzione ai problemi o alle esigenze di supporto sono disponibili azioni semplici che possono essere eseguite in anticipo in base alle procedure consigliate. Le azioni di integrità nella gestione dell'integrità forniscono un elenco completo di queste azioni utili per il catalogo dati, per concentrarsi sulle operazioni che è possibile eseguire per migliorare la governance. Ecco alcune procedure consigliate per l'uso delle azioni di integrità per ottenere il massimo valore:

  • Controllare le azioni dei prodotti dati mentre sono ancora in uno stato bozza. In questo modo, al momento della pubblicazione, i dati di base sono coperti e garantiscono ai consumatori che questi dati siano stati pubblicati con attenzione.
  • Non tutte le azioni devono essere eseguite contemporaneamente. Alcune azioni potrebbero richiedere tempo per la risoluzione man mano che si apprendono altre informazioni sui dati o si lavora con gli amministratori per ottenere maggiore chiarezza. Continua a controllare le azioni per vedere dove sono pronti i nuovi miglioramenti.
  • Se le azioni iniziano a sembrare travolgenti, non necessarie o simili, è consigliabile apportare modifiche ai controlli di integrità. L'ottimizzazione del numero di azioni eseguite da qualsiasi persona garantisce l'applicazione del giusto livello di governance ai dati.

Migliorare l'affidabilità dei dati con la qualità dei dati

Troppo spesso la qualità dei dati è un progetto una tantum per risolvere un problema specifico nei dati. Questi miglioramenti, ma non durano. Una buona qualità dei dati richiede una valutazione e un miglioramento continui per garantire che i problemi non vengano restituiti o che non vengano creati nuovi problemi.

  • Dopo aver definito una baseline delle aspettative di qualità dei dati. la creazione di un piano per correggere i problemi in modo tempestivo è essenziale per mantenere il funzionamento aziendale con i dati adatti all'uso.
  • La pianificazione delle analisi della qualità dei dati per l'esecuzione regolare consentirà ai consumer di migliorare continuamente i dati ed è altamente supportato.
  • L'impostazione di avvisi sulle regole critiche e le modifiche dei punteggi consentirà ai provider di dati di correggere i problemi prima che un consumer rilevi o rilevi un problema. L'avviso può essere usato anche per condividere in modo trasparente i problemi con i consumer prima di trovarli in un'esperienza o prendendo una decisione basata su dati di scarsa qualità.

Creare prodotti di dati di origine della verità con la gestione dei dati master

Alcuni dati sono così importanti per quasi tutti i processi e l'intera azienda che meritano livelli eccezionali di gestione e governance. Queste entità dati sono in genere entità trasversali come elenchi di clienti o profili di dipendenti e possono richiedere competenze aziendali approfondite ed esperienza in molti processi aziendali. Alcuni dati sono altamente utilizzabili ma su scala ridotta e trae comunque vantaggio dal livello più profondo di controllo e gestione; ad esempio gli attributi dei dati di riferimento di paese/area geografica, valuta o segmenti di settore. Ognuno di questi tipi di dati trarrebbe vantaggio dalle soluzioni di gestione dei dati master per creare un'origine di verità adatta all'uso nell'intera azienda.

  • La pratica della gestione dei dati master con la qualità dei dati è fondamentale per garantire che questi dati vitali siano puliti e coerenti.
  • Questo livello di gestione dei dati è molto impegnativo, quindi scegliere elementi di dati preziosi o elementi di dati ad alto rischio per garantire che l'impegno produca un valore elevato.
  • Creazione di un elemento dati critico e di un prodotto dati per i dati master. Questi oggetti partner consentono di elevare i dati master nel catalogo dati e di aumentarne l'uso e la comprensione.
  • Creare nuovi controlli di integrità per i dati master per valutarne continuamente l'uso su larga scala e impedire l'uso di nuovi dati non master e generare confusione in un data estate in rapida evoluzione.

Misurare la maturità della governance con i controlli di integrità dei dati

La valutazione della maturità della governance dei dati su larga scala nell'intera azienda è necessaria per garantire l'efficacia della governance e creare valore aziendale. Applicando la misurazione predefinita dei controlli, la gestione dell'integrità consente all'ufficio dati centrale o a un singolo dominio di governance di vedere dove è possibile eseguire altre operazioni. La raccolta di queste prove su larga scala eleva rapidamente i problemi dei dati più critici che influiscono sull'azienda e in cui un problema può influire su molte aree dell'azienda. Questa evidenza consente di risolvere i problemi di priorità relativi all'applicazione di modifiche alla gestione dei dati e dimostra rapidamente il valore di avere il giusto livello di governance.

  1. Stabilire un ritmo aziendale per esaminare le procedure di gestione dell'integrità:
    1. Avere una revisione mensile con i responsabili del dominio di governance e l'ufficio dati centrale per discutere le priorità e le esigenze di nuove soluzioni tecniche o di governance.
    2. Consentire ai team di approfondire i report di gestione dell'integrità per assicurarsi che possano prendere le decisioni migliori per creare il valore di cui hanno bisogno nella propria azienda.
    3. Portare la gestione dell'integrità a tutti i livelli dell'azienda, dall'SLT al singolo amministratore per garantire che la governance sia corretta e gestibile in modo coerente.
    4. Nei casi in cui i dati presentano problemi più grandi che richiedono collaborazione tra aziende o governance più approfondita, è consigliabile creare un nuovo dominio di governance e definire la proprietà per guidare la governance di tali dati.
  2. Non aspettarti che tutti i domini di governance abbiano lo stesso livello di maturità o siano incentrati sugli stessi aspetti della governance:
    1. L'abilitazione della governance al giusto livello consente ai proprietari di aziende di prendere le decisioni più preziose su cosa fare con i propri dati.
    2. Non tutte le parti dell'azienda hanno le stesse esigenze dei dati e forzare livelli di governance più profondi potrebbe non contribuire a creare valore aziendale quando l'attenzione è altrove.
    3. Alcuni dati sono meno preziosi o emergenti nel patrimonio dati e il valore non è ancora completamente noto. Consentendo ai team di muoversi rapidamente e adattarsi alle proprie esigenze, possono maturare la governance con il valore dei dati.
  3. Valutare in modo coerente la gestione dell'integrità per cercare modifiche di grandi dimensioni che possono indicare problemi di grandi dimensioni o nuovi apprendimento che richiedono attenzione.
  4. Condividere i punteggi di gestione dell'integrità. La condivisione può riunire i team per scoprire cosa funziona per loro o come stanno trovando nuovi controlli per creare nuovo valore all'interno di un dominio. Vedere l'aspetto della "buona" salute può motivare altri team a migliorare e garantire che distribuiranno anche dati preziosi ai loro consumatori.

Creare standard specifici del dominio

La corretta dimensione della governance dei dati per il livello di valore e controllo richiesto è gestita al meglio dai proprietari aziendali dei dati. Questi team aziendali hanno già dipendenze dai dati e si trovano nella posizione migliore per definire le loro aspettative ed è necessario assicurarsi che i dati siano preziosi.

  • Consentire ai domini di governance di creare nuovi controlli per i dati indipendentemente dalla posizione in cui vengono usati i dati.
  • Non aspettarti che tutti i domini di governance richiedano lo stesso livello di controlli o adottino tutti i controlli. I dati limitati per l'uso a una singola parte dell'azienda in base alla progettazione potrebbero non trarre vantaggio da un livello elevato di controllo. La creazione di un maggiore controllo sui dati che non hanno il valore appropriato potrebbe impedire ai team di raccogliere o mantenere dati non completamente utilizzati.
  • Usare il livello di controllo corretto per definire le priorità in cui è possibile rimuovere i dati a basso valore dal dominio di governance per eliminare i rischi e aumentare il valore della proprietà dei dati.