Prodotti dati di analisi su scala cloud in Azure
I prodotti dati sono dati serviti come prodotto e calcolato, salvato e servito da servizi di persistenza poliglotta, che possono essere richiesti da determinati casi d'uso. Il processo di creazione e gestione di un prodotto dati può richiedere servizi e tecnologie non inclusi nei servizi principali della zona di destinazione dei dati. Un esempio di questo tipo è la creazione di report con requisiti di nicchia, ad esempio la conformità e la creazione di report fiscali.
Considerazioni relative alla progettazione
Una zona di destinazione dei dati può essere servita da più prodotti dati creati inserendo dati all'interno della stessa zona di destinazione dei dati o da più zone di destinazione dei dati. Questa operazione è illustrata nel diagramma seguente.
Nell'esempio precedente vengono illustrati i due concetti seguenti:
- Consumo di dati intrazone:
- Il prodotto dati B utilizza i dati del prodotto A e di altri dati o prodotti dati esistenti nel data lake all'interno della propria zona di destinazione.
- I prodotti dati C e D utilizzano solo i dati dalle rispettive zone di destinazione dei dati.
- Utilizzo dei dati tra zone:
- Il prodotto dati B utilizza anche i dati del prodotto dati C e i dati nel data lake della zona di destinazione 3.
Importante
Nel caso dell'utilizzo dei dati tra zone, poiché il prodotto B dei dati viene creato leggendo dalla zona di destinazione dei dati 3, questo accesso in lettura richiede l'approvazione delle operazioni della zona di destinazione dei dati e dei team operativi di integrazione della zona di destinazione dei dati 3.
Importante
Il prodotto dati B utilizza i dati dei prodotti dati A e C. Prima che ciò accada, il prodotto dati B deve registrare il consumo di prodotti dati tramite contratti di condivisione dei dati. In questo contratto deve essere aggiornata la derivazione dei dati dal prodotto dati A al prodotto dati B e dal prodotto dati C al prodotto dati B.
Il gruppo di risorse per un prodotto dati include tutti i servizi necessari per crearli e gestirli. È possibile chiamare questo gruppo di risorse un'applicazione dati. Esempi di servizi che potrebbero far parte di un'applicazione dati includono Funzioni di Azure, servizio app Azure, app per la logica, Azure Analysis Services, Servizi cognitivi di Azure, Azure Machine Learning, database SQL di Azure, Database di Azure per MySQL e Azure Cosmos DB. Per altre informazioni, vedere Esempi di applicazioni dati.
I prodotti dati dispongono di dati provenienti da origini dati READ che hanno applicato alcune trasformazioni dei dati. Alcuni esempi possono essere un set di dati appena curato o un report bi.
Suggerimenti per la progettazione
Creare prodotti dati all'interno della zona di destinazione dei dati rispettando i principi di progettazione che consentono la scalabilità con la governance dei dati. Le sezioni seguenti forniscono consigli di progettazione utili per pianificare l'ecosistema di applicazioni dati.
Distribuire più gruppi di risorse
Ogni applicazione dati è un gruppo di risorse. Poiché le applicazioni dati sono servizi di calcolo, servizi di persistenza poliglotta o entrambi, possono essere necessarie solo a seconda di determinati casi d'uso. Di conseguenza, vengono considerati un componente facoltativo della zona di destinazione dei dati. In un caso in cui sono necessarie applicazioni dati, creare più gruppi di risorse per applicazione dati come illustrato nel diagramma seguente.
Impostare strumenti di protezione
Criteri di Azure determina la configurazione predefinita dei servizi all'interno di una zona di destinazione dei dati. Si pensi all'analisi operativa come a più gruppi di risorse che il team del prodotto dati può richiedere da un catalogo di servizi standard. Usando Criteri di Azure, è possibile configurare il limite di sicurezza e il set di funzionalità richiesto.
Importante
Per favorire la coerenza, configurare un Criteri di Azure per ogni applicazione dati.
Utilizzare i dati da più posizioni
Le applicazioni dati gestiscono, organizzano e hanno senso dei dati da più asset di dati e presentano eventuali informazioni dettagliate acquisite. Un prodotto dati è il risultato dei dati di una o più applicazioni dati all'interno delle zone di destinazione dei dati. Consentire alle applicazioni dati di accedere ai dati da più origini e varie, quando necessario.
Ridimensionare i prodotti dati in base alle esigenze
I servizi che costituiscono applicazioni dati sono distribuzioni incrementali nella zona di destinazione dei dati. Ridimensionare le applicazioni dati in base alle esigenze.
Abilitare l'individuazione dei dati
Registrare automaticamente i prodotti dati in un catalogo dati, ad esempio Azure Purview , per consentire l'analisi dei dati.
Identificare i prodotti dati
Durante l'avvio della pianificazione di una zona di destinazione dei dati, identificare il numero di prodotti dati (e le applicazioni dati che li generano e gestirli) in base alle esigenze per favorire l'architettura dell'applicazione del prodotto dati. La conformità alla governance della piattaforma implementata deve svolgere il ruolo più importante nelle decisioni.
Concentrarsi sul modo in cui le applicazioni dati sono produttori di dati e consumer per altri utenti. Si supponga, ad esempio, di aver identificato una suite di prodotti dati (A, B, C e D) prodotti e utilizzati. Sono necessari prodotti dati A e D come origini per i dati nell'applicazione dati B per il prodotto dati B. Il prodotto dati B viene creato dai dati utilizzati dall'applicazione B dai prodotti dati A e D. Applicazione dati B funge da produttore di dati stesso e produce dati per il prodotto dati C.
Controllare l'ambiente dell'applicazione dati con infrastruttura come codice
La governance e l'infrastruttura come codice devono controllare l'ambiente dell'applicazione dati nell'ecosistema dei prodotti dati, come illustrato nel diagramma precedente.
Pubblicare modelli di dati
I team del prodotto dati devono pubblicare i modelli di dati in un repository di modellazione.
Impostare le aspettative per gli utenti dei prodotti dati
Aggiornare i contratti di condivisione dei dati con contratti e certificazioni a livello di servizio per i prodotti dati in modo da comunicare aspettative accurate ai potenziali utenti del prodotto dati.
Acquisire la derivazione dei dati
Se il prodotto dati B viene creato dai dati provenienti dai prodotti dati A e D, la derivazione deve essere acquisita da A e D a B. È inoltre necessario acquisire ulteriore derivazione per il prodotto dati C, poiché viene creato usando i dati del prodotto dati B. La derivazione aggiornata deve essere acquisita in un'applicazione di derivazione dati prima di ogni rilascio del prodotto dati.
Nota
L'uso di Azure Pipelines consente di compilare controlli di approvazione e richiamare funzioni che possono assicurarsi che i metadati, la derivazione e i contratti di servizio siano registrati nel servizio di governance corretto.
Definire l'architettura dell'applicazione dati
È necessario creare un'architettura dettagliata per ogni prodotto dati che definisce completamente la relazione con altri prodotti dati, le relative dipendenze e i relativi requisiti di accesso.
Scenario di progettazione di esempio
Per comprendere il processo di definizione dell'architettura, esplorare l'esempio seguente di un istituto finanziario e il relativo prodotto di dati di monitoraggio del credito.
Il prodotto dei dati di monitoraggio del credito illustrato in questo diagramma utilizza i dati di un archivio dati di lettura inserito dal team operativo di integrazione. Produce anche i prodotti dati utilizzati da altri due prodotti dati.
Nota
Un'origine dati o un archivio di lettura è nota anche come origine record golden. Queste origini dati sono state pulite, ma non sono state applicate trasformazioni.
Il team del prodotto dei dati di monitoraggio del credito richiede l'accesso in lettura agli archivi dati necessari per la creazione del prodotto dati. Le richieste vengono instradate ai proprietari dei dati per l'approvazione. Dopo aver ricevuto l'approvazione, il team del prodotto può iniziare a compilare l'applicazione dati.
I dati dell'origine dati di lettura vengono trasformati nei prodotti di dati di monitoraggio del credito. Tutti i nuovi prodotti dati vengono archiviati nel livello curato del data lake. Questi nuovi prodotti dati e la nuova derivazione dei dati devono essere registrati come parte del processo di distribuzione DevOps. Una funzione può controllare i metadati registrati con la struttura fisica dell'asset di dati. Deve registrare la dipendenza dagli asset di dati e dai prodotti dati dell'origine dati letti.
Il team di prodotto dei dati di approvazione dei prestiti ha una dipendenza da alcuni dei prodotti di dati di monitoraggio del credito. Il team di approvazione dei prestiti potrebbe richiedere l'accesso in lettura ai prodotti dati di monitoraggio del credito necessari per i prodotti dati. Dopo aver rilasciato il prodotto dati di approvazione del prestito e la relativa applicazione dati, tutti gli asset di prodotto dati, la derivazione e i modelli devono essere registrati nei servizi di governance pertinenti.
Applicazioni dati di esempio
Le sezioni seguenti contengono applicazioni dati di esempio per illustrare ulteriormente gli scenari di applicazione dati.
Applicazione data science e analisi dei dati
Un'applicazione per l'analisi dei dati e l'analisi dei dati può contenere i servizi illustrati nell'applicazione product-analytics-rg
dati di esempio .
Nota
È possibile usare l'applicazione dati precedente come modello. Questo modello distribuisce un set di servizi che è possibile usare per l'analisi dei dati e l'analisi dei dati. È possibile usare questo modello di applicazione del prodotto dati per creare rapidamente ambienti per i team interfunzionali. È necessario disabilitare in modo esplicito tutti i servizi non necessari.
Il modello Data Product Analytics contiene tutti i modelli per la distribuzione di un prodotto dati per l'analisi e l'analisi scientifica dei dati all'interno di una zona di destinazione dei dati dello scenario di analisi su scala cloud.
Gli artefatti di distribuzione e codice includono i servizi seguenti:
- Machine Learning
- Insieme di credenziali delle chiavi di
- Application Insights
- Storage
- Registro Container
- Servizi cognitivi (facoltativo)
- Data Factory (selezionare tra Data Factory e Synapse)
- Area di lavoro Synapse (selezionare tra Data Factory e Synapse)
- Ricerca di Azure (facoltativo)
- Pool SQL (facoltativo)
- Pool BigData (facoltativo)
Applicazione dati batch
Il modello Di applicazione dati Batch contiene tutti i modelli per la distribuzione di un prodotto dati per l'elaborazione batch di dati all'interno di una zona di destinazione dei dati dello scenario di analisi su scala cloud.
Gli artefatti di distribuzione e codice includono i servizi seguenti:
- Insieme di credenziali delle chiavi di
- Data Factory (selezionare tra Data Factory e Synapse)
- Azure Cosmos DB (facoltativo)
- Area di lavoro Synapse (selezionare tra Data Factory e Synapse)
- My database SQL (facoltativo)
- database SQL di Azure (facoltativo)
- Postgre database SQL (facoltativo)
- Database MariaDB (facoltativo)
- Pool SQL (facoltativo)
- SQL Server (facoltativo)
- Pool elastico SQL (facoltativo)
- BigData Pool
Applicazione di dati di streaming
Il modello Applicazione dati di streaming contiene tutti i modelli per la distribuzione di un prodotto dati per l'elaborazione dei dati in tempo reale all'interno di una zona di destinazione dei dati dello scenario di analisi su scala cloud
Gli artefatti di distribuzione e codice includono i servizi seguenti:
- Insieme di credenziali delle chiavi di
- Hub eventi
- Hub IoT
- Analisi di flusso (facoltativo)
- Azure Cosmos DB (facoltativo)
- Area di lavoro di Synapse
- database SQL di Azure (facoltativo)
- Pool SQL (facoltativo)
- SQL Server (facoltativo)
- Pool elastico SQL (facoltativo)
- BigData Pool
- Esplora dati (facoltativo)
Per trovare i repository contenenti i modelli di distribuzione indicati in precedenza, fare riferimento ai modelli di distribuzione per l'analisi su scala cloud