Disponibilità generale del mapping di flussi di dati in Azure Data Factory

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

Che cosa sono i flussi di dati di mapping?

I flussi di dati per mapping sono trasformazioni dei dati progettate visivamente in Azure Data Factory. I flussi di dati consentono agli ingegneri dei dati di sviluppare graficamente la logica delle trasformazioni dei dati senza scrivere codice. I flussi di dati risultanti vengono eseguiti come attività all'interno delle pipeline di Azure Data Factory usando cluster Apache Spark con scale-out. Le attività dei flussi di dati possono essere rese operative tramite le funzionalità esistenti di pianificazione, controllo, flusso e monitoraggio di Azure Data Factory.

I flussi di dati per mapping offrono un'esperienza completamente visiva senza bisogno di codice. I flussi di dati vengono eseguiti in cluster di esecuzione gestiti da Azure Data Factory per l'elaborazione scale-out dei dati. Azure Data Factory gestisce automaticamente tutte le attività di conversione del codice, ottimizzazione dei percorsi ed esecuzione dei processi dei flussi di dati.

Introduzione

I flussi di dati vengono creati dal riquadro delle risorse della factory, ad esempio pipeline e set di dati. Per creare un flusso di dati, selezionare il segno più accanto a Risorse della factory e quindi selezionare Flusso di dati.

Screenshot che mostra un nuovo flusso di dati. Questa azione consente di accedere al canvas del flusso di dati, in cui è possibile creare la logica di trasformazione. Selezionare Aggiungi origine per iniziare a configurare la trasformazione dell'origine. Per altre informazioni, vedere Trasformazione dell'origine.

Creazione di flussi di dati

Il flusso di dati per mapping è dotato di un'area del contenuto specificatamente progettata per semplificare la creazione della logica di trasformazione. L'area di disegno di un flusso di dati è suddivisa in tre parti: la barra superiore, il grafo e il pannello di configurazione.

Screenshot che mostra il canvas del flusso di dati con l'etichetta barra superiore, grafico e pannello di configurazione.

Grafico

Il grafo visualizza il flusso di trasformazione. Mostra la derivazione dei dati di origine durante il flusso in uno o più sink. I sink possono essere qualsiasi destinazione di origine dati in cui si vogliono spostare i risultati dei dati trasformati. Per aggiungere una nuova origine, selezionare Aggiungi origine. Per aggiungere una nuova trasformazione, selezionare il segno più in basso a destra di una trasformazione esistente. Altre informazioni su come gestire il grafo del flusso di dati.

Screenshot che mostra la parte del grafico del canvas con una casella di testo Cerca.

Pannello di configurazione

Il pannello di configurazione mostra le impostazioni specifiche della trasformazione attualmente selezionata. Se non è selezionata alcuna trasformazione, viene visualizzato il flusso di dati. Nella configurazione complessiva del flusso di dati è possibile aggiungere parametri tramite la scheda Parametri. Per altre informazioni, vedere Parametri del flusso di dati per mapping.

Ogni trasformazione contiene almeno quattro schede di configurazione.

Impostazioni della trasformazione

La prima scheda nel riquadro di configurazione di ogni trasformazione contiene le impostazioni specifiche di tale trasformazione. Per altre informazioni, vedere la pagina della documentazione della trasformazione.

Screenshot che mostra la scheda delle impostazioni di origine.

Ottimizzazione

La scheda Ottimizza contiene le impostazioni per configurare gli schemi di partizione. Per altre informazioni su come ottimizzare i flussi di dati, vedere la guida sulle prestazioni del flusso di dati per mapping.

Screenshot che mostra la scheda Ottimizza, che include l'opzione Partizione, Tipo di partizione e Numero di partizioni.

Controllare

Nel riquadro Ispeziona è disponibile la vista dei metadati del flusso di dati in corso di trasformazione. È possibile visualizzare i conteggi delle colonne, le colonne modificate, le colonne aggiunte, i tipi di dati, l'ordine delle colonne e i riferimenti di colonna. Il riquadro Ispeziona è una vista di sola lettura dei metadati. Non è necessario che la modalità di debug sia abilitata per visualizzare i metadati nel riquadro Ispeziona.

Controllare

Quando si cambia la forma dei dati tramite trasformazioni, è possibile vedere il flusso delle modifiche dei metadati all'interno del riquadro Ispeziona. Se nella trasformazione dell'origine non è definito uno schema, i metadati non saranno visibili nel riquadro Ispeziona. L'assenza di metadati è comune negli scenari relativi allo spostamento schema.

Anteprima dati

Se la modalità di debug è attivata, la scheda Anteprima dati fornisce uno snapshot interattivo dei dati in ogni trasformazione. Per altre informazioni, vedere Anteprima dei dati in modalità di debug.

Barra superiore

La barra superiore contiene azioni che interessano l'intero flusso di dati, ad esempio il salvataggio e la convalida. È anche possibile visualizzare il codice JSON sottostante e lo script del flusso di dati della logica di trasformazione. Per altre informazioni, vedere l'argomento sullo script del flusso di dati.

Trasformazioni disponibili

Visualizzare la panoramica della trasformazione del flusso di dati per mapping per ottenere l'elenco delle trasformazioni disponibili.

Tipi di dati del flusso di dati

  • array
  • binary
  • boolean
  • complex
  • decimal (include la precisione)
  • data
  • float
  • integer
  • long
  • mappa
  • short
  • string
  • timestamp

Attività del flusso di dati

I flussi di dati per mapping vengono resi operativi all'interno delle pipeline di Azure Data Factory usando l'attività flusso di dati. Un utente non deve fare altro che specificare il runtime di integrazione da usare e passare i valori dei parametri. Per altre informazioni, consultare gli articoli sul runtime di integrazione di Azure.

Modalità di debug

La modalità di debug consente di visualizzare in modo interattivo i risultati di ogni passaggio di trasformazione durante la compilazione e il debug dei flussi di dati. La sessione di debug può essere usata durante la compilazione della logica del flusso di dati e anche durante l'esecuzione di debug della pipeline con attività del flusso di dati. Per altre informazioni, vedere la documentazione sulla modalità di debug.

Monitoraggio dei flussi di dati

Il flusso di dati per mapping si integra con le funzionalità di monitoraggio di Azure Data Factory esistenti. Per informazioni su come analizzare l'output del monitoraggio del flusso di dati, vedere Monitoraggio dei flussi di dati per mapping.

Il team di Azure Data Factory ha creato una guida per l'ottimizzazione delle prestazioni che consente di ottimizzare il tempo di esecuzione dei flussi di dati dopo la compilazione della logica di business.