Guida introduttiva: Creare il primo flusso di dati per ottenere e trasformare i dati

Articolo
11/15/2023

I flussi di dati sono una tecnologia self-service, basata sul cloud e di preparazione dei dati. In questo articolo si crea il primo flusso di dati, si ottengono i dati per il flusso di dati, quindi si trasformano i dati e si pubblica il flusso di dati.

Prerequisiti

Prima di iniziare sono necessari i prerequisiti seguenti:

Un account tenant di Microsoft Fabric con una sottoscrizione attiva. Creare un account gratuito.
Assicurarsi di disporre di un'area di lavoro abilitata per Microsoft Fabric: Creare un'area di lavoro.

Creazione di un flusso di dati

In questa sezione si sta creando il primo flusso di dati.

Passare all'esperienza data factory .
Passare all'area di lavoro di Microsoft Fabric.
Selezionare Nuovo e quindi Selezionare Flusso di dati Gen2.

Recupera dati

Si otterrà un po' di dati. In questo esempio si ottengono dati da un servizio OData. Usare la procedura seguente per ottenere i dati nel flusso di dati.

Nell'editor del flusso di dati selezionare Recupera dati e quindi selezionare Altro.
In Scegli origine dati selezionare Visualizza altro.
In Nuova origine selezionare Altro>OData come origine dati.
Immettere l'URL https://services.odata.org/v4/northwind/northwind.svc/e quindi selezionare Avanti.
Selezionare le tabelle Ordini e clienti e quindi crea.

Per altre informazioni sull'esperienza e sulle funzionalità di recupero dei dati, vedere Panoramica di Recupero dei dati.

Applicare trasformazioni e pubblicare

I dati sono stati caricati nel primo flusso di dati, congratulazioni. È ora possibile applicare un paio di trasformazioni per inserire questi dati nella forma desiderata.

Questa attività verrà eseguita dall'editor di Power Query. È possibile trovare una panoramica dettagliata dell'editor di Power Query nell'interfaccia utente di Power Query.

Per applicare trasformazioni e pubblicare, seguire questa procedura:

Assicurarsi che gli strumenti di profilatura dati siano abilitati passando a Opzioni globali opzioni> home.>

Assicurarsi inoltre di aver abilitato la visualizzazione diagramma usando le opzioni nella scheda Visualizza della barra multifunzione dell'editor di Power Query o selezionando l'icona della visualizzazione diagramma sul lato inferiore destro della finestra di Power Query.
Nella tabella Ordini si calcola il numero totale di ordini per cliente. Per raggiungere questo obiettivo, selezionare la colonna CustomerID nell'anteprima dei dati e quindi selezionare Raggruppa per nella scheda Trasforma della barra multifunzione.
Si esegue un conteggio delle righe come aggregazione all'interno di Group By. Per altre informazioni sulle funzionalità Group By , vedere Raggruppamento o riepilogo delle righe.
Dopo il raggruppamento dei dati nella tabella Orders, si otterrà una tabella a due colonne con CustomerID e Count come colonne.
Successivamente, si vogliono combinare i dati della tabella Customers con il conteggio degli ordini per cliente. Per combinare i dati, selezionare la query Clienti nella visualizzazione Diagramma e usare il menu "⋮" per accedere alle query di merge come nuova trasformazione.
Configurare l'operazione di merge come illustrato nello screenshot seguente selezionando CustomerID come colonna corrispondente in entrambe le tabelle. Quindi scegliere OK.

Screenshot della finestra Merge con la tabella Left per merge impostata sulla tabella Customers e la tabella Right per merge impostata sulla tabella Orders. La colonna CustomerID è selezionata sia per le tabelle Customers che Orders. Inoltre, join kind è impostato su Left outer. Tutte le altre selezioni vengono impostate sul valore predefinito.
Dopo aver eseguito le query di merge come nuova operazione, si ottiene una nuova query con tutte le colonne della tabella Customers e una colonna con dati annidati dalla tabella Orders.
In questo esempio si è interessati solo a un subset di colonne nella tabella Customers. È possibile selezionare tali colonne usando la visualizzazione schema. Abilitare la visualizzazione schema all'interno dell'interruttore nell'angolo inferiore destro dell'editor di flussi di dati.
La vista schema fornisce una visualizzazione incentrata sulle informazioni sullo schema di una tabella, inclusi i nomi delle colonne e i tipi di dati. La visualizzazione schema include un set di strumenti dello schema disponibili tramite una scheda della barra multifunzione contestuale. In questo scenario si selezionano le colonne CustomerID, CompanyName e Orders (2), quindi selezionare il pulsante Rimuovi colonne e quindi selezionare Rimuovi altre colonne nella scheda Strumenti schema.
La colonna Orders (2) contiene informazioni annidate risultanti dall'operazione di unione eseguita alcuni passaggi fa. Tornare ora alla visualizzazione dati selezionando il pulsante Mostra visualizzazione dati accanto al pulsante Mostra visualizzazione schema nell'angolo inferiore destro dell'interfaccia utente. Usare quindi la trasformazione Espandi colonna nell'intestazione di colonna Orders (2) per selezionare la colonna Conteggio .

Screenshot dell'editor di flussi di dati con il pulsante Mostra visualizzazione dati nell'angolo inferiore destro, l'icona di espansione della colonna Ordini (2) e la colonna Conteggio selezionata nella finestra espandi colonna.
Come operazione finale, si vuole classificare i clienti in base al numero di ordini. Selezionare la colonna Conteggio e quindi selezionare il pulsante Classifica colonna nella scheda Aggiungi colonna sulla barra multifunzione.
Mantenere le impostazioni predefinite in Colonna classificazione. Selezionare quindi OK per applicare questa trasformazione.
Rinominare ora la query risultante come Clienti classificati usando il riquadro Impostazioni query sul lato destro della schermata.
La trasformazione e la combinazione dei dati sono state completate. Quindi, è ora possibile configurare le impostazioni di destinazione di output. Selezionare Scegli destinazione dati nella parte inferiore del riquadro Impostazioni query.
Per questo passaggio, è possibile configurare un output in lakehouse se ne è disponibile uno o ignorare questo passaggio, se non lo si è. In questa esperienza è possibile configurare il lakehouse di destinazione e la tabella per i risultati della query, oltre al metodo di aggiornamento (Append o Replace).
Il flusso di dati è ora pronto per la pubblicazione. Esaminare le query nella visualizzazione diagramma e quindi selezionare Pubblica.

Ora si torna all'area di lavoro. Un'icona di selezione accanto al nome del flusso di dati indica che la pubblicazione è in corso. Al termine della pubblicazione, il flusso di dati è pronto per l'aggiornamento.

Importante

Quando viene creato il primo dataflow Gen2 in un'area di lavoro, viene eseguito il provisioning degli elementi Lakehouse e Warehouse insieme ai relativi modelli semantici e endpoint di analisi SQL correlati. Questi elementi sono condivisi da tutti i flussi di dati nell'area di lavoro e sono necessari per il funzionamento di Dataflow Gen2, non devono essere eliminati e non devono essere usati direttamente dagli utenti. Gli elementi sono un dettaglio di implementazione di Dataflow Gen2. Gli elementi non sono visibili nell'area di lavoro, ma potrebbero essere accessibili in altre esperienze, ad esempio notebook, endpoint di analisi SQL, Lakehouse e Warehouse. È possibile riconoscere gli elementi in base al prefisso nel nome. Il prefisso degli elementi è "Flussi di datiStaging".
Nell'area di lavoro selezionare l'icona Pianifica aggiornamento .
Attivare l'aggiornamento pianificato, selezionare Aggiungi un'altra volta e configurare l'aggiornamento come illustrato nello screenshot seguente.

Screenshot delle opzioni di aggiornamento pianificate, con l'aggiornamento pianificato attivato, la frequenza di aggiornamento impostata su Giornaliero, il fuso orario impostato su ora universale coordinata e l'ora impostata su 4:00 AM. Il pulsante su, la selezione Aggiungi un'altra volta, il proprietario del flusso di dati e il pulsante Applica sono tutti evidenziati.

Pulire le risorse

Se non si intende continuare a usare questo flusso di dati, eliminare il flusso di dati seguendo questa procedura:

Passare all'area di lavoro di Microsoft Fabric.
Selezionare i puntini di sospensione verticali accanto al nome del flusso di dati e quindi selezionare Elimina.
Selezionare Elimina per confermare l'eliminazione del flusso di dati.

Il flusso di dati in questo esempio illustra come caricare e trasformare i dati in Dataflow Gen2. Contenuto del modulo:

Creare un flusso di dati Gen2.
Trasformare i dati.
Configurare le impostazioni di destinazione per i dati trasformati.
Eseguire e pianificare la pipeline di dati.

Passare all'articolo successivo per informazioni su come creare la prima pipeline di dati.

Guida introduttiva: Creare la prima pipeline di dati per copiare i dati.

Condividi tramite

Guida introduttiva: Creare il primo flusso di dati per ottenere e trasformare i dati

Prerequisiti

Creazione di un flusso di dati

Recupera dati

Applicare trasformazioni e pubblicare

Pulire le risorse

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Guida introduttiva: Creare il primo flusso di dati per ottenere e trasformare i dati

Prerequisiti

Creazione di un flusso di dati

Recupera dati

Applicare trasformazioni e pubblicare

Pulire le risorse

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive