Novità e pianificazione di Data Factory in Microsoft Fabric
Importante
I piani di versione descrivono le funzionalità che potrebbero essere state rilasciate o meno. Le sequenze temporali di consegna e le funzionalità proiettate possono cambiare o non essere spedite. Per altre informazioni, vedere Criteri Microsoft.
Data Factory in Microsoft Fabric combina l'integrazione dei dati cittadini e le funzionalità di integrazione dei dati pro in un'unica esperienza di integrazione dei dati moderna. Offre connettività a più di 100 database relazionali e non relazionali, lakehouse, data warehouse, interfacce generiche come API REST, OData e altro ancora.
Flussi di dati: Dataflow Gen2 consente di eseguire trasformazioni di dati su larga scala e supporta varie destinazioni di output che scrivono in database SQL di Azure, Lakehouse, Data Warehouse e altro ancora. L'editor di flussi di dati offre più di 300 trasformazioni, incluse le opzioni basate su intelligenza artificiale, e consente di trasformare facilmente i dati con maggiore flessibilità rispetto a qualsiasi altro strumento. Indipendentemente dal fatto che si estraggano dati da un'origine dati non strutturata, ad esempio una pagina Web o si rimodelli una tabella esistente nell'editor di Power Query, è possibile applicare facilmente l'estrazione dei dati di Power Query in base all'esempio, che usa l'intelligenza artificiale e semplifica il processo.
Pipeline di dati: le pipeline di dati offrono la possibilità di creare flussi di lavoro versatili di orchestrazione dei dati che raggruppano attività come l'estrazione dei dati, il caricamento in archivi dati preferiti, l'esecuzione di notebook, l'esecuzione di script SQL e altro ancora. È possibile creare rapidamente pipeline di dati basate sui metadati che automatizzano attività ripetitive. Ad esempio, il caricamento e l'estrazione di dati da tabelle diverse in un database, l'iterazione di più contenitori in Archiviazione BLOB di Azure e altro ancora. Inoltre, con le pipeline di dati, è possibile accedere ai dati da Microsoft 365, usando il connettore Microsoft Graph Data Connection (MGDC).
Per altre informazioni, vedere la documentazione.
Aree di investimento
Nei prossimi mesi, Data Factory in Microsoft Fabric espanderà le opzioni di connettività e continuerà ad aggiungere alla ricca libreria di trasformazioni e attività della pipeline di dati. Consente inoltre di eseguire la replica dei dati in tempo reale e ad alte prestazioni dai database operativi e di inserire questi dati nel lake per l'analisi.
Supporto della pipeline di dati per DBT
Sequenza temporale di rilascio stimata: Q1 2024
Tipo di versione: anteprima pubblica
Orchestrazione dell'interfaccia della riga di comando di DBT (Strumento di compilazione dei dati): incorpora lo strumento di compilazione dei dati (dbt) per i flussi di lavoro di trasformazione dei dati.
Supporto di Copia rapida in Dataflow Gen2
Sequenza temporale di rilascio stimata: Q3 2024
Tipo di versione: disponibilità generale
È in corso l'aggiunta del supporto per l'inserimento di dati su larga scala direttamente nell'esperienza Dataflow Gen2, usando la funzionalità attività di copia delle pipeline. Questo miglioramento aumenta significativamente la capacità di elaborazione dati di Dataflow Gen2 offrendo funzionalità ELT (Extract-Load-Transform) a scalabilità elevata.
Gestione delle identità dell'origine dati (identità gestita)
Sequenza temporale di rilascio stimata: Q3 2024
Tipo di versione: anteprima pubblica
Ciò consente di configurare l'identità gestita a livello di area di lavoro. È possibile usare le identità gestite di Fabric per connettersi all'origine dati in modo sicuro.
Integrazione Git di Data Factory per i flussi di dati
Sequenza temporale di rilascio stimata: Q4 2024
Tipo di versione: anteprima pubblica
È possibile connettersi a un repository Git e sviluppare i flussi di dati. Questa funzionalità consente l'integrazione con il controllo della versione e offre commit e richieste pull.
Copilot per Data Factory (pipeline di dati)
Sequenza temporale di rilascio stimata: Q4 2024
Tipo di versione: anteprima pubblica
Copilot per Data Factory (pipeline di dati) consente ai clienti di creare pipeline di dati usando il linguaggio naturale e fornisce indicazioni per la risoluzione dei problemi.
Funzionalità spedite
Supporto del gateway dati locale (OPDG) aggiunto alle pipeline di dati
Spedito (Q3 2024)
Tipo di versione: disponibilità generale
Questa funzionalità consente alle pipeline di dati di usare i gateway dati di Fabric per accedere ai dati locali e dietro una rete virtuale. Per gli utenti che usano runtime di integrazione self-hosted , potranno passare ai gateway dati locali in Fabric.
Supporto per richiamare pipeline di dati tra aree di lavoro
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
Richiamare l'aggiornamento dell'attività Pipelines: vengono abilitati alcuni aggiornamenti nuovi ed interessanti per l'attività Invoke Pipeline. In risposta a richieste di clienti e community inconsapevolanti, è possibile eseguire pipeline di dati tra aree di lavoro. Sarà ora possibile richiamare le pipeline da altre aree di lavoro a cui si ha accesso per l'esecuzione. Ciò consentirà modelli di flusso di lavoro di dati molto interessanti che possono usare la collaborazione dei team di progettazione dei dati e integrazione tra aree di lavoro e tra team funzionali.
Azure Data Factory in Fabric
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
Portare l'istanza di Azure Data Factory (ADF) esistente nell'area di lavoro di Fabric. Si tratta di una nuova funzionalità di anteprima che consente di connettersi alle factory di Azure Data Factory esistenti dall'area di lavoro infrastruttura.
Sarà ora possibile gestire completamente le factory di Azure Data Factory direttamente dall'interfaccia utente dell'area di lavoro infrastruttura. Dopo che ADF è collegato all'area di lavoro infrastruttura, sarà possibile attivare, eseguire e monitorare le pipeline come avviene in Azure Data Factory, ma direttamente all'interno di Fabric.
Supporto dell'aggiornamento incrementale in Dataflow Gen2
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
Verrà aggiunto il supporto per l'aggiornamento incrementale in Dataflow Gen2. Questa funzionalità consente di estrarre in modo incrementale i dati dalle origini dati, applicare trasformazioni di Power Query e caricare in varie destinazioni di output.
Supporto della pipeline di dati per i processi di Azure Databricks
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
Le attività di Azure Databricks vengono aggiornate per l'aggiornamento delle pipeline di dati di Data Factory per usare ora l'API dei processi più recente, consentendo funzionalità interessanti del flusso di lavoro, ad esempio l'esecuzione di processi DLT.
Notifiche di posta elettronica migliorate per gli errori di aggiornamento
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
Le notifiche di posta elettronica consentono agli autori di Dataflow Gen2 di monitorare i risultati (esito positivo/negativo) dell'operazione di aggiornamento di un flusso di dati.
Copia processo
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
Il processo di copia semplifica l'esperienza per i clienti che devono inserire dati, senza dover creare un flusso di dati o una pipeline di dati. Il processo di copia supporta la copia completa e incrementale da qualsiasi origine dati a qualsiasi destinazioni dati. Iscriversi ora all'anteprima privata.
Copilot per Data Factory (flusso di dati)
Spedito (Q3 2024)
Tipo di versione: disponibilità generale
Copilot per Data Factory (Flusso di dati) consente ai clienti di esprimere i propri requisiti usando il linguaggio naturale durante la creazione di soluzioni di integrazione dei dati con Dataflows Gen2.
Impostazioni predefinite di staging per la destinazione output di Dataflow Gen 2
Spedito (Q2 2 2024)
Tipo di versione: anteprima pubblica
Dataflow Gen2 offre funzionalità per l'inserimento di dati da un'ampia gamma di origini dati in Fabric OneLake. Quando si esegue lo staging di questi dati, è possibile trasformarli su larga scala sfruttando il motore Dataflows Gen2 a scalabilità elevata (basato sul calcolo SQL Fabric Lakehouse/Warehouse).
Il comportamento predefinito per Dataflows Gen2 consiste nell'eseguire il staging dei dati in OneLake per abilitare trasformazioni dei dati su larga scala. Anche se questa soluzione è ideale per gli scenari su larga scala, non funziona anche per gli scenari che coinvolgono piccole quantità di dati inseriti, dato che introduce un hop aggiuntivo (staging) per i dati prima che vengano caricati nella destinazione di output del flusso di dati.
Con i miglioramenti pianificati, si sta ottimizzando il comportamento di gestione temporanea predefinito da disabilitare, per le query con una destinazione di output che non richiede la gestione temporanea (vale a dire Fabric Lakehouse e database SQL di Azure).
Il comportamento di gestione temporanea può essere configurato manualmente in base alle query tramite il riquadro Impostazioni query o il menu contestuale query nel riquadro Query.
Supporto della pipeline di dati per i trigger basati su eventi
Spedito (Q2 2 2024)
Tipo di versione: anteprima pubblica
Un caso d'uso comune per richiamare le pipeline di dati di Data Factory consiste nell'attivare la pipeline in caso di eventi di file come l'arrivo e l'eliminazione di file. Per i clienti provenienti da ADF o Synapse a Fabric, l'uso di eventi di archiviazione ADLS/Blog è molto comune come modo per segnalare una nuova esecuzione della pipeline o per acquisire i nomi dei file creati. I trigger in Fabric Data Factory sfruttano le funzionalità della piattaforma Fabric, inclusi i trigger EventStreams e Reflex. All'interno dell'area di disegno della pipeline di Fabric Data Factory è disponibile un pulsante Trigger che è possibile premere per creare un trigger Reflex per la pipeline oppure creare il trigger direttamente dall'esperienza Data Activator.
Supporto della pipeline di dati per SparkJobDefinition
Spedito (Q2 2 2024)
Tipo di versione: disponibilità generale
È ora possibile eseguire il codice Spark, inclusi i file JAR, direttamente da un'attività della pipeline. È sufficiente puntare al codice Spark e la pipeline eseguirà il processo nel cluster Spark in Fabric. Questa nuova attività consente modelli interessanti del flusso di lavoro dei dati che sfruttano la potenza del motore Spark di Fabric, includendo anche il flusso di controllo di Data Factory e le funzionalità del flusso di dati nella stessa pipeline dei processi Spark.
Supporto della pipeline di dati per Azure HDInsight
Spedito (Q2 2 2024)
Tipo di versione: disponibilità generale
HDInsight è il servizio PaaS di Azure per Hadoop che consente agli sviluppatori di creare soluzioni Big Data molto potenti nel cloud. La nuova attività della pipeline HDI abiliterà le attività del processo HDInsights all'interno delle pipeline di dati di Data Factory in modo simile alla funcationalità esistente creata per anni nelle pipeline di Azure Data Factory e Synapse. Questa funzionalità è stata ora portata direttamente nelle pipeline di dati di Fabric.
Nuovi connettori per l'attività di copia
Spedito (Q2 2 2024)
Tipo di versione: anteprima pubblica
Verranno aggiunti nuovi connettori per attività Copy per consentire ai clienti di inserire dalle origini seguenti, sfruttando al tempo stesso la pipeline di dati: Oracle, MySQL, Ricerca di intelligenza artificiale di Azure, File di Azure, Dynamics AX, Google BigQuery.
Processo Apache Airflow: creare pipeline di dati basate su Apache Airflow
Spedito (Q2 2 2024)
Tipo di versione: anteprima pubblica
Il processo Apache Airflow (detto in precedenza Flussi di lavoro di dati) è basato su Apache Airflow e offre un ambiente di runtime Apache Airflow integrato, consentendo di creare, eseguire e pianificare facilmente i dag Python.
Gestione delle identità dell'origine dati (SPN)
Spedito (Q2 2 2024)
Tipo di versione: disponibilità generale
Entità servizio: per accedere alle risorse protette da un tenant di Azure AD, l'entità che richiede l'accesso deve essere rappresentata da un'entità di sicurezza. Sarà possibile connettersi alle origini dati con l'entità servizio.
Miglioramenti dell'esperienza dati (Esplorare le risorse di Azure)
Spedito (Q1 2024)
Tipo di versione: anteprima pubblica
L'esplorazione delle risorse di Azure offre una navigazione semplice per esplorare le risorse di Azure. È possibile esplorare facilmente le sottoscrizioni di Azure e connettersi alle origini dati tramite un'interfaccia utente intuitiva. Consente di trovare e connettersi rapidamente ai dati necessari.
Supporto del gateway dati locale (OPDG) aggiunto alle pipeline di dati
Spedito (Q1 2024)
Tipo di versione: anteprima pubblica
Questa funzionalità consente alle pipeline di dati di usare i gateway dati di Fabric per accedere ai dati locali e dietro una rete virtuale. Per gli utenti che usano runtime di integrazione self-hosted , potranno passare ai gateway dati locali in Fabric.
Integrazione Git di Data Factory per le pipeline di dati
Spedito (Q1 2024)
Tipo di versione: anteprima pubblica
È possibile connettersi al repository Git per sviluppare pipeline di dati in modo collaborativo. L'integrazione delle pipeline di dati con la funzionalità Application Lifecycle Management (ALM) della piattaforma Fabric consente il controllo della versione, la diramazione, i commit e le richieste pull della piattaforma Fabric.
Miglioramenti alle destinazioni di output in Dataflow Gen2 (schema di query)
Spedito (Q1 2024)
Tipo di versione: anteprima pubblica
Stiamo migliorando le destinazioni di output in Dataflow Gen2 con le funzionalità altamente richieste seguenti:
- Possibilità di gestire le modifiche dello schema di query dopo la configurazione di una destinazione di output.
- Impostazioni di destinazione predefinite per accelerare la creazione dei flussi di dati.
Per altre informazioni, vedere Destinazioni dati e impostazioni gestite di Dataflow Gen2
Supporto di Copia rapida in Dataflow Gen2
Spedito (Q1 2024)
Tipo di versione: anteprima pubblica
È in corso l'aggiunta del supporto per l'inserimento di dati su larga scala direttamente nell'esperienza Dataflow Gen2, usando la funzionalità attività di copia delle pipeline. In questo modo sono supportate origini quali database SQL di Azure, file CSV e Parquet in Azure Data Lake Storage e archiviazione BLOB.
Questo miglioramento aumenta significativamente la capacità di elaborazione dati di Dataflow Gen2 offrendo funzionalità ELT (Extract-Load-Transform) a scalabilità elevata.
Annullare il supporto per l'aggiornamento in Dataflow Gen2
Spedito (Q4 2023)
Tipo di versione: anteprima pubblica
È in corso l'aggiunta del supporto per annullare gli aggiornamenti continui di Dataflow Gen2 dalla visualizzazione elementi dell'area di lavoro.