Che cos'è il processo di copia (anteprima) in Data Factory per Microsoft Fabric

Data Factory in Fabric consente agli utenti di integrare facilmente i dati da oltre 100 connettori predefiniti, sia origini che destinazioni, tramite un'interfaccia visivamente intuitiva. L'attività Di copia, che opera all'interno delle pipeline di dati, facilita l'inserimento dei dati. Nel frattempo, Dataflow Gen2 supporta le trasformazioni dei dati e le pipeline orchestrano il flusso di integrazione.

Vantaggi del processo di copia

Anche se l'attività Copy legacy all'interno di pipeline di dati gestisce l'inserimento di dati con operazioni bulk/batch, la creazione di pipeline di dati in Data Factory risulta ancora complessa per molti utenti che non hanno familiarità con il campo, con una curva di apprendimento più ripida. Siamo quindi entusiasti di introdurre il processo di copia, elevando l'esperienza di inserimento dei dati a un processo più semplificato e intuitivo da qualsiasi origine a qualsiasi destinazione. Ora, la copia dei dati è più semplice che mai. Inoltre, il processo di copia supporta diversi stili di recapito dei dati, tra cui copia batch e copia incrementale, offrendo flessibilità per soddisfare esigenze specifiche.

Screenshot che mostra il processo di copia e il relativo riquadro dei risultati.

Alcuni vantaggi del processo di copia rispetto ad altri metodi di spostamento dei dati includono:

  • Esperienza intuitiva: è possibile eseguire la copia dei dati senza compromessi, rendendo più semplice che mai.
  • Efficienza: abilitare la copia incrementale senza sforzo, riducendo l'intervento manuale. Questa efficienza si traduce in meno utilizzo delle risorse e durate di copia più veloci.
  • Flessibilità: controllare le preferenze di copia dei dati. È possibile scegliere quali tabelle e colonne copiare, mappare i dati in base alle esigenze e definire il comportamento per la lettura e la scrittura. Inoltre, è possibile impostare pianificazioni più adatte alle proprie esigenze, sia che si tratti di un'attività occasionale o di un'operazione ricorrente.
  • Prestazioni elevate: una configurazione serverless che consente il trasferimento dei dati con parallelismo su larga scala, ottimizzando la velocità effettiva dello spostamento dei dati per il sistema.

Connettori supportati

Attualmente, è possibile usare il processo di copia per il trasferimento dei dati cloud o la copia di dati da un archivio dati locale tramite gateway. Il processo Copia supporta gli archivi dati seguenti sia come origine che come destinazione:

  • DB di Azure SQL
  • SQL Server locale
  • Warehouse di Fabric
  • Fabric Lakehouse
  • Amazon S3
  • Azure Data Lake Storage Gen2
  • Archiviazione BLOB di Azure
  • Servizi Desktop remoto di Amazon per SQL Server

Il team del prodotto sta esplorando il supporto aggiuntivo del connettore, quindi rimane ottimizzato per gli aggiornamenti.

Comportamento di copia

È possibile scegliere tra gli stili di recapito dei dati seguenti.

  • Modalità di copia completa: ogni processo di copia copia copia tutti i dati dall'origine alla destinazione contemporaneamente.
  • Modalità di copia incrementale: l'esecuzione del processo iniziale copia tutti i dati e il processo successivo esegue solo copie delle modifiche dall'ultima esecuzione. I dati modificati vengono aggiunti all'archivio di destinazione.

È anche possibile scegliere la modalità di scrittura dei dati nell'archivio di destinazione.

Per impostazione predefinita, Copia processo aggiunge i dati alla destinazione, in modo da non perdere la cronologia delle modifiche. Tuttavia, è anche possibile modificare il comportamento di scrittura per eseguire l'upsert o la sovrascrittura.

  • Quando si copiano dati nell'archivio di archiviazione: le nuove righe delle tabelle o dei file vengono copiate in nuovi file nella destinazione. Se un file con lo stesso nome esiste già nell'archivio di destinazione, verrà sovrascritto.
  • Quando si copiano dati nel database: vengono aggiunte nuove righe dalle tabelle o dai file alle tabelle di destinazione. È possibile modificare il comportamento di scrittura in upsert (nel database SQL o IN SQL Server) o sovrascrivere (nelle tabelle Fabric Lakehouse).

Colonna incrementale

In modalità di copia incrementale è necessario selezionare una colonna incrementale per ogni tabella per identificare le modifiche. Copy Job usa questa colonna come filigrana, confrontandone il valore con lo stesso dell'ultima esecuzione per copiare solo i dati nuovi o aggiornati. La colonna incrementale deve essere un timestamp o un INT crescente.

Aree di disponibilità

Il processo di copia ha la stessa disponibilità a livello di area della pipeline.

Prezzi

Il processo di copia usa lo stesso contatore di fatturazione: Spostamento dati, con una tariffa di consumo identica.