aktivita Copy ve službě Azure Data Factory a Azure Synapse Analytics

Článek
11/05/2024

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V kanálech Azure Data Factory a Synapse můžete pomocí aktivita Copy kopírovat data mezi úložišti dat umístěnými místně a v cloudu. Po zkopírování dat můžete pomocí dalších aktivit data data dále transformovat a analyzovat. Pomocí aktivita Copy můžete také publikovat výsledky transformace a analýzy pro business intelligence (BI) a spotřebu aplikací.

Role aktivita Copy

Aktivita Copy se spustí v prostředí Integration Runtime. Pro různé scénáře kopírování dat můžete použít různé typy prostředí Integration Runtime:

Při kopírování dat mezi dvěma úložišti dat, která jsou veřejně přístupná přes internet z jakékoli IP adresy, můžete pro aktivitu kopírování použít prostředí Azure Integration Runtime. Tento prostředí Integration Runtime je zabezpečené, spolehlivé, škálovatelné a globálně dostupné.
Při kopírování dat do a z úložišť dat, která se nacházejí místně nebo v síti s řízením přístupu (například virtuální síť Azure), musíte nastavit místní prostředí Integration Runtime.

Prostředí Integration Runtime musí být přidružené ke každému zdrojovému úložišti dat a úložišti dat jímky. Informace o tom, jak aktivita Copy určuje, které prostředí Integration Runtime se má použít, najdete v tématu Určení, které prostředí IR se má použít.

Poznámka:

Ve stejném aktivita Copy nemůžete použít více než jeden místní prostředí Integration Runtime. Zdroj a jímka aktivity musí být připojené ke stejnému místnímu prostředí Integration Runtime.

Pokud chcete kopírovat data ze zdroje do jímky, služba, která spouští aktivita Copy provádí tyto kroky:

Čte data ze zdrojového úložiště dat.
Provádí serializaci/deserializaci, kompresi/dekompresi, mapování sloupců atd. Provádí tyto operace na základě konfigurace vstupní datové sady, výstupní datové sady a aktivita Copy.
Zapisuje data do úložiště dat jímky nebo cílového úložiště dat.

Přehled aktivit kopírování

Poznámka:

Pokud se místní prostředí Integration Runtime používá ve zdrojovém úložišti dat nebo v úložišti dat jímky v rámci aktivita Copy, musí být zdroj i jímka přístupné ze serveru, který je hostitelem prostředí Integration Runtime, aby byl aktivita Copy úspěšný.

Podporovaná úložiště a formáty dat

Kategorie	Úložiště dat	Podporované jako zdroj	Podporované jako jímka	Podporované prostředím Azure IR	Podporované místním prostředím IR
Azure	Azure Blob Storage	✓	✓	✓	✓
	Index Azure AI Search		✓	✓	✓
	Azure Cosmos DB for NoSQL	✓	✓	✓	✓
	Azure Cosmos DB pro MongoDB	✓	✓	✓	✓
	Azure Data Explorer	✓	✓	✓	✓
	Azure Data Lake Storage Gen1	✓	✓	✓	✓
	Azure Data Lake Storage Gen2	✓	✓	✓	✓
	Azure Database for MariaDB	✓		✓	✓
	Azure Database for MySQL	✓	✓	✓	✓
	Azure Database for PostgreSQL	✓	✓	✓	✓
	Azure Databricks Delta Lake	✓	✓	✓	✓
	Azure Files	✓	✓	✓	✓
	Azure SQL Database	✓	✓	✓	✓
	Spravovaná instance Azure SQL	✓	✓	✓	✓
	Azure Synapse Analytics	✓	✓	✓	✓
	Azure Table storage	✓	✓	✓	✓
Databáze	Amazon RDS pro Oracle	✓		✓	✓
	Amazon RDS pro SQL Server	✓		✓	✓
	Amazon Redshift	✓		✓	✓
	DB2	✓		✓	✓
	Drill	✓		✓	✓
	Google BigQuery	✓		✓	✓
	Greenplum	✓		✓	✓
	HBase	✓		✓	✓
	Hive	✓		✓	✓
	Apache Impala	✓		✓	✓
	Informix	✓	✓		✓
	MariaDB	✓		✓	✓
	Microsoft Access	✓	✓		✓
	MySQL	✓		✓	✓
	Netezza	✓		✓	✓
	Oracle	✓	✓	✓	✓
	Phoenix	✓		✓	✓
	PostgreSQL	✓		✓	✓
	Presto	✓		✓	✓
	SAP Business Warehouse přes Open Hub	✓			✓
	SAP Business Warehouse přes MDX	✓			✓
	SAP HANA	✓	Jímka podporovaná pouze s konektorem ODBC a ovladačem SAP HANA ODBC		✓
	Tabulka SAP	✓			✓
	Snowflake	✓	✓	✓	✓
	Spark	✓		✓	✓
	SQL Server	✓	✓	✓	✓
	Sybase	✓			✓
	Teradata	✓		✓	✓
	Vertica	✓		✓	✓
NoSQL	Cassandra	✓		✓	✓
	Couchbase (Preview)	✓		✓	✓
	MongoDB	✓	✓	✓	✓
	MongoDB Atlas	✓	✓	✓	✓
Soubor	Amazon S3	✓		✓	✓
	Úložiště kompatibilní s Amazon S3	✓		✓	✓
	Systém souborů	✓	✓	✓	✓
	FTP	✓		✓	✓
	Cloudové úložiště Googlu	✓		✓	✓
	HDFS	✓		✓	✓
	Oracle Cloud Storage	✓		✓	✓
	SFTP	✓	✓	✓	✓
Obecný protokol	Obecná rozhraní HTTP	✓		✓	✓
	Obecná OData	✓		✓	✓
	Obecná rozhraní ODBC	✓	✓		✓
	Obecný standard REST	✓	✓	✓	✓
Služby a aplikace	Webová služba Amazon Marketplace (zastaralá)
	Concur (Preview)	✓		✓	✓
	Dataverse	✓	✓	✓	✓
	Dynamics 365	✓	✓	✓	✓
	Dynamics AX	✓		✓	✓
	Dynamics CRM	✓	✓	✓	✓
	Google AdWords	✓		✓	✓
	HubSpot	✓		✓	✓
	Jira	✓		✓	✓
	Magento (Preview)	✓		✓	✓
	Marketo (Preview)	✓		✓	✓
	Microsoft 365	✓		✓	✓
	Oracle Eloqua (Preview)	✓		✓	✓
	Oracle Responsys (Preview)	✓		✓	✓
	Oracle Service Cloud (Preview)	✓		✓	✓
	PayPal (Preview)	✓		✓	✓
	QuickBooks (Preview)	✓		✓	✓
	Salesforce	✓	✓	✓	✓
	Cloud služeb Salesforce	✓	✓	✓	✓
	Salesforce Marketing Cloud	✓		✓	✓
	SAP Cloud for Customer (C4C)	✓	✓	✓	✓
	SAP ECC	✓		✓	✓
	ServiceNow	✓		✓	✓
	Seznam služby SharePoint Online	✓		✓	✓
	Shopify (Preview)	✓		✓	✓
	Square (Preview)	✓		✓	✓
	Webová tabulka (tabulka HTML)	✓			✓
	Xero	✓		✓	✓
	Zoho (Preview)	✓		✓	✓

Poznámka:

Konektory s označením Preview si můžete vyzkoušet a poskytnout nám k nim zpětnou vazbu. Pokud do svého řešení chcete zavést závislost na konektorech ve verzi Preview, kontaktujte podporu Azure.

Podporované formáty souborů

Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

Formát Avro
Binární formát
Formát textu s oddělovači
Formát aplikace Excel
Iceberg format (pouze pro Azure Data Lake Storage Gen2)
Formát JSON
Formát ORC
Formát Parquet
Formát XML

Pomocí aktivita Copy můžete kopírovat soubory tak, jak jsou mezi dvěma souborovými úložišti dat, v takovém případě se data kopírují efektivně bez serializace nebo deserializace. Kromě toho můžete také analyzovat nebo generovat soubory daného formátu, například můžete provést následující:

Zkopírujte data z databáze SQL Serveru a zapište je do Azure Data Lake Storage Gen2 ve formátu Parquet.
Kopírování souborů v textovém formátu (CSV) z místního systému souborů a zápis do úložiště objektů blob v Azure ve formátu Avro
Zkopírujte komprimované soubory z místního systému souborů, dekomprimujte je průběžně a zapisujte extrahované soubory do Azure Data Lake Storage Gen2.
Zkopírujte data ve formátu Gzip s komprimovaným textem (CSV) ze služby Azure Blob Storage a zapište je do služby Azure SQL Database.
Mnoho dalších aktivit, které vyžadují serializaci/deserializaci nebo kompresi/dekompresi.

Podporované oblasti

Služba, která umožňuje aktivita Copy, je dostupná globálně v oblastech a geografických oblastech uvedených v umístěních prostředí Azure Integration Runtime. Globálně dostupná topologie zajišťuje efektivní přesun dat, který obvykle zabraňuje směrování mezi oblastmi. Informace o dostupnosti služby Data Factory, pracovních prostorů Synapse a přesunu dat v konkrétní oblasti najdete v části Produkty podle oblasti .

Konfigurace

K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:

Obecně platí, že pokud chcete použít aktivita Copy v kanálech Azure Data Factory nebo Synapse, musíte:

Vytvořte propojené služby pro zdrojové úložiště dat a úložiště dat jímky. Seznam podporovaných konektorů najdete v části Podporované úložiště dat a formáty tohoto článku. Informace o konfiguraci a podporované vlastnosti najdete v části "Vlastnosti propojené služby" v článku o konektoru.
Vytvořte datové sady pro zdroj a jímku. Informace o konfiguraci a podporované vlastnosti najdete v částech "Vlastnosti datové sady" článků o konektoru zdroje a jímky.
Vytvořte kanál s aktivita Copy. Následující část obsahuje příklad.

Syntaxe

Následující šablona aktivita Copy obsahuje úplný seznam podporovaných vlastností. Zadejte ty, které odpovídají vašemu scénáři.

"activities":[
    {
        "name": "CopyActivityTemplate",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<source dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<sink dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                <properties>
            },
            "sink": {
                "type": "<sink type>"
                <properties>
            },
            "translator":
            {
                "type": "TabularTranslator",
                "columnMappings": "<column mapping>"
            },
            "dataIntegrationUnits": <number>,
            "parallelCopies": <number>,
            "enableStaging": true/false,
            "stagingSettings": {
                <properties>
            },
            "enableSkipIncompatibleRow": true/false,
            "redirectIncompatibleRowSettings": {
                <properties>
            }
        }
    }
]

Podrobnosti o syntaxi

Vlastnost	Popis	Povinné?
type	U aktivita Copy nastavte`Copy`	Ano
vstupy	Zadejte datovou sadu, kterou jste vytvořili, která odkazuje na zdrojová data. Aktivita Copy podporuje pouze jeden vstup.	Ano
výstupy	Zadejte datovou sadu, kterou jste vytvořili, která odkazuje na data jímky. Aktivita Copy podporuje pouze jeden výstup.	Ano
typeProperties	Zadejte vlastnosti pro konfiguraci aktivita Copy.	Ano
zdroj	Zadejte typ zdroje kopírování a odpovídající vlastnosti pro načítání dat. Další informace najdete v části "aktivita Copy vlastnosti" v článku konektoru uvedeného v podporovaných úložištích a formátech dat.	Ano
umyvadlo	Zadejte typ jímky kopírování a odpovídající vlastnosti pro zápis dat. Další informace najdete v části "aktivita Copy vlastnosti" v článku konektoru uvedeného v podporovaných úložištích a formátech dat.	Ano
překladatel	Zadejte explicitní mapování sloupců ze zdroje na jímku. Tato vlastnost platí, když výchozí chování kopírování nevyhovuje vašim potřebám. Další informace naleznete v tématu Mapování schématu v aktivitě kopírování.	No
dataIntegrationUnits	Zadejte míru, která představuje výkon, který prostředí Azure Integration Runtime používá pro kopírování dat. Tyto jednotky se dříve označovaly jako jednotky pro přesun dat v cloudu (DMU). Další informace najdete v tématu Integrace Dat Jednotky.	No
parallelCopies	Zadejte paralelismus, který má aktivita Copy použít při čtení dat ze zdroje a zápisu dat do jímky. Další informace naleznete v tématu Paralelní kopírování.	No
udržovat	Určete, jestli se mají během kopírování dat zachovat metadata nebo seznamy ACL. Další informace najdete v tématu Zachování metadat.	No
enableStaging stagingSettings	Určete, jestli se mají zfázovat dočasná data v úložišti objektů blob místo přímé kopírování dat ze zdroje do jímky. Informace o užitečných scénářích a podrobnostech konfigurace najdete v tématu Fázovaná kopie.	No
enableSkipIncompatibleRow redirectIncompatibleRowSettings	Zvolte způsob zpracování nekompatibilních řádků při kopírování dat ze zdroje do jímky. Další informace naleznete v tématu Odolnost proti chybám.	No

Sledování

Aktivita Copy spuštěné v kanálech Azure Data Factory a Synapse můžete monitorovat vizuálně i programově. Podrobnosti najdete v tématu Monitorování aktivity kopírování.

Přírůstková kopie

Kanály Data Factory a Synapse umožňují přírůstkově kopírovat rozdílová data ze zdrojového úložiště dat do úložiště dat jímky. Podrobnosti najdete v kurzu : Přírůstkové kopírování dat.

Výkon a ladění

Prostředí pro monitorování aktivit kopírování ukazuje statistiky výkonu kopírování pro každou z vašich aktivit. Průvodce výkonem a škálovatelností aktivita Copy popisuje klíčové faktory, které ovlivňují výkon přesunu dat prostřednictvím aktivita Copy. Uvádí také hodnoty výkonu pozorované během testování a popisuje, jak optimalizovat výkon aktivita Copy.

Obnovení z posledního neúspěšného spuštění

aktivita Copy podporuje obnovení z posledního neúspěšného spuštění, když kopírujete velké soubory v binárním formátu mezi úložišti založenými na souborech a zvolíte zachování hierarchie složek a souborů ze zdroje do jímky, například při migraci dat z AmazonU S3 do Azure Data Lake Storage Gen2. Platí pro následující konektory založené na souborech: Amazon S3, Amazon S3 Compatible Storage Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage a SFTP.

Životopis aktivity kopírování můžete využít následujícími dvěma způsoby:

Opakování na úrovni aktivity: Počet opakování můžete nastavit u aktivity kopírování. Pokud se tato aktivita kopírování během provádění kanálu nezdaří, spustí se další automatické opakování z bodu selhání poslední zkušební verze.
Opětovné spuštění z neúspěšné aktivity: Po dokončení spuštění kanálu můžete také aktivovat opětovné spuštění z neúspěšné aktivity v zobrazení monitorování uživatelského rozhraní ADF nebo programově. Pokud je neúspěšná aktivita aktivitou kopírování, kanál se z této aktivity znovu spustí, ale také obnoví z bodu selhání předchozího spuštění.

Několik bodů k poznámce:

Obnovení probíhá na úrovni souboru. Pokud aktivita kopírování selže při kopírování souboru, v dalším spuštění se tento konkrétní soubor znovu zkopíruje.
Aby obnovení fungovalo správně, neměňte nastavení aktivity kopírování mezi opakovaným spuštěním.
Při kopírování dat z Amazon S3, Azure Blob, Azure Data Lake Storage Gen2 a Google Cloud Storage může aktivita kopírování pokračovat z libovolného počtu zkopírovaných souborů. Zatímco u zbývajících konektorů založených na souborech jako zdroje aktuálně aktivita kopírování podporuje obnovení z omezeného počtu souborů, obvykle v rozsahu desítek tisíc a liší se v závislosti na délce cest k souborům; soubory nad rámec tohoto čísla se během opětovného spuštění znovu zkopírují.

V případě jiných scénářů než kopírování binárních souborů se aktivita kopírování spustí znovu od začátku.

Poznámka:

Obnovení z posledního neúspěšného spuštění prostřednictvím místního prostředí Integration Runtime se teď podporuje pouze v místním prostředí Integration Runtime verze 5.43.8935.2 nebo novější.

Zachování metadat spolu s daty

Při kopírování dat ze zdroje do jímky můžete ve scénářích, jako je migrace data Lake, zachovat metadata a seznamy ACL spolu s daty pomocí aktivity kopírování. Podrobnosti najdete v tématu Zachování metadat.

Přidání značek metadat do jímky založené na souborech

Když je jímka založená na službě Azure Storage (Azure Data Lake Storage nebo Azure Blob Storage), můžeme se rozhodnout přidat do souborů určitá metadata. Tato metadata se zobrazí jako součást vlastností souboru jako páry klíč-hodnota. Pro všechny typy jímek založených na souborech můžete přidat metadata zahrnující dynamický obsah pomocí parametrů kanálu, systémových proměnných, funkcí a proměnných. Kromě toho máte pro datovou jímku založenou na binárních souborech možnost přidat datum a čas poslední změny (zdrojového souboru) pomocí klíčového slova $$LASTMODIFIED a také vlastní hodnoty jako metadata do souboru jímky.

Mapování schématu a datového typu

Informace o tom, jak aktivita Copy mapuje zdrojová data na jímku, najdete v mapování schématu a datového typu.

Přidání dalších sloupců během kopírování

Kromě kopírování dat ze zdrojového úložiště dat do jímky můžete také nakonfigurovat přidání dalších datových sloupců pro kopírování do jímky. Příklad:

Při kopírování ze zdroje založeného na souboru uložte relativní cestu k souboru jako další sloupec pro trasování, ze kterého souboru data pocházejí.
Duplikujte zadaný zdrojový sloupec jako jiný sloupec.
Přidejte sloupec s výrazem ADF pro připojení systémových proměnných ADF, jako je název kanálu nebo ID kanálu, nebo uložte jinou dynamickou hodnotu z výstupu nadřazené aktivity.
Přidejte sloupec se statickou hodnotou, aby vyhovoval vašim potřebám podřízené spotřeby.

Následující konfiguraci najdete na kartě zdroje aktivity kopírování. Tyto další sloupce v mapování schématu aktivity kopírování můžete také namapovat obvyklým způsobem pomocí definovaných názvů sloupců.

Přidání dalších sloupců v aktivitě kopírování

Tip

Tato funkce funguje s nejnovějším modelem datové sady. Pokud tuto možnost v uživatelském rozhraní nevidíte, zkuste vytvořit novou datovou sadu.

Pokud ho chcete nakonfigurovat programově, přidejte additionalColumns vlastnost do zdroje aktivity kopírování:

Vlastnost	Popis	Povinní účastníci
additionalColumns	Přidejte další datové sloupce pro kopírování do jímky. Každý objekt pod `additionalColumns` polem představuje další sloupec. Definuje `name` název sloupce a `value` označuje hodnotu dat daného sloupce. Povolené datové hodnoty jsou: - `$$FILEPATH` – Rezervovaná proměnná označuje, že se má uložit relativní cesta zdrojových souborů k cestě ke složce zadané v datové sadě. Platí pro zdroj založený na souborech. - `$$COLUMN:<source_column_name>` – vzor rezervované proměnné označuje duplikování zadaného zdrojového sloupce jako jiného sloupce. - Expression - Statická hodnota	No

Příklad:

"activities":[
    {
        "name": "CopyWithAdditionalColumns",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                "additionalColumns": [
                    {
                        "name": "filePath",
                        "value": "$$FILEPATH"
                    },
                    {
                        "name": "newColName",
                        "value": "$$COLUMN:SourceColumnA"
                    },
                    {
                        "name": "pipelineName",
                        "value": {
                            "value": "@pipeline().Pipeline",
                            "type": "Expression"
                        }
                    },
                    {
                        "name": "staticValue",
                        "value": "sampleValue"
                    }
                ],
                ...
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Tip

Po nakonfigurování dalších sloupců nezapomeňte je namapovat na cílovou jímku na kartě Mapování.

Automatické vytváření tabulek jímky

Pokud data kopírujete do databáze SQL nebo Azure Synapse Analytics, aktivita kopírování ji automaticky vytváří na základě zdrojových dat. Cílem je pomoct vám rychle začít načítat data a vyhodnocovat databáze SQL nebo Azure Synapse Analytics. Po příjmu dat můžete schéma tabulky jímky zkontrolovat a upravit podle svých potřeb.

Tato funkce se podporuje při kopírování dat z libovolného zdroje do následujících úložišť dat jímky. Možnost najdete v uživatelském rozhraní pro vytváření ADF ->aktivita Copy jímce ->Table option ->Auto create table nebo prostřednictvím tableOption vlastnosti v datové části jímky aktivity kopírování.

Vytvoření tabulek jímky

Odolnost proti chybám

Ve výchozím nastavení aktivita Copy zastaví kopírování dat a vrátí chybu, pokud jsou řádky zdrojových dat nekompatibilní s řádky dat jímky. Pokud chcete, aby kopírování proběhlo úspěšně, můžete nakonfigurovat aktivita Copy tak, aby přeskočí nekompatibilní řádky a zkopírovala jenom kompatibilní data. Podrobnosti najdete v tématu aktivita Copy odolnost proti chybám.

Ověření konzistence dat

Při přesunu dat ze zdroje do cílového úložiště poskytuje aktivita kopírování možnost provést další ověření konzistence dat, aby se zajistilo, že se data nejen úspěšně zkopírují ze zdroje do cílového úložiště, ale také ověří, že jsou konzistentní mezi zdrojovým a cílovým úložištěm. Po nalezení nekonzistentních souborů během přesunu dat můžete buď přerušit aktivitu kopírování, nebo pokračovat ve kopírování zbytku tím, že povolíte nastavení odolnosti proti chybám a přeskočí nekonzistentní soubory. Přeskočené názvy souborů můžete získat povolením nastavení protokolu relace v aktivitě kopírování. Podrobnosti najdete v tématu Ověření konzistence dat v aktivitě kopírování.

Protokol relací

Můžete protokolovat zkopírované názvy souborů, které vám pomůžou dále zajistit, aby se data nejen úspěšně zkopírovala ze zdroje do cílového úložiště, ale také konzistentně mezi zdrojovým a cílovým úložištěm kontrolou protokolů relace aktivit kopírování. Podrobnosti najdete v části Aktivita kopírování přihlášení k relaci.

Projděte si následující rychlé starty, kurzy a ukázky:

Sdílet prostřednictvím

aktivita Copy ve službě Azure Data Factory a Azure Synapse Analytics