aktivita Copy ve službě Azure Data Factory a Azure Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
V kanálech Azure Data Factory a Synapse můžete pomocí aktivita Copy kopírovat data mezi úložišti dat umístěnými místně a v cloudu. Po zkopírování dat můžete pomocí dalších aktivit data data dále transformovat a analyzovat. Pomocí aktivita Copy můžete také publikovat výsledky transformace a analýzy pro business intelligence (BI) a spotřebu aplikací.
Aktivita Copy se spustí v prostředí Integration Runtime. Pro různé scénáře kopírování dat můžete použít různé typy prostředí Integration Runtime:
- Při kopírování dat mezi dvěma úložišti dat, která jsou veřejně přístupná přes internet z jakékoli IP adresy, můžete pro aktivitu kopírování použít prostředí Azure Integration Runtime. Tento prostředí Integration Runtime je zabezpečené, spolehlivé, škálovatelné a globálně dostupné.
- Při kopírování dat do a z úložišť dat, která se nacházejí místně nebo v síti s řízením přístupu (například virtuální síť Azure), musíte nastavit místní prostředí Integration Runtime.
Prostředí Integration Runtime musí být přidružené ke každému zdrojovému úložišti dat a úložišti dat jímky. Informace o tom, jak aktivita Copy určuje, které prostředí Integration Runtime se má použít, najdete v tématu Určení, které prostředí IR se má použít.
Poznámka:
Ve stejném aktivita Copy nemůžete použít více než jeden místní prostředí Integration Runtime. Zdroj a jímka aktivity musí být připojené ke stejnému místnímu prostředí Integration Runtime.
Pokud chcete kopírovat data ze zdroje do jímky, služba, která spouští aktivita Copy provádí tyto kroky:
- Čte data ze zdrojového úložiště dat.
- Provádí serializaci/deserializaci, kompresi/dekompresi, mapování sloupců atd. Provádí tyto operace na základě konfigurace vstupní datové sady, výstupní datové sady a aktivita Copy.
- Zapisuje data do úložiště dat jímky nebo cílového úložiště dat.
Poznámka:
Pokud se místní prostředí Integration Runtime používá ve zdrojovém úložišti dat nebo v úložišti dat jímky v rámci aktivita Copy, musí být zdroj i jímka přístupné ze serveru, který je hostitelem prostředí Integration Runtime, aby byl aktivita Copy úspěšný.
Podporovaná úložiště a formáty dat
Poznámka:
Konektory s označením Preview si můžete vyzkoušet a poskytnout nám k nim zpětnou vazbu. Pokud do svého řešení chcete zavést závislost na konektorech ve verzi Preview, kontaktujte podporu Azure.
Podporované formáty souborů
Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
- Formát Avro
- Binární formát
- Formát textu s oddělovači
- Formát aplikace Excel
- Iceberg format (pouze pro Azure Data Lake Storage Gen2)
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Pomocí aktivita Copy můžete kopírovat soubory tak, jak jsou mezi dvěma souborovými úložišti dat, v takovém případě se data kopírují efektivně bez serializace nebo deserializace. Kromě toho můžete také analyzovat nebo generovat soubory daného formátu, například můžete provést následující:
- Zkopírujte data z databáze SQL Serveru a zapište je do Azure Data Lake Storage Gen2 ve formátu Parquet.
- Kopírování souborů v textovém formátu (CSV) z místního systému souborů a zápis do úložiště objektů blob v Azure ve formátu Avro
- Zkopírujte komprimované soubory z místního systému souborů, dekomprimujte je průběžně a zapisujte extrahované soubory do Azure Data Lake Storage Gen2.
- Zkopírujte data ve formátu Gzip s komprimovaným textem (CSV) ze služby Azure Blob Storage a zapište je do služby Azure SQL Database.
- Mnoho dalších aktivit, které vyžadují serializaci/deserializaci nebo kompresi/dekompresi.
Podporované oblasti
Služba, která umožňuje aktivita Copy, je dostupná globálně v oblastech a geografických oblastech uvedených v umístěních prostředí Azure Integration Runtime. Globálně dostupná topologie zajišťuje efektivní přesun dat, který obvykle zabraňuje směrování mezi oblastmi. Informace o dostupnosti služby Data Factory, pracovních prostorů Synapse a přesunu dat v konkrétní oblasti najdete v části Produkty podle oblasti .
Konfigurace
K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:
- Nástroj pro kopírování dat
- Azure Portal
- Sada .NET SDK
- Sada Python SDK
- Azure PowerShell
- Rozhraní REST API
- Šablona Azure Resource Manageru
Obecně platí, že pokud chcete použít aktivita Copy v kanálech Azure Data Factory nebo Synapse, musíte:
- Vytvořte propojené služby pro zdrojové úložiště dat a úložiště dat jímky. Seznam podporovaných konektorů najdete v části Podporované úložiště dat a formáty tohoto článku. Informace o konfiguraci a podporované vlastnosti najdete v části "Vlastnosti propojené služby" v článku o konektoru.
- Vytvořte datové sady pro zdroj a jímku. Informace o konfiguraci a podporované vlastnosti najdete v částech "Vlastnosti datové sady" článků o konektoru zdroje a jímky.
- Vytvořte kanál s aktivita Copy. Následující část obsahuje příklad.
Syntaxe
Následující šablona aktivita Copy obsahuje úplný seznam podporovaných vlastností. Zadejte ty, které odpovídají vašemu scénáři.
"activities":[
{
"name": "CopyActivityTemplate",
"type": "Copy",
"inputs": [
{
"referenceName": "<source dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<sink dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>",
<properties>
},
"sink": {
"type": "<sink type>"
<properties>
},
"translator":
{
"type": "TabularTranslator",
"columnMappings": "<column mapping>"
},
"dataIntegrationUnits": <number>,
"parallelCopies": <number>,
"enableStaging": true/false,
"stagingSettings": {
<properties>
},
"enableSkipIncompatibleRow": true/false,
"redirectIncompatibleRowSettings": {
<properties>
}
}
}
]
Podrobnosti o syntaxi
Vlastnost | Popis | Povinné? |
---|---|---|
type | U aktivita Copy nastavteCopy |
Ano |
vstupy | Zadejte datovou sadu, kterou jste vytvořili, která odkazuje na zdrojová data. Aktivita Copy podporuje pouze jeden vstup. | Ano |
výstupy | Zadejte datovou sadu, kterou jste vytvořili, která odkazuje na data jímky. Aktivita Copy podporuje pouze jeden výstup. | Ano |
typeProperties | Zadejte vlastnosti pro konfiguraci aktivita Copy. | Ano |
zdroj | Zadejte typ zdroje kopírování a odpovídající vlastnosti pro načítání dat. Další informace najdete v části "aktivita Copy vlastnosti" v článku konektoru uvedeného v podporovaných úložištích a formátech dat. |
Ano |
umyvadlo | Zadejte typ jímky kopírování a odpovídající vlastnosti pro zápis dat. Další informace najdete v části "aktivita Copy vlastnosti" v článku konektoru uvedeného v podporovaných úložištích a formátech dat. |
Ano |
překladatel | Zadejte explicitní mapování sloupců ze zdroje na jímku. Tato vlastnost platí, když výchozí chování kopírování nevyhovuje vašim potřebám. Další informace naleznete v tématu Mapování schématu v aktivitě kopírování. |
No |
dataIntegrationUnits | Zadejte míru, která představuje výkon, který prostředí Azure Integration Runtime používá pro kopírování dat. Tyto jednotky se dříve označovaly jako jednotky pro přesun dat v cloudu (DMU). Další informace najdete v tématu Integrace Dat Jednotky. |
No |
parallelCopies | Zadejte paralelismus, který má aktivita Copy použít při čtení dat ze zdroje a zápisu dat do jímky. Další informace naleznete v tématu Paralelní kopírování. |
No |
udržovat | Určete, jestli se mají během kopírování dat zachovat metadata nebo seznamy ACL. Další informace najdete v tématu Zachování metadat. |
No |
enableStaging stagingSettings |
Určete, jestli se mají zfázovat dočasná data v úložišti objektů blob místo přímé kopírování dat ze zdroje do jímky. Informace o užitečných scénářích a podrobnostech konfigurace najdete v tématu Fázovaná kopie. |
No |
enableSkipIncompatibleRow redirectIncompatibleRowSettings |
Zvolte způsob zpracování nekompatibilních řádků při kopírování dat ze zdroje do jímky. Další informace naleznete v tématu Odolnost proti chybám. |
No |
Sledování
Aktivita Copy spuštěné v kanálech Azure Data Factory a Synapse můžete monitorovat vizuálně i programově. Podrobnosti najdete v tématu Monitorování aktivity kopírování.
Přírůstková kopie
Kanály Data Factory a Synapse umožňují přírůstkově kopírovat rozdílová data ze zdrojového úložiště dat do úložiště dat jímky. Podrobnosti najdete v kurzu : Přírůstkové kopírování dat.
Výkon a ladění
Prostředí pro monitorování aktivit kopírování ukazuje statistiky výkonu kopírování pro každou z vašich aktivit. Průvodce výkonem a škálovatelností aktivita Copy popisuje klíčové faktory, které ovlivňují výkon přesunu dat prostřednictvím aktivita Copy. Uvádí také hodnoty výkonu pozorované během testování a popisuje, jak optimalizovat výkon aktivita Copy.
Obnovení z posledního neúspěšného spuštění
aktivita Copy podporuje obnovení z posledního neúspěšného spuštění, když kopírujete velké soubory v binárním formátu mezi úložišti založenými na souborech a zvolíte zachování hierarchie složek a souborů ze zdroje do jímky, například při migraci dat z AmazonU S3 do Azure Data Lake Storage Gen2. Platí pro následující konektory založené na souborech: Amazon S3, Amazon S3 Compatible Storage Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage a SFTP.
Životopis aktivity kopírování můžete využít následujícími dvěma způsoby:
Opakování na úrovni aktivity: Počet opakování můžete nastavit u aktivity kopírování. Pokud se tato aktivita kopírování během provádění kanálu nezdaří, spustí se další automatické opakování z bodu selhání poslední zkušební verze.
Opětovné spuštění z neúspěšné aktivity: Po dokončení spuštění kanálu můžete také aktivovat opětovné spuštění z neúspěšné aktivity v zobrazení monitorování uživatelského rozhraní ADF nebo programově. Pokud je neúspěšná aktivita aktivitou kopírování, kanál se z této aktivity znovu spustí, ale také obnoví z bodu selhání předchozího spuštění.
Několik bodů k poznámce:
- Obnovení probíhá na úrovni souboru. Pokud aktivita kopírování selže při kopírování souboru, v dalším spuštění se tento konkrétní soubor znovu zkopíruje.
- Aby obnovení fungovalo správně, neměňte nastavení aktivity kopírování mezi opakovaným spuštěním.
- Při kopírování dat z Amazon S3, Azure Blob, Azure Data Lake Storage Gen2 a Google Cloud Storage může aktivita kopírování pokračovat z libovolného počtu zkopírovaných souborů. Zatímco u zbývajících konektorů založených na souborech jako zdroje aktuálně aktivita kopírování podporuje obnovení z omezeného počtu souborů, obvykle v rozsahu desítek tisíc a liší se v závislosti na délce cest k souborům; soubory nad rámec tohoto čísla se během opětovného spuštění znovu zkopírují.
V případě jiných scénářů než kopírování binárních souborů se aktivita kopírování spustí znovu od začátku.
Poznámka:
Obnovení z posledního neúspěšného spuštění prostřednictvím místního prostředí Integration Runtime se teď podporuje pouze v místním prostředí Integration Runtime verze 5.43.8935.2 nebo novější.
Zachování metadat spolu s daty
Při kopírování dat ze zdroje do jímky můžete ve scénářích, jako je migrace data Lake, zachovat metadata a seznamy ACL spolu s daty pomocí aktivity kopírování. Podrobnosti najdete v tématu Zachování metadat.
Přidání značek metadat do jímky založené na souborech
Když je jímka založená na službě Azure Storage (Azure Data Lake Storage nebo Azure Blob Storage), můžeme se rozhodnout přidat do souborů určitá metadata. Tato metadata se zobrazí jako součást vlastností souboru jako páry klíč-hodnota. Pro všechny typy jímek založených na souborech můžete přidat metadata zahrnující dynamický obsah pomocí parametrů kanálu, systémových proměnných, funkcí a proměnných. Kromě toho máte pro datovou jímku založenou na binárních souborech možnost přidat datum a čas poslední změny (zdrojového souboru) pomocí klíčového slova $$LASTMODIFIED a také vlastní hodnoty jako metadata do souboru jímky.
Mapování schématu a datového typu
Informace o tom, jak aktivita Copy mapuje zdrojová data na jímku, najdete v mapování schématu a datového typu.
Přidání dalších sloupců během kopírování
Kromě kopírování dat ze zdrojového úložiště dat do jímky můžete také nakonfigurovat přidání dalších datových sloupců pro kopírování do jímky. Příklad:
- Při kopírování ze zdroje založeného na souboru uložte relativní cestu k souboru jako další sloupec pro trasování, ze kterého souboru data pocházejí.
- Duplikujte zadaný zdrojový sloupec jako jiný sloupec.
- Přidejte sloupec s výrazem ADF pro připojení systémových proměnných ADF, jako je název kanálu nebo ID kanálu, nebo uložte jinou dynamickou hodnotu z výstupu nadřazené aktivity.
- Přidejte sloupec se statickou hodnotou, aby vyhovoval vašim potřebám podřízené spotřeby.
Následující konfiguraci najdete na kartě zdroje aktivity kopírování. Tyto další sloupce v mapování schématu aktivity kopírování můžete také namapovat obvyklým způsobem pomocí definovaných názvů sloupců.
Tip
Tato funkce funguje s nejnovějším modelem datové sady. Pokud tuto možnost v uživatelském rozhraní nevidíte, zkuste vytvořit novou datovou sadu.
Pokud ho chcete nakonfigurovat programově, přidejte additionalColumns
vlastnost do zdroje aktivity kopírování:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
additionalColumns | Přidejte další datové sloupce pro kopírování do jímky. Každý objekt pod additionalColumns polem představuje další sloupec. Definuje name název sloupce a value označuje hodnotu dat daného sloupce.Povolené datové hodnoty jsou: - $$FILEPATH – Rezervovaná proměnná označuje, že se má uložit relativní cesta zdrojových souborů k cestě ke složce zadané v datové sadě. Platí pro zdroj založený na souborech.- $$COLUMN:<source_column_name> – vzor rezervované proměnné označuje duplikování zadaného zdrojového sloupce jako jiného sloupce.- Expression - Statická hodnota |
No |
Příklad:
"activities":[
{
"name": "CopyWithAdditionalColumns",
"type": "Copy",
"inputs": [...],
"outputs": [...],
"typeProperties": {
"source": {
"type": "<source type>",
"additionalColumns": [
{
"name": "filePath",
"value": "$$FILEPATH"
},
{
"name": "newColName",
"value": "$$COLUMN:SourceColumnA"
},
{
"name": "pipelineName",
"value": {
"value": "@pipeline().Pipeline",
"type": "Expression"
}
},
{
"name": "staticValue",
"value": "sampleValue"
}
],
...
},
"sink": {
"type": "<sink type>"
}
}
}
]
Tip
Po nakonfigurování dalších sloupců nezapomeňte je namapovat na cílovou jímku na kartě Mapování.
Automatické vytváření tabulek jímky
Pokud data kopírujete do databáze SQL nebo Azure Synapse Analytics, aktivita kopírování ji automaticky vytváří na základě zdrojových dat. Cílem je pomoct vám rychle začít načítat data a vyhodnocovat databáze SQL nebo Azure Synapse Analytics. Po příjmu dat můžete schéma tabulky jímky zkontrolovat a upravit podle svých potřeb.
Tato funkce se podporuje při kopírování dat z libovolného zdroje do následujících úložišť dat jímky. Možnost najdete v uživatelském rozhraní pro vytváření ADF ->aktivita Copy jímce ->Table option ->Auto create table nebo prostřednictvím tableOption
vlastnosti v datové části jímky aktivity kopírování.
Odolnost proti chybám
Ve výchozím nastavení aktivita Copy zastaví kopírování dat a vrátí chybu, pokud jsou řádky zdrojových dat nekompatibilní s řádky dat jímky. Pokud chcete, aby kopírování proběhlo úspěšně, můžete nakonfigurovat aktivita Copy tak, aby přeskočí nekompatibilní řádky a zkopírovala jenom kompatibilní data. Podrobnosti najdete v tématu aktivita Copy odolnost proti chybám.
Ověření konzistence dat
Při přesunu dat ze zdroje do cílového úložiště poskytuje aktivita kopírování možnost provést další ověření konzistence dat, aby se zajistilo, že se data nejen úspěšně zkopírují ze zdroje do cílového úložiště, ale také ověří, že jsou konzistentní mezi zdrojovým a cílovým úložištěm. Po nalezení nekonzistentních souborů během přesunu dat můžete buď přerušit aktivitu kopírování, nebo pokračovat ve kopírování zbytku tím, že povolíte nastavení odolnosti proti chybám a přeskočí nekonzistentní soubory. Přeskočené názvy souborů můžete získat povolením nastavení protokolu relace v aktivitě kopírování. Podrobnosti najdete v tématu Ověření konzistence dat v aktivitě kopírování.
Protokol relací
Můžete protokolovat zkopírované názvy souborů, které vám pomůžou dále zajistit, aby se data nejen úspěšně zkopírovala ze zdroje do cílového úložiště, ale také konzistentně mezi zdrojovým a cílovým úložištěm kontrolou protokolů relace aktivit kopírování. Podrobnosti najdete v části Aktivita kopírování přihlášení k relaci.
Související obsah
Projděte si následující rychlé starty, kurzy a ukázky: