Nástroj pro kopírování dat ve službě Azure Data Factory a Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Nástroj Pro kopírování dat usnadňuje a optimalizuje proces ingestování dat do datového jezera, což je obvykle první krok v komplexním scénáři integrace dat. Šetří čas, zejména když službu používáte k ingestování dat ze zdroje dat poprvé. Mezi výhody použití tohoto nástroje patří:

  • Při použití nástroje pro kopírování dat nepotřebujete rozumět definicím služby pro propojené služby, datové sady, kanály, aktivity a triggery.
  • Tok nástroje pro kopírování dat je intuitivní pro načítání dat do datového jezera. Nástroj automaticky vytvoří všechny potřebné prostředky pro kopírování dat z vybraného zdrojového úložiště dat do vybraného cílového úložiště dat nebo úložiště dat jímky.
  • Nástroj Pro kopírování dat vám pomůže ověřit data, která se ingestují v době vytváření obsahu, což vám pomůže vyhnout se případným chybám na začátku samotného.
  • Pokud potřebujete implementovat složitou obchodní logiku pro načtení dat do datového jezera, můžete prostředky vytvořené nástrojem pro kopírování dat upravit pomocí vytváření jednotlivých aktivit v uživatelském rozhraní.

Následující tabulka obsahuje pokyny, kdy použít nástroj pro kopírování dat vs. vytváření aktivit v uživatelském rozhraní:

Nástroj pro kopírování dat Vytváření obsahu podle aktivity (aktivita Copy)
Chcete snadno vytvořit úlohu načítání dat bez informací o entitách (propojené služby, datové sady, kanály atd.). Chcete implementovat složitou a flexibilní logiku pro načítání dat do jezera.
Chcete rychle načíst velký počet artefaktů dat do datového jezera. Chcete zřetězení aktivita Copy s následnými aktivitami pro čištění nebo zpracování dat.

Pokud chcete spustit nástroj pro kopírování dat, klikněte na dlaždici Ingest na domovské stránce uživatelského rozhraní Data Factory nebo Synapse Studio.

Po spuštění nástroje pro kopírování dat se zobrazí dva typy úloh: jedna je integrovaná úloha kopírování a další je úloha kopírování řízená metadaty. Předdefinovaná úloha kopírování vás povede k vytvoření kanálu během pěti minut pro replikaci dat bez toho, abyste se dozvěděli o entitách. Úloha kopírování řízená metadaty usnadňují vaši cestu vytváření parametrizovaných kanálů a tabulek externích ovládacích prvků za účelem správy kopírování velkých objemů objektů (například tisíců tabulek) ve velkém měřítku. Další podrobnosti najdete v metadatech řízených kopírováním dat.

Intuitivní tok pro načítání dat do datového jezera

Tento nástroj umožňuje snadno přesouvat data z nejrůznějších zdrojů do cílů během několika minut pomocí intuitivního toku:

  1. Nakonfigurujte nastavení pro zdroj.

  2. Nakonfigurujte nastavení cíle.

  3. Nakonfigurujte upřesňující nastavení pro operaci kopírování, jako je mapování sloupců, nastavení výkonu a nastavení odolnosti proti chybám.

  4. Zadejte plán úlohy načítání dat.

  5. Zkontrolujte souhrn entit, které se mají vytvořit.

  6. Podle potřeby upravte kanál a aktualizujte nastavení aktivity kopírování.

    Nástroj je navržený s ohledem na velké objemy dat od začátku s podporou různých typů dat a objektů. Můžete ho použít k přesunutí stovek složek, souborů nebo tabulek. Nástroj podporuje také automatické zobrazení náhledu dat, zachycení schématu a automatické mapování a filtrování dat.

Nástroj pro kopírování dat

Automatický náhled dat

Můžete zobrazit náhled části dat z vybraného zdrojového úložiště dat, což umožňuje ověřit data, která se kopírují. Kromě toho pokud jsou zdrojová data v textovém souboru, nástroj Pro kopírování dat analyzuje textový soubor, aby automaticky rozpoznal oddělovače řádků a sloupců a schéma.

Nastavení souboru

Po zjištění vyberte náhled dat:

Zjištěná nastavení souborů a náhled

Zachycení schématu a automatické mapování

Schéma zdroje dat nemusí být v mnoha případech stejné jako schéma cíle dat. V tomto scénáři je potřeba namapovat sloupce ze zdrojového schématu na sloupce z cílového schématu.

Nástroj pro kopírování dat monitoruje a učí vaše chování při mapování sloupců mezi zdrojovými a cílovými úložišti. Jakmile vyberete jeden nebo několik sloupců ze zdrojového úložiště dat a namapujete je na cílové schéma, nástroj Pro kopírování dat začne analyzovat vzor pro páry sloupců, které jste vybrali z obou stran. Potom použije stejný vzor pro zbytek sloupců. Proto uvidíte, že všechny sloupce byly namapovány na cíl způsobem, který chcete provést hned po několika kliknutích. Pokud nejste spokojení s výběrem mapování sloupců, které poskytuje nástroj Pro kopírování dat, můžete ho ignorovat a pokračovat v ručním mapování sloupců. Nástroj Pro kopírování dat mezitím neustále učí a aktualizuje vzor a nakonec dosáhne správného vzoru pro mapování sloupců, kterého chcete dosáhnout.

Poznámka:

Při kopírování dat z SQL Serveru nebo Azure SQL Database do Azure Synapse Analytics platí, že pokud tabulka v cílovém úložišti neexistuje, nástroj Pro kopírování dat podporuje automatické vytvoření tabulky pomocí zdrojového schématu.

Filtrování dat

Zdrojová data můžete filtrovat a vybrat jenom data, která je potřeba zkopírovat do úložiště dat jímky. Filtrování snižuje objem dat, která se mají zkopírovat do úložiště dat jímky, a tím zvyšuje propustnost operace kopírování. Nástroj pro kopírování dat poskytuje flexibilní způsob filtrování dat v relační databázi pomocí dotazovacího jazyka SQL nebo souborů ve složce objektů blob Azure.

Filtrování dat v databázi

Následující snímek obrazovky ukazuje dotaz SQL pro filtrování dat.

Filtrování dat v databázi

Filtrování dat ve složce objektů blob Azure

Pomocí proměnných v cestě ke složce můžete kopírovat data ze složky. Podporované proměnné jsou: {year}, {month}, {day}, {hour} a {minute}. Příklad: inputfolder/{year}/{month}/{day}.

Předpokládejme, že máte vstupní složky v následujícím formátu:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Klikněte na tlačítko Procházet pro soubor nebo složku, přejděte do jedné z těchto složek (například 2016-03-01-02>>>) a klikněte na Zvolit. V textovém poli by se mělo zobrazit 2016/03/01/02.

Potom nahraďte 2016 {year}, 03 { month}, 01 { day} a 02 { hour} a stiskněte klávesu Tab . Když vyberete přírůstkové načtení: názvy složek a souborů rozdělených do oddílů v části Chování při načítání souboru a na stránce Vlastnosti vyberete okno Naplánovat nebo Přeskakující, měli byste vidět rozevírací seznamy, které mají vybrat formát těchto čtyř proměnných:

Filtrování souboru nebo složky

Nástroj pro kopírování dat generuje parametry s výrazy, funkcemi a systémovými proměnnými, které lze použít k reprezentaci {year}, {month}, {day}, {hour} a {minute} při vytváření kanálu.

Možnosti plánování

Operaci kopírování můžete spustit jednou nebo podle plánu (hodinově, denně atd.). Tyto možnosti je možné použít pro konektory v různých prostředích, včetně místních, cloudových a místních desktopů.

Jednorázová operace kopírování umožňuje přesun dat ze zdroje do cíle pouze jednou. Platí pro data libovolné velikosti a libovolného podporovaného formátu. Naplánovaná kopie umožňuje kopírovat data při zadaném opakování. Ke konfiguraci plánované kopie můžete použít bohaté nastavení (například opakování, vypršení časového limitu a upozornění).

Možnosti plánování

Vyzkoušejte tyto kurzy, které používají nástroj pro kopírování dat: