Volba technologie orchestrace datových kanálů v Azure

Většina řešení pro velké objemy dat se skládá z opakovaných operací zpracování dat zapouzdřených v pracovních postupech. Orchestrátor kanálů je nástroj, který pomáhá automatizovat tyto pracovní postupy. Orchestrátor může plánovat úlohy, spouštět pracovní postupy a koordinovat závislosti mezi úkoly.

Jaké máte možnosti orchestrace datových kanálů?

V Azure budou následující služby a nástroje splňovat základní požadavky na orchestraci kanálů, tok řízení a přesun dat:

Tyto služby a nástroje je možné používat nezávisle na sobě nebo je můžete použít společně k vytvoření hybridního řešení. Například prostředí Integration Runtime (IR) ve službě Azure Data Factory V2 může nativně spouštět balíčky SSIS ve spravovaném výpočetním prostředí Azure. I když se některé funkce mezi těmito službami překrývají, existuje několik klíčových rozdílů.

Kritéria výběru klíče

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

  • Potřebujete funkce pro velké objemy dat pro přesun a transformaci dat? Obvykle to znamená více gigabajty na terabajty dat. Pokud ano, zužte možnosti na ty, které jsou nejvhodnější pro velké objemy dat.

  • Vyžadujete spravovanou službu, která může fungovat ve velkém? Pokud ano, vyberte jednu z cloudových služeb, které nejsou omezené místním výpočetním výkonem.

  • Jsou některé z vašich zdrojů dat umístěné místně? Pokud ano, vyhledejte možnosti, které můžou pracovat s cloudovými i místními zdroji dat nebo cíli.

  • Jsou zdrojová data uložená v úložišti objektů blob v systému souborů HDFS? Pokud ano, zvolte možnost, která podporuje dotazy Hive.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Obecné možnosti

Schopnost Azure Data Factory SQL Server Integration Services (SSIS) Oozie ve službě HDInsight
Spravované Yes Ne Ano
Cloudové Ano Ne (místní) Ano
Požadavek Předplatné Azure SQL Server Předplatné Azure, cluster HDInsight
Nástroje pro správu Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Prostředí Bash, Oozie REST API, Oozie webové uživatelské rozhraní
Ceny Platba za využití Licencování / platba za funkce Bez dalších poplatků za provoz clusteru HDInsight

Možnosti kanálu

Schopnost Azure Data Factory SQL Server Integration Services (SSIS) Oozie ve službě HDInsight
Kopírování dat Ano Ano Yes
Vlastní transformace Ano Yes Ano (úlohy MapReduce, Pig a Hive)
Vyhodnocování Učení Azure Machine Ano Ano (se skriptováním) No
HDInsight na vyžádání Yes No Ne
Azure Batch Yes No Ne
Pig, Hive, MapReduce Yes Ne Ano
Spark Yes No Ne
Spuštění balíčku SSIS Ano Ano No
Tok řízení Ano Ano Yes
Přístup k místním datům Ano Ano No

Možnosti škálovatelnosti

Schopnost Azure Data Factory SQL Server Integration Services (SSIS) Oozie ve službě HDInsight
Vertikální navýšení kapacity Yes No Ne
Horizontální navýšení kapacity Yes No Ano (přidáním pracovních uzlů do clusteru)
Optimalizované pro velké objemy dat Yes Ne Ano

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky