Vysvětlení Apache Sparku pro vývojáře v U-SQL
Důležité
Azure Data Lake Analytics vyřazena 29. února 2024. Další informace najdete v tomto oznámení.
Pro analýzu dat může vaše organizace používat Azure Synapse Analytics nebo Microsoft Fabric.
Microsoft podporuje několik analytických služeb, jako jsou Azure Databricks, Azure HDInsight a Azure Data Lake Analytics. Od vývojářů se dozvídáme, že při vytváření analytických kanálů mají jasná preference opensourcových řešení. Abychom vývojářům V-SQL pomohli pochopit Apache Spark a jak můžete transformovat skripty U-SQL na Apache Spark, vytvořili jsme tyto doprovodné materiály.
Obsahuje kroky, které můžete provést, a několik alternativ.
Postup transformace U-SQL na Apache Spark
Transformujte kanály orchestrace úloh.
Pokud k orchestraci skriptů Azure Data Lake Analytics používáte Azure Data Factory, musíte je upravit, abyste mohli orchestrovat nové programy Sparku.
Seznamte se s rozdíly mezi tím, jak U-SQL a Spark spravují data.
Pokud chcete přesunout data z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2, musíte zkopírovat data souboru i data uchováná v katalogu. Azure Data Lake Analytics podporuje jenom Azure Data Lake Storage Gen1. Další informace najdete v tématu Principy datových formátů Sparku.
Transformujte skripty U-SQL na Spark.
Před transformací skriptů U-SQL musíte zvolit analytickou službu. Mezi dostupné výpočetní služby patří:
- Azure Data Factory Toky dat mapování toků dat jsou vizuálně navržené transformace dat, které umožňují datovým inženýrům vyvinout grafickou logiku transformace dat bez psaní kódu. I když nejsou vhodné ke spouštění složitých uživatelských kódů, můžou snadno představovat tradiční transformace toku dat podobné SQL.
- Azure HDInsight Hive Apache Hive ve službě HDInsight je vhodný pro operace extrakce, transformace a načítání (ETL). To znamená, že skripty U-SQL přeložíte do Apache Hivu.
- Moduly Apache Spark, jako jsou Azure HDInsight Spark nebo Azure Databricks . To znamená, že budete překládat skripty U-SQL do Sparku. Další informace najdete v tématu Principy datových formátů Sparku.
Upozornění
Azure Databricks i Azure HDInsight Spark jsou clusterové služby, nikoli bezserverové úlohy, jako je Azure Data Lake Analytics. Budete muset zvážit, jak zřídit clustery, abyste získali odpovídající poměr nákladů a výkonu, a jak spravovat jejich životnost, abyste minimalizovali náklady. Tyto služby mají různé charakteristiky výkonu s uživatelským kódem napsaným v .NET, takže budete muset buď napsat obálky, nebo přepsat kód v podporovaném jazyce. Další informace najdete v tématech Principy datových formátů Sparku, Principy konceptů kódu Apache Sparku pro vývojáře U-SQL, .NET pro Apache Spark.
Další kroky
- Principy datových formátů Sparku pro vývojáře U-SQL
- Principy konceptů kódu Sparku pro vývojáře U-SQL
- Upgradujte svá řešení pro analýzu velkých objemů dat z Azure Data Lake Storage Gen1 na Azure Data Lake Storage Gen2
- .NET pro Apache Spark
- Transformace dat pomocí aktivity Hadoop Hive v Azure Data Factory
- Transformace dat pomocí aktivity Sparku v Azure Data Factory
- Co je Apache Spark ve službě Azure HDInsight