Cílem tohoto článku je prezentovat praktickou architekturu, která využívá Azure Cloud Services ke zpracování velkých objemů geoprostorových dat. Poskytuje cestu vpřed, když se místní řešení neš škálují. Umožňuje také pokračovat v používání aktuálních geoprostorových analytických nástrojů.
Apache®, Apache Spark®, GeoSpark® a Sedona® jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.
GeoPandas®, QGIS® a ArcGIS® jsou ochranné známky příslušných společností. Použití těchto značek nevyžaduje žádné doporučení.
Architektura
Stáhněte si soubor aplikace Visio s touto architekturou.
Workflow
- Azure Data Factory ingestuje geoprostorová data do Azure Data Lake Storage. Zdrojem těchto dat jsou geoprostorové databáze, jako jsou Teradata, Oracle Spatial a PostgreSQL.
- Azure Key Vault zabezpečuje hesla, přihlašovací údaje, připojovací řetězec a další tajné kódy.
- Data jsou umístěna v různých složkách a souborových systémech ve službě Data Lake Storage podle toho, jak byla zpracována. Diagram znázorňuje architekturu s více segmenty směrování . Bronzový kontejner obsahuje nezpracovaná data, stříbrný kontejner obsahuje částečně kurátorovaná data a zlatý kontejner obsahuje plně kurátorovaná data.
- Data se ukládají ve formátech, jako jsou dlaždice GeoJson, WKT a Vector. Azure Databricks a balíček GeoSpark / Sedona můžou převádět formáty a efektivně načítat, zpracovávat a analyzovat rozsáhlá prostorová data napříč počítači.
- Azure Databricks a Apache Sedona dělají různé druhy zpracování ve velkém měřítku:
- Spojení, průsečíky a tessellations
- Prostorové vzorkování a statistiky
- Prostorové indexování a dělení
- GeoPandas exportuje data v různých formátech pro použití aplikací GIS třetích stran, jako jsou QGIS a ARCGIS.
- Azure Machine Learning extrahuje přehledy z geoprostorových dat, například určí, kde a kdy nasadit nové bezdrátové přístupové body.
- Vizuál Power BI a Azure Maps Power BI (Preview) vykreslují plátno mapy pro vizualizaci geoprostorových dat. Power BI používá nativní konektor Azure Databricks pro připojení ke clusteru Azure Databricks.
- Log Analytics, nástroj na webu Azure Portal, spouští dotazy na data v protokolech služby Azure Monitor, aby implementoval robustní a jemně odstupňovaný systém protokolování pro analýzu událostí a výkonu.
Komponenty
- Azure Data Lake Storage je škálovatelné a zabezpečené datové jezero pro vysoce výkonné analytické úlohy. Data Lake Storage můžete použít ke správě petabajtů dat s vysokou propustností. Může obsahovat více heterogenních zdrojů a dat ve strukturovaných, částečně strukturovaných nebo nestrukturovaných formátech.
- Azure Databricks je platforma pro analýzu dat, která používá clustery Spark. Clustery jsou optimalizované pro platformu Azure Cloud Services.
- Azure Data Factory je plně spravovaná, škálovatelná a bezserverová služba pro integraci dat. Poskytuje vrstvu integrace a transformace dat, která funguje s různými úložišti dat.
- Microsoft Power BI je kolekce softwarových služeb,aplikacích
- Azure Maps je kolekce geoprostorových služeb a sad SDK, které k poskytování geografického kontextu webovým a mobilním aplikacím používají čerstvá data mapování.
- Azure Machine Learning je plně spravovaná cloudová služba, která se používá k trénování, nasazování a správě modelů strojového učení ve velkém měřítku.
- Azure Key Vault je služba, která se dá použít k bezpečnému ukládání, správě a těsnému řízení přístupu k tokenům, přihlašovacím údajům, certifikátům, klíčům rozhraní API a dalším tajným kódům.
- Azure Monitor je komplexní řešení pro shromažďování, analýzu a akce na telemetrii z cloudových a místních prostředí. Můžete ho použít k maximalizaci dostupnosti a výkonu aplikací a služeb.
Alternativy
- Fondy Synapse Spark můžete použít pro geoprostorovou analýzu místo Azure Databricks pomocí stejných opensourcových architektur.
- Místo použití služby Data Factory k ingestování dat můžete použít Azure Event Hubs. Může přijímat obrovské objemy dat přímo nebo z jiných služeb streamování událostí, jako je Kafka. Pak můžete data zpracovat pomocí Azure Databricks. Další informace najdete v tématu Zpracování datových proudů pomocí Azure Databricks.
- Místo Azure Databricks můžete k dotazování a zpracování geoprostorových dat použít Azure SQL Database nebo Azure SQL Managed Instance . Tyto databáze poskytují známý jazyk T-SQL, který můžete použít pro geoprostorovou analýzu. Další informace naleznete v tématu Spatial Data (SQL Server).
- Podobně jako Event Hubs může Azure IoT Hub ingestovat velké objemy dat ze zařízení se senzory a telekomunikačními zařízeními IoT. Pomocí obousměrné funkce ioT Hubu můžete bezpečně komunikovat se zařízeními a potenciálně je spravovat a řídit z centralizované platformy v cloudu.
- Azure Maps můžete použít k poskytnutí geografického kontextu pro webové a mobilní aplikace. Kromě informací o poloze může Azure Maps vyhledávat služby za účelem vyhledání adres, míst a bodů zájmu, aby získaly informace o provozu v reálném čase. Vizuál Power BI Azure Maps poskytuje stejné funkce v Power BI Desktopu i v služba Power BI.
Podrobnosti scénáře
Analýza polohy a geoprostorová analýza mohou odhalit důležité regionální trendy a chování, které ovlivňují telekomunikační společnosti. Společnosti mohou tyto znalosti využít ke zlepšení svého rádiového signálu a bezdrátového pokrytí, a tím získat konkurenční výhodu.
Telekomunikační společnosti mají velké objemy geograficky rozptýlených dat aktiv, z nichž většina je telemetrie uživatelů. Data pocházejí z rádiových sítí, zařízení ioT pro snímání a zařízení vzdáleného snímání, která zachycují geoprostorová data. Je v různých strukturovaných a částečně strukturovaných formátech, jako jsou snímky, GPS, satelitní a texturové. Použití vyžaduje agregaci a spojení s jinými zdroji, jako jsou regionální mapy a data o provozu.
Po agregaci a spojení dat je výzvou extrakce přehledů z nich. V minulosti telekomunikační společnosti spoléhaly na starší systémy, jako jsou místní databáze s geoprostorovými funkcemi. Tyto systémy nakonec dosáhly limitů škálovatelnosti kvůli stále rostoucímu množství dat. Navíc vyžadují software třetích stran k provádění úloh, které geoprostorové databázové systémy nemůžou.
Potenciální případy použití
Toto řešení je ideální pro telekomunikační odvětví a platí pro následující scénáře:
- Analýza informací o signálech napříč umístěními za účelem posouzení kvality sítě
- Analýza dat síťové infrastruktury v reálném čase za účelem vedení údržby a opravy
- Analýza segmentace trhu a poptávky na trhu
- Identifikace vztahů mezi umístěními zákazníků a firemními marketingovými kampaněmi
- Vytvoření plánů kapacity a pokrytí pro zajištění připojení a kvality služeb
Důležité informace
Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.
Při implementaci tohoto řešení zvažte použití dobře architektuře Microsoft Azure. Architektura poskytuje technické pokyny napříč pěti pilíři: optimalizace nákladů, zabezpečení, spolehlivost, efektivita výkonu a efektivita provozu.
Výkon
- Postupujte podle průvodců programováním Apache Sedona o vzorech návrhu a osvědčených postupech ladění výkonu.
- Geoprostorové indexování je zásadní pro zpracování rozsáhlých geoprostorových dat. Tuto funkci poskytují Apache Sedona a další opensourcové architektury indexování, jako je H3 .
- Architektura GeoPandas nemá distribuované funkce GeoSpark / Apache Sedona. Proto co nejvíce používejte architekturu Sedona pro geoprostorové zpracování.
- Před zpracováním zvažte použití předdefinovaných funkcí Sedony k ověření formátování geometrie.
Zabezpečení
Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.
Pro lepší zabezpečení zvažte následující pokyny:
- Vytvoření rozsahu tajných kódů ve službě Azure Key Vault
- Možnosti zabezpečeného připojení ke clusteru (bez veřejných IP adres / NPIP)
- Ukládání přihlašovacích údajů ve službě Azure Key Vault
- Nasazení vyhrazených služeb Azure do virtuálních sítí
- Zvažte použití úrovně Azure Databricks Premium místo standardu pro další funkce zabezpečení.
- Průvodce zabezpečením Databricks
Optimalizace nákladů
Optimalizace nákladů se zabývá způsoby, jak snížit zbytečné výdaje a zlepšit efektivitu provozu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.
- Pokud chcete odhadnout náklady na implementaci tohoto řešení, použijte cenovou kalkulačku Azure pro služby uvedené výše.
- Power BI nabízí různé nabídky licencování. Další informace viz Ceny Power BI.
- Pokud potřebujete škálovat konfigurace clusteru Azure Databricks, zvýší se náklady. To závisí na množství dat a složitosti analýzy. Osvědčené postupy pro konfiguraci clusteru najdete v tématu Osvědčené postupy Pro Azure Databricks : Konfigurace clusteru.
- Způsoby minimalizace nákladů najdete v přehledu pilíře optimalizace nákladů.
- Informace o cenách najdete na webových stránkách dodavatelů pro komponenty třetích stran, jako je QGIS a ARCGIS.
- Architektury uvedené v tomto řešení, jako jsou Apache Sedona a GeoPandas, jsou bezplatné opensourcové architektury.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Arash Mosharraf | Vedoucí architekt cloudových řešení
Další kroky
- Úvod do Azure Data Lake Storage Gen2
- Co je Power BI?
- Co je služba Azure Maps?
- Co je Azure Machine Learning?
- O Azure Key Vault
- Přehled služby Azure Monitor
- Ukázky Azure Maps
- Kurzy ke službě Azure Data Factory
- Průvodci programováním pro Apache Sedona
- Začínáme s GeoPandas
- Začínáme s GeoMesa
- Zpracování geoprostorových dat ve velkém měřítku pomocí Databricks
- Formáty souborů GIS
- Referenční dokumentace k Apache Sedona
- Přehled geoprostorového indexování H3
- Power BI a Esri ArcGIS
- QGIS
- H3: Hexagonal Hierarchický geoprostorový indexovací systém
- Jak převést návštěvníka na mobilní telefon roamingová data na výnosy?
- Umístění 5G: Co potřebujete vědět