Geoprostorová analýza pro telekomunikační odvětví

Azure Data Factory
Azure Data Lake
Azure Databricks
Azure Machine Learning
Azure Maps

Cílem tohoto článku je prezentovat praktickou architekturu, která využívá Azure Cloud Services ke zpracování velkých objemů geoprostorových dat. Poskytuje cestu vpřed, když se místní řešení neš škálují. Umožňuje také pokračovat v používání aktuálních geoprostorových analytických nástrojů.

Apache®, Apache Spark®, GeoSpark® a Sedona® jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.

GeoPandas®, QGIS® a ArcGIS® jsou ochranné známky příslušných společností. Použití těchto značek nevyžaduje žádné doporučení.

Architektura

Diagram architektury, která používá Azure Cloud Services ke zpracování velkých objemů geoprostorových dat

Stáhněte si soubor aplikace Visio s touto architekturou.

Workflow

  1. Azure Data Factory ingestuje geoprostorová data do Azure Data Lake Storage. Zdrojem těchto dat jsou geoprostorové databáze, jako jsou Teradata, Oracle Spatial a PostgreSQL.
  2. Azure Key Vault zabezpečuje hesla, přihlašovací údaje, připojovací řetězec a další tajné kódy.
  3. Data jsou umístěna v různých složkách a souborových systémech ve službě Data Lake Storage podle toho, jak byla zpracována. Diagram znázorňuje architekturu s více segmenty směrování . Bronzový kontejner obsahuje nezpracovaná data, stříbrný kontejner obsahuje částečně kurátorovaná data a zlatý kontejner obsahuje plně kurátorovaná data.
  4. Data se ukládají ve formátech, jako jsou dlaždice GeoJson, WKT a Vector. Azure Databricks a balíček GeoSpark / Sedona můžou převádět formáty a efektivně načítat, zpracovávat a analyzovat rozsáhlá prostorová data napříč počítači.
  5. Azure Databricks a Apache Sedona dělají různé druhy zpracování ve velkém měřítku:
    1. Spojení, průsečíky a tessellations
    2. Prostorové vzorkování a statistiky
    3. Prostorové indexování a dělení
  6. GeoPandas exportuje data v různých formátech pro použití aplikací GIS třetích stran, jako jsou QGIS a ARCGIS.
  7. Azure Machine Learning extrahuje přehledy z geoprostorových dat, například určí, kde a kdy nasadit nové bezdrátové přístupové body.
  8. Vizuál Power BI a Azure Maps Power BI (Preview) vykreslují plátno mapy pro vizualizaci geoprostorových dat. Power BI používá nativní konektor Azure Databricks pro připojení ke clusteru Azure Databricks.
  9. Log Analytics, nástroj na webu Azure Portal, spouští dotazy na data v protokolech služby Azure Monitor, aby implementoval robustní a jemně odstupňovaný systém protokolování pro analýzu událostí a výkonu.

Komponenty

  • Azure Data Lake Storage je škálovatelné a zabezpečené datové jezero pro vysoce výkonné analytické úlohy. Data Lake Storage můžete použít ke správě petabajtů dat s vysokou propustností. Může obsahovat více heterogenních zdrojů a dat ve strukturovaných, částečně strukturovaných nebo nestrukturovaných formátech.
  • Azure Databricks je platforma pro analýzu dat, která používá clustery Spark. Clustery jsou optimalizované pro platformu Azure Cloud Services.
  • Azure Data Factory je plně spravovaná, škálovatelná a bezserverová služba pro integraci dat. Poskytuje vrstvu integrace a transformace dat, která funguje s různými úložišti dat.
  • Microsoft Power BI je kolekce softwarových služeb,aplikacích
  • Azure Maps je kolekce geoprostorových služeb a sad SDK, které k poskytování geografického kontextu webovým a mobilním aplikacím používají čerstvá data mapování.
  • Azure Machine Learning je plně spravovaná cloudová služba, která se používá k trénování, nasazování a správě modelů strojového učení ve velkém měřítku.
  • Azure Key Vault je služba, která se dá použít k bezpečnému ukládání, správě a těsnému řízení přístupu k tokenům, přihlašovacím údajům, certifikátům, klíčům rozhraní API a dalším tajným kódům.
  • Azure Monitor je komplexní řešení pro shromažďování, analýzu a akce na telemetrii z cloudových a místních prostředí. Můžete ho použít k maximalizaci dostupnosti a výkonu aplikací a služeb.

Alternativy

  • Fondy Synapse Spark můžete použít pro geoprostorovou analýzu místo Azure Databricks pomocí stejných opensourcových architektur.
  • Místo použití služby Data Factory k ingestování dat můžete použít Azure Event Hubs. Může přijímat obrovské objemy dat přímo nebo z jiných služeb streamování událostí, jako je Kafka. Pak můžete data zpracovat pomocí Azure Databricks. Další informace najdete v tématu Zpracování datových proudů pomocí Azure Databricks.
  • Místo Azure Databricks můžete k dotazování a zpracování geoprostorových dat použít Azure SQL Database nebo Azure SQL Managed Instance . Tyto databáze poskytují známý jazyk T-SQL, který můžete použít pro geoprostorovou analýzu. Další informace naleznete v tématu Spatial Data (SQL Server).
  • Podobně jako Event Hubs může Azure IoT Hub ingestovat velké objemy dat ze zařízení se senzory a telekomunikačními zařízeními IoT. Pomocí obousměrné funkce ioT Hubu můžete bezpečně komunikovat se zařízeními a potenciálně je spravovat a řídit z centralizované platformy v cloudu.
  • Azure Maps můžete použít k poskytnutí geografického kontextu pro webové a mobilní aplikace. Kromě informací o poloze může Azure Maps vyhledávat služby za účelem vyhledání adres, míst a bodů zájmu, aby získaly informace o provozu v reálném čase. Vizuál Power BI Azure Maps poskytuje stejné funkce v Power BI Desktopu i v služba Power BI.

Podrobnosti scénáře

Analýza polohy a geoprostorová analýza mohou odhalit důležité regionální trendy a chování, které ovlivňují telekomunikační společnosti. Společnosti mohou tyto znalosti využít ke zlepšení svého rádiového signálu a bezdrátového pokrytí, a tím získat konkurenční výhodu.

Telekomunikační společnosti mají velké objemy geograficky rozptýlených dat aktiv, z nichž většina je telemetrie uživatelů. Data pocházejí z rádiových sítí, zařízení ioT pro snímání a zařízení vzdáleného snímání, která zachycují geoprostorová data. Je v různých strukturovaných a částečně strukturovaných formátech, jako jsou snímky, GPS, satelitní a texturové. Použití vyžaduje agregaci a spojení s jinými zdroji, jako jsou regionální mapy a data o provozu.

Po agregaci a spojení dat je výzvou extrakce přehledů z nich. V minulosti telekomunikační společnosti spoléhaly na starší systémy, jako jsou místní databáze s geoprostorovými funkcemi. Tyto systémy nakonec dosáhly limitů škálovatelnosti kvůli stále rostoucímu množství dat. Navíc vyžadují software třetích stran k provádění úloh, které geoprostorové databázové systémy nemůžou.

Potenciální případy použití

Toto řešení je ideální pro telekomunikační odvětví a platí pro následující scénáře:

  • Analýza informací o signálech napříč umístěními za účelem posouzení kvality sítě
  • Analýza dat síťové infrastruktury v reálném čase za účelem vedení údržby a opravy
  • Analýza segmentace trhu a poptávky na trhu
  • Identifikace vztahů mezi umístěními zákazníků a firemními marketingovými kampaněmi
  • Vytvoření plánů kapacity a pokrytí pro zajištění připojení a kvality služeb

Důležité informace

Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.

Při implementaci tohoto řešení zvažte použití dobře architektuře Microsoft Azure. Architektura poskytuje technické pokyny napříč pěti pilíři: optimalizace nákladů, zabezpečení, spolehlivost, efektivita výkonu a efektivita provozu.

Výkon

  • Postupujte podle průvodců programováním Apache Sedona o vzorech návrhu a osvědčených postupech ladění výkonu.
  • Geoprostorové indexování je zásadní pro zpracování rozsáhlých geoprostorových dat. Tuto funkci poskytují Apache Sedona a další opensourcové architektury indexování, jako je H3 .
  • Architektura GeoPandas nemá distribuované funkce GeoSpark / Apache Sedona. Proto co nejvíce používejte architekturu Sedona pro geoprostorové zpracování.
  • Před zpracováním zvažte použití předdefinovaných funkcí Sedony k ověření formátování geometrie.

Zabezpečení

Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

Pro lepší zabezpečení zvažte následující pokyny:

Optimalizace nákladů

Optimalizace nákladů se zabývá způsoby, jak snížit zbytečné výdaje a zlepšit efektivitu provozu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.

  • Pokud chcete odhadnout náklady na implementaci tohoto řešení, použijte cenovou kalkulačku Azure pro služby uvedené výše.
  • Power BI nabízí různé nabídky licencování. Další informace viz Ceny Power BI.
  • Pokud potřebujete škálovat konfigurace clusteru Azure Databricks, zvýší se náklady. To závisí na množství dat a složitosti analýzy. Osvědčené postupy pro konfiguraci clusteru najdete v tématu Osvědčené postupy Pro Azure Databricks : Konfigurace clusteru.
  • Způsoby minimalizace nákladů najdete v přehledu pilíře optimalizace nákladů.
  • Informace o cenách najdete na webových stránkách dodavatelů pro komponenty třetích stran, jako je QGIS a ARCGIS.
  • Architektury uvedené v tomto řešení, jako jsou Apache Sedona a GeoPandas, jsou bezplatné opensourcové architektury.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky