Volba technologie úložiště pro velké objemy dat v Azure
Tento článek porovnává možnosti úložiště dat pro řešení pro velké objemy dat – konkrétně úložiště dat pro hromadný příjem dat a dávkové zpracování, nikoli analytické úložiště dat nebo příjem dat v reálném čase.
Jaké máte možnosti při výběru úložiště dat v Azure?
V závislosti na vašich potřebách existuje několik možností ingestování dat do Azure.
Jednotné logické datové jezero:
Úložiště souborů:
Databáze NoSQL:
Analytické databáze:
OneLake v prostředcích infrastruktury
OneLake in Fabric je jednotné a logické datové jezero, které je přizpůsobené celé organizaci. Slouží jako centrální centrum pro všechna analytická data a je součástí každého tenanta Microsoft Fabric. OneLake in Fabric je postaven na základu Data Lake Storage Gen2.
OneLake v prostředcích infrastruktury:
- Podporuje strukturované a nestrukturované typy souborů.
- Ukládá všechna tabulková data ve formátu Delta Parquet.
- Poskytuje jedno datové jezero v rámci hranic tenantů, které se ve výchozím nastavení řídí.
- Podporuje vytváření pracovních prostorů v rámci tenanta, aby organizace mohl distribuovat zásady vlastnictví a přístupu.
- Podporuje vytváření různých datových položek, jako jsou jezera a sklady, ze kterých máte přístup k datům.
OneLake in Fabric slouží jako společné umístění úložiště pro příjem dat, transformaci, přehledy v reálném čase a vizualizace business intelligence. Centralizuje různé služby Fabric a ukládá datové položky, které všechny úlohy používají v prostředcích Fabric. Pokud chcete zvolit správné úložiště dat pro úlohy Infrastruktury, přečtěte si průvodce rozhodováním o prostředcích infrastruktury: zvolte úložiště dat.
Objekty blob služby Azure Storage
Azure Storage je spravovaná služba úložiště, která je vysoce dostupná, zabezpečená, odolná, škálovatelná a redundantní. Microsoft se stará o údržbu a řeší za vás kritické problémy. Azure Storage je nejobvyklejším řešením úložiště, které Azure nabízí, protože s ním lze používat různé služby a nástroje.
K ukládání dat můžete použít různé služby Azure Storage. Nejflexibilnější možností pro ukládání objektů blob z mnoha zdrojů dat je úložiště objektů blob. Objekty blob jsou v podstatě soubory. Ukládají obrázky, dokumenty, soubory HTML, virtuální pevné disky (VHD), velké objemy dat, jako jsou protokoly, zálohy databází – prakticky cokoli. Objekty blob se ukládají v kontejnerech, které jsou obdobou složek. Kontejner poskytuje seskupení sady objektů blob. Účet úložiště může obsahovat neomezený počet kontejnerů a v každém kontejneru může být neomezený počet objektů blob.
Azure Storage je dobrou volbou pro řešení pro velké objemy dat a analýzy, protože je flexibilní, vysoká dostupnost a nízké náklady. Poskytuje horkou, studenou a archivní úroveň úložiště pro různé případy použití. Další informace najdete v tématu Azure Blob Storage: Horká, studená a archivní úroveň úložiště.
Ke službě Azure Blob Storage je možné přistupovat z Hadoopu (k dispozici prostřednictvím SLUŽBY HDInsight). HDInsight může jako výchozí systém souborů pro cluster používat kontejner objektů blob ve službě Azure Storage. Prostřednictvím rozhraní Systému souborů HDFS (Hadoop Distributed File System) poskytovaného ovladačem WASB může úplná sada komponent v HDInsight pracovat přímo se strukturovanými nebo nestrukturovanými daty uloženými jako objekty blob. Ke službě Azure Blob Storage je také možné přistupovat přes Azure Synapse Analytics pomocí funkce PolyBase.
Mezi další funkce, díky kterým je Azure Storage dobrou volbou, patří:
- Několik strategií souběžnosti
- Možnosti zotavení po havárii a možnosti vysoké dostupnosti
- Šifrování neaktivních uložených dat
- Řízení přístupu na základě role v Azure (RBAC) k řízení přístupu pomocí uživatelů a skupin Microsoft Entra
Data Lake Storage Gen2
Data Lake Storage Gen2 je jediné centralizované úložiště, ve kterém můžete ukládat všechna data strukturovaná i nestrukturovaná. Datové jezero umožňuje vaší organizaci rychle a snadněji ukládat, přistupovat k datům a analyzovat širokou škálu dat v jednom umístění. U datového jezera nemusíte odpovídat datům, aby vyhovovala existující struktuře. Místo toho můžete data ukládat v nezpracovaný nebo nativní formát, obvykle jako soubory nebo jako binární velké objekty (objekty blob).
Data Lake Storage Gen2 konverguje možnosti Azure Data Lake Storage Gen1 se službou Azure Blob Storage. Například Data Lake Storage Gen2 poskytuje sémantiku systému souborů, zabezpečení na úrovni souborů a škálování. Vzhledem k tomu, že tyto funkce jsou založené na úložišti objektů blob, získáte také nízkonákladové vrstvené úložiště s možnostmi vysoké dostupnosti nebo zotavení po havárii.
Data Lake Storage Gen2 představuje Azure Storage základ pro vytváření podnikových datových jezer v Azure. Data Lake Storage Gen2 umožňuje snadnou správu obrovských objemů dat od začátku až po obsluhu několika petabajtů informací a současně udržovat stovky gigabitů propustnosti.
Azure Cosmos DB
Azure Cosmos DB je globálně distribuovaná vícemodelová databáze Microsoftu. Azure Cosmos DB zaručuje latence v řádu milisekund s jednou číslicí na 99. percentilu kdekoli na světě, poskytuje několik dobře definovaných modelů konzistence pro vyladění výkonu a zaručuje vysokou dostupnost pomocí funkcí vícenásobného navádění.
Azure Cosmos DB je nezávislá na schématu. Automaticky indexuje všechna data, aniž byste museli řešit správu schémat a indexů. Je to také vícemodelový, nativně podpůrný dokument, klíč-hodnota, graf a sloupcové datové modely.
Funkce služby Azure Cosmos DB:
- Geografická replikace
- Elastické škálování propustnosti a úložiště po celém světě
- Pět jasně definovaných voleb konzistence
HBase v HDInsightu
Apache HBase je opensourcová databáze NoSQL založená na Hadoopu a modelovaná po Google BigTable. HBase poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat v databázi bez schématu uspořádané podle rodin sloupců.
Data se ukládají na řádky tabulky a data v řádku jsou seskupena podle rodin sloupců. HBase je bez schématu v tom smyslu, že před použitím sloupců ani typů dat uložených v nich není nutné definovat. Kód open-source se škáluje lineárně pro manipulaci s petabajty dat na tisících uzlech. Může se spoléhat na redundanci dat, zpracování dávkou a další funkce, které jsou poskytovány pomocí distribuovaných aplikací v ekosystému Hadoop.
Implementace HDInsight používá architekturu HBase se škálováním na více systémů, aby poskytovala automatické horizontální dělení tabulek, silnou konzistenci pro čtení a zápisy a automatické převzetí služeb při selhání. Výkon je zvýšen ukládáním do mezipaměti pro čtení a vysokou propustností datových proudů pro zápis. Ve většině případů chcete vytvořit cluster HBase uvnitř virtuální sítě , aby ostatní clustery a aplikace HDInsight mohly k tabulkám přistupovat přímo.
Průzkumník dat Azure
Azure Data Explorer je rychlá a vysoce škálovatelná služba pro zkoumání dat protokolů a telemetrie. Pomáhá zpracovávat množství datových proudů vygenerovaných moderním softwarem, abyste mohli shromažďovat, ukládat a analyzovat data. Azure Data Explorer je ideální pro analýzu velkých objemů různých dat z libovolného zdroje dat, jako jsou weby, aplikace, zařízení IoT a další. Tato data se používají pro diagnostiku, monitorování, vytváření sestav, strojové učení a další možnosti analýzy. Azure Data Explorer usnadňuje ingestování těchto dat a umožňuje provádět složité neplánované dotazy na data v řádu sekund.
Azure Data Explorer je možné lineárně škálovat pro zvýšení propustnosti příjmu dat a zpracování dotazů. Cluster Azure Data Exploreru je možné nasadit do virtuální sítě pro povolení privátních sítí.
Klíčová kritéria výběru
Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:
Potřebujete jednotné datové jezero s podporou multicloudu, robustními zásadami správného řízení a bezproblémovou integrací s analytickými nástroji? Pokud ano, zvolte OneLake in Fabric pro zjednodušenou správu dat a vylepšenou spolupráci.
Potřebujete spravované, vysokorychlostní cloudové úložiště pro libovolný typ textových nebo binárních dat? Pokud ano, zvolte jednu z možností úložiště souborů nebo analýz.
Potřebujete úložiště souborů optimalizované pro úlohy paralelní analýzy a vysokou propustnost nebo IOPS? Pokud ano, zvolte možnost, která je vyladěná na výkon analytických úloh.
Potřebujete do databáze bez schématu ukládat nestrukturovaná nebo částečně strukturovaná data? Pokud ano, vyberte jednu z nerelationálních nebo analytických možností. Porovnání možností indexování a databázových modelů V závislosti na typu dat, která potřebujete uložit, můžou být primární databázové modely největším faktorem.
Můžete službu použít ve své oblasti? Zkontrolujte dostupnost jednotlivých služeb Azure v jednotlivých oblastech. Další informace najdete v tématu Dostupné produkty v jednotlivých oblastech.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Funkce OneLake v Prostředcích infrastruktury
Schopnost | OneLake v prostředcích infrastruktury |
---|---|
Unified Data Lake | Poskytuje jedno sjednocené datové jezero pro celou organizaci, které eliminuje datové sila. |
Podpora více cloudů | Podporuje integraci a kompatibilitu s různými cloudovými platformami. |
Zásady správného řízení dat | Zahrnuje funkce, jako je rodokmen dat, ochrana dat, certifikace a integrace katalogu. |
Centralizované datové centrum | Funguje jako centralizované centrum pro zjišťování a správu dat. |
Podpora analytického modulu | Kompatibilní s několika analytickými moduly. Tato kompatibilita umožňuje, aby různé nástroje a technologie fungovaly na stejných datech. |
Zabezpečení a dodržování předpisů | Zajišťuje, aby citlivá data zůstala zabezpečená a přístup byl omezen pouze na oprávněné uživatele. |
Jednoduché používání | Poskytuje uživatelsky přívětivý návrh, který je automaticky dostupný pro každého tenanta Fabric a nevyžaduje žádné nastavení. |
Škálovatelnost | Dokáže zpracovat velké objemy dat z různých zdrojů. |
Možnosti úložiště souborů
Schopnost | Data Lake Storage Gen2 | Kontejnery Azure Blob Storage |
---|---|---|
Účel | Optimalizované úložiště pro úlohy analýzy velkých objemů dat | Úložiště objektů pro obecné účely pro širokou škálu scénářů úložiště |
Případy použití | Dávkové, streamované analýzy a data strojového učení, jako jsou soubory protokolů, data IoT, kliknutí na streamy, velké datové sady | Jakýkoli typ textových nebo binárních dat, jako jsou back-end aplikace, zálohovaná data, úložiště médií pro streamování a data pro obecné účely |
Struktura | Hierarchický systém souborů | Úložiště objektů s plochým oborem názvů |
Ověřování | Na základě identit Microsoft Entra | Na základě sdílených tajných kódů Přístupové klíče účtu a klíčů sdíleného přístupového podpisu a řízení přístupu na základě role v Azure (Azure RBAC) |
Ověřovací protokol | Open Authorization (OAuth) 2.0. Volání musí obsahovat platný webový token JWT (JSON) vydaný id Microsoft Entra. | Ověřovací kód zpráv založený na hodnotě hash (HMAC) Volání musí obsahovat hodnotu hash SHA-256 s kódováním Base64 nad částí požadavku HTTP. |
Autorizace | Seznamy řízení přístupu (ACL) rozhraní POSIX (Portable Operating System Interface). Seznamy ACL založené na identitách Microsoft Entra lze nastavit na úrovni souborů a složek. | Pro autorizaci na úrovni účtu použijte přístupové klíče účtu. Pro účet, kontejner nebo autorizaci objektů blob použijte klíče sdíleného přístupového podpisu. |
Auditování | K dispozici. | dostupný |
Šifrování neaktivních uložených dat | Transparentní, serverová strana | Transparentní, serverová strana; Šifrování na straně klienta |
Sady SDK pro vývojáře | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Výkon analytických úloh | Optimalizovaný výkon pro úlohy paralelní analýzy, vysokou propustnost a IOPS | Neoptimalizuje se pro analytické úlohy |
Omezení velikosti | Žádné limity velikostí účtů, velikostí souborů nebo počtu souborů | Konkrétní omezení zdokumentovaná tady |
Geografická redundance | Místně redundantní (místně redundantní úložiště (LRS)), globálně redundantní (geograficky redundantní úložiště (GRS)), globálně redundantní přístup pro čtení (geograficky redundantní úložiště jen pro čtení (RA-GRS)), zónově redundantní (zónově redundantní úložiště (ZRS)). | Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní přístup pro čtení (RA-GRS), zónově redundantní (ZRS). Další informace najdete v tématu Redundance služby Azure Storage. |
Možnosti databáze NoSQL
Schopnost | Azure Cosmos DB | HBase v HDInsightu |
---|---|---|
Primární databázový model | Úložiště dokumentů, graf, úložiště klíč-hodnota, široké úložiště sloupců | Široké úložiště sloupců |
Sekundární indexy | Yes | No |
Podpora jazyka SQL | Ano | Ano (použití ovladače Phoenix JDBC) |
Konzistence | Silná, ohraničená zastaralost, relace, konzistentní předpona, případná | Silné |
Nativní integrace Azure Functions | Ano | No |
Automatická globální distribuce | Ano | Bezreplikace clusteru HBase je možné nakonfigurovat napříč oblastmi s konečnou konzistencí. |
Cenový model | Elasticky škálovatelné jednotky žádostí (RU) účtované za sekundu podle potřeby, elasticky škálovatelné úložiště | Ceny za minutu pro cluster HDInsight (horizontální škálování uzlů), úložiště |
Možnosti analytické databáze
Schopnost | Průzkumník dat Azure |
---|---|
Primární databázový model | Relační (úložiště sloupců), telemetrie a úložiště časových řad |
Podpora jazyka SQL | Ano |
Cenový model | Elasticky škálovatelné instance clusteru |
Ověřování | Na základě identit Microsoft Entra |
Šifrování neaktivních uložených dat | Podporované klíče spravované zákazníkem |
Výkon analytických úloh | Optimalizovaný výkon pro úlohy paralelní analýzy |
Omezení velikosti | Lineární škálovatelnost |
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Zoiner Tejada | Generální ředitel a architekt
Další kroky
- Co je Prostředky infrastruktury
- Úvod do komplexní analýzy s využitím prostředků infrastruktury
- Řešení a služby cloudového úložiště Azure
- Kontrola možností úložiště
- Seznámení se službou Azure Storage
- Úvod do Azure Data Exploreru