Zrcadlení služby Azure Cosmos DB (Preview)

Zrcadlení v Microsoft Fabric poskytuje bezproblémové prostředí bez ETL pro integraci stávajících dat Azure Cosmos DB se zbývajícími daty v Microsoft Fabricu. Data Azure Cosmos DB můžete průběžně replikovat přímo do Fabric OneLake téměř v reálném čase, aniž by to mělo vliv na výkon transakčních úloh.

Data v OneLake jsou uložená v opensourcovém rozdílovém formátu a automaticky jsou k dispozici všem analytickým modulům v prostředcích Fabric.

T-SQL můžete použít ke spouštění složitých agregačních dotazů a Sparku pro zkoumání dat. K datům v poznámkových blocích můžete bez problémů přistupovat, používat datové vědy k vytváření modelů strojového učení a vytváření sestav business intelligence pomocí Direct Lake založeného na Copilot integraci.

Důležité

Zrcadlení služby Azure Cosmos DB je aktuálně ve verzi Preview. Produkční úlohy nejsou ve verzi Preview podporované. V současné době se podporují jenom účty Azure Cosmos DB for NoSQL.

Proč používat zrcadlení v prostředcích infrastruktury?

Díky zrcadlení v prostředcích infrastruktury nemusíte vytvářet různé služby od několika dodavatelů. Místo toho si můžete vychutnat vysoce integrovaný, ucelený a snadno použitelný produkt, který je navržený tak, aby zjednodušil vaše analytické potřeby a vytvořil pro otevřenost.

Pokud hledáte analýzu provozních dat ve službě Azure Cosmos DB, zrcadlení poskytuje:

  • Bez etL, nákladově efektivní analýzy téměř v reálném čase s daty Azure Cosmos DB, aniž by to mělo vliv na spotřebu jednotek žádostí
  • Snadné přenesení dat mezi různými zdroji do Fabric OneLake
  • Optimalizace tabulek Delta s pořadím v pro bleskově rychlé čtení
  • Integrace jedním kliknutím s Power BI s Direct Lake a Copilot
  • Bohaté obchodní přehledy spojením dat mezi různými zdroji
  • Rozsáhlejší integrace aplikací pro přístup k dotazům a zobrazením

Data OneLake jsou uložená ve opensourcovém formátu Delta Lake, takže je můžete používat s různými řešeními v rámci Microsoftu i mimo ni. Tento formát dat usnadňuje vytváření jednoho datového majetku pro vaše analytické potřeby.

Jaká analytická prostředí jsou integrovaná?

Zrcadlené databáze jsou položka v Prostředcích Synapse Skladování Dat odlišná od koncového bodu warehouse a analýzy SQL.

Diagram zrcadlení prostředků infrastruktury pro službu Azure Cosmos DB

Každá zrcadlené databáze Azure Cosmos DB má tři položky, se kterými můžete pracovat v pracovním prostoru Fabric:

  • Zrcadlová položka databáze. Zrcadlení spravuje replikaci dat do OneLake a převod na Parquet v analytickém formátu. To umožňuje podřízené scénáře, jako jsou datové inženýrství, datové vědy a další.
  • Koncový bod analýzy SQL, který se automaticky vygeneruje
  • Výchozí sémantický model, který se automaticky vygeneruje

Zrcadlené databáze

Zrcadlené databáze zobrazuje stav replikace a ovládací prvky pro zastavení nebo spuštění replikace v Fabric OneLake. Zdrojovou databázi můžete zobrazit také v režimu jen pro čtení pomocí Průzkumníka dat Azure Cosmos DB. Pomocí Průzkumníka dat můžete zobrazit kontejnery ve zdrojové databázi Azure Cosmos DB a dotazovat se na ně. Tyto operace spotřebovávají jednotky žádostí (RU) z vašeho účtu služby Azure Cosmos DB. Všechny změny zdrojové databáze se okamžitě projeví v zobrazení zdrojové databáze Fabric. Zápis do zdrojové databáze není z Prostředků infrastruktury povolený, protože data můžete jenom zobrazit.

Koncový bod analýzy SQL

Každá zrcadlená databáze má automaticky vygenerovaný koncový bod analýzy SQL, který poskytuje bohaté analytické prostředí nad tabulkami Delta OneLake vytvořenými procesem zrcadlení. Máte přístup ke známým příkazům T-SQL, které můžou definovat a dotazovat datové objekty, ale ne manipulovat s daty z koncového bodu analýzy SQL, protože se jedná o kopii určenou jen pro čtení.

V koncovém bodu analýzy SQL můžete provést následující akce:

  • Prozkoumejte tabulky Delta Lake pomocí T-SQL. Každá tabulka se mapuje na kontejner z databáze Azure Cosmos DB.
  • Vytvářejte dotazy a zobrazení bez kódu a prozkoumejte je vizuálně, aniž byste museli psát řádek kódu.
  • Spojení a dotazování dat v jiných zrcadlených databázích, skladech a lakehousech ve stejném pracovním prostoru

Kromě Editor Power Query Microsoft Fabric SQL existuje široký ekosystém nástrojů. Mezi tyto nástroje patří Visual Studio Code, Azure Data Studio, SQL Server Management Studio a dokonce i GitHub Copilot. Pomocí nástroje podle vašeho výběru můžete nadvýběrovat analýzu a generování přehledů.

Sémantický model

Výchozí sémantický model je automaticky zřízený sémantický model Power BI. Tato funkce umožňuje vytvářet, sdílet a opakovaně používat obchodní metriky. Další informace najdete v sémantických modelech.

Jak funguje replikace téměř v reálném čase?

Když povolíte zrcadlení v databázi Azure Cosmos DB, vloží, aktualizuje a odstraní operace zpracování online transakcí (OLTP) se průběžně replikují do Fabric OneLake pro využití analýz.

Funkce průběžného zálohování je předpokladem pro zrcadlení. V účtu služby Azure Cosmos DB můžete povolit průběžné zálohování 7 dnů nebo 30 dnů.

Poznámka:

Zrcadlení nepoužívá analytické úložiště ani kanál změn služby Azure Cosmos DB jako zdroj zachytávání dat změn. Tyto funkce můžete dál používat nezávisle a také zrcadlení.

Replikace dat Azure Cosmos DB do Fabric OneLake může trvat několik minut. V závislosti na počátečním snímku dat nebo četnosti aktualizací/odstranění může replikace v některých případech trvat i déle. Replikace nemá vliv na jednotky žádostí (RU), které jste přidělili vašim transakčním úlohám.

Co očekávat od zrcadlení

Před zrcadlení byste měli zvážit několik aspektů a podporovaných scénářů.

Důležité informace o nastavení

Pokud chcete zrcadlit databázi, měla by už být zřízená v Azure. Jako předpoklad musíte pro účet povolit průběžné zálohování.

  • Každou databázi můžete zrcadlit pouze jednotlivě. Můžete zvolit, která databáze se má zrcadlit.
  • Stejnou databázi můžete zrcadlit vícekrát ve stejném pracovním prostoru. Osvědčeným postupem je opětovné použití jedné kopie databáze napříč databázemi lakehouse, sklady nebo jinými zrcadlenými databázemi. Neměli byste nastavovat více zrcadlek do stejné databáze.
  • Stejnou databázi můžete také zrcadlit v různých pracovních prostorech nebo tenantech Prostředků infrastruktury.
  • Změny kontejnerů Azure Cosmos DB, jako je přidání nových kontejnerů a odstranění existujících kontejnerů, se bez problémů replikují do prostředků infrastruktury. Můžete například začít zrcadlit prázdnou databázi bez kontejnerů a zrcadlení bezproblémově převezme kontejnery přidané později v čase.

Podpora vnořených dat

Vnořená data se v tabulkách koncových bodů SQL Analytics zobrazují jako řetězec JSON. K selektivnímu rozšíření těchto dat můžete použít OPENJSONCROSS APPLYOUTER APPLY dotazy nebo zobrazení jazyka T-SQL. Pokud používáte Power Query, můžete tuto funkci použít ToJson také k rozšíření těchto dat.

Poznámka:

Prostředky infrastruktury mají omezení pro řetězcové sloupce o velikosti 8 kB. Další informace najdete v tématu Omezení datového skladu.

Zpracování změn schématu

Zrcadlení automaticky replikuje vlastnosti napříč položkami služby Azure Cosmos DB se změnami schématu. Všechny nové vlastnosti zjištěné v položce se zobrazí jako nové sloupce a chybějící vlastnosti, pokud existují, jsou v prostředcích infrastruktury reprezentovány jako null.

Pokud vlastnost v položce přejmenujete, tabulky Fabric zachovávají staré i nové sloupce. Starý sloupec zobrazí hodnotu null a nový sloupec zobrazí nejnovější hodnotu pro všechny položky, které se replikují po operaci přejmenování.

Pokud změníte datový typ vlastnosti v položkách služby Azure Cosmos DB, podporují se změny kompatibilních datových typů, které je možné převést. Pokud datové typy nejsou kompatibilní pro převod v delta, jsou reprezentovány jako hodnoty null.

Tabulky koncových bodů sql Analytics převádějí datové typy Delta na datové typy T-SQL.

Duplicitní názvy sloupců

Azure Cosmos DB podporuje názvy sloupců bez rozlišování malých a velkých písmen na základě standardu JSON. Zrcadlení podporuje tyto duplicitní názvy sloupců přidáním _n do názvu sloupce, kde n by byla číselná hodnota.

Pokud má například položka addressName Azure Cosmos DB jedinečné vlastnosti a AddressName jako jedinečné vlastnosti, tabulky prostředků infrastruktury mají odpovídající addressName sloupce a AddressName_1 sloupce. Další informace najdete v tématu Omezení replikace.

Zabezpečení

Připojení ke zdrojové databázi jsou založená na klíčích účtu pro vaše účty Azure Cosmos DB. Pokud klíče otočíte nebo znovu vygenerujete, musíte připojení aktualizovat, aby replikace fungovala. Další informace najdete v tématu připojení.

Klíče účtu se po nastavení připojení přímo nezobrazují ostatním uživatelům prostředků infrastruktury. Můžete omezit, kdo má přístup k připojením vytvořeným v prostředcích infrastruktury. Zápisy do databáze Azure Cosmos DB nejsou povolené z Průzkumníka dat ani z koncového bodu analýzy ve vaší zrcadlené databázi.

Zrcadlení v současné době nepodporuje ověřování pomocí klíčů účtu jen pro čtení, jednotného přihlašování (SSO) s ID Microsoft Entra a řízením přístupu na základě role nebo spravovanými identitami.

Po replikaci dat do Fabric OneLake je potřeba zabezpečit přístup k datům.

Funkce ochrany dat

Podrobné zabezpečení je možné nakonfigurovat v zrcadlené databázi v Microsoft Fabric. Další informace najdete v podrobných oprávněních v Microsoft Fabric.

Filtry sloupců a filtry řádků založené na predikátech můžete zabezpečit u tabulek pro role a uživatele v Microsoft Fabric:

Citlivá data můžete také maskovat od uživatelů, kteří nejsou správci, pomocí dynamického maskování dat:

Zabezpečení sítě

Zrcadlení v současné době nepodporuje privátní koncové body ani klíče spravované zákazníkem (CMK) na OneLake. Zrcadlení se nepodporuje u účtů služby Azure Cosmos DB s méně omezujícími konfiguracemi zabezpečení sítě než u všech sítí, pomocí koncových bodů služby, pomocí privátních koncových bodů, pomocí IP adres nebo pomocí jiných nastavení, která by mohla omezit přístup k veřejné síti k účtu. Účty Azure Cosmos DB by měly být otevřené pro všechny sítě, aby fungovaly se zrcadlením.

Latence zotavení po havárii a replikace

V prostředcích infrastruktury můžete obsah nasadit do datových center v jiných oblastech než v domovské oblasti tenanta Fabric. Další informace najdete v tématu podpora multi-geo.

U účtu služby Azure Cosmos DB s primární oblastí zápisu a několika oblastmi čtení zvolí zrcadlení oblast čtení služby Azure Cosmos DB nejblíže oblasti, ve které je nakonfigurovaná kapacita Fabric. Tento výběr pomáhá zajistit replikaci s nízkou latencí pro zrcadlení.

Když přepnete účet služby Azure Cosmos DB do oblasti obnovení, zrcadlení automaticky znovu vybere nejbližší oblast Azure Cosmos DB.

Poznámka:

Zrcadlení nepodporuje účty s více oblastmi zápisu.

Data cosmos DB replikovaná do OneLake musí být nakonfigurovaná tak, aby zpracovávala výpadky v celé oblasti. Další informace najdete v tématu zotavení po havárii ve OneLake.

Prozkoumání dat pomocí zrcadlení

Ve OneLake můžete přímo zobrazit zrcadlová data a přistupovat k němu. Bez nutnosti dalšího přesunu dat můžete bez problémů přistupovat ke zrcadleným datům.

Přečtěte si další informace o přístupu k OneLake pomocí rozhraní API nebo sady SDK ADLS Gen2, Průzkumníka souborů OneLake a Průzkumníka služby Azure Storage.

Ke koncovému bodu analýzy SQL se můžete připojit z nástrojů, jako je SQL Server Management Studio (SSMS), nebo pomocí ovladačů, jako je Microsoft Open Database Connectivity (ODBC) a Java Database Connectivity (JDBC). Další informace najdete v tématu Připojení koncového bodu analýzy SQL.

K zrcadleným datům můžete přistupovat také pomocí služeb, jako jsou:

  • Služby Azure, jako jsou Azure Databricks, Azure HDInsight nebo Azure Synapse Analytics
  • Fabric Lakehouse s využitím zástupců pro scénáře přípravy dat a datových věd
  • Další zrcadlené databáze nebo sklady v pracovním prostoru Prostředky infrastruktury

Můžete také sestavit řešení architektury medallionu, vyčistit a transformovat data, která se přistávají do zrcadlené databáze jako bronzové vrstvy. Další informace najdete v tématu podpora architektury medallion v prostředcích Fabric.

Ceny

Funkce zrcadlení nebo ukládání zrcadlených dat v prostředcích infrastruktury ve verzi Public Preview v současné době není nijak nákladná. Využití výpočetních prostředků pro dotazování dat prostřednictvím SQL, Power BI nebo Sparku se stále účtuje na základě kapacity prostředků infrastruktury. Další informace najdete v tématu Nejčastější dotazy: Ceny.

Pokud používáte Průzkumníka dat v zrcadlení prostředků infrastruktury, načítají se typické náklady na základě využití jednotky žádosti (RU) a prozkoumáte kontejnery a dotazujete se na položky ve zdrojové databázi Azure Cosmos DB. Funkce průběžného zálohování služby Azure Cosmos DB je předpokladem pro zrcadlení: Platí se standardní poplatky za průběžné zálohování. Za zrcadlení při průběžné fakturaci záloh se neúčtují žádné další poplatky. Další informace najdete v tématu o cenách služby Azure Cosmos DB.

Další krok