Kurz: Nastavení dávky datového produktu
V tomto kurzu se dozvíte, jak nastavit datové služby produktů, které jsou už nasazené. Pomocí služby Azure Data Factory můžete integrovat a orchestrovat data a používat Microsoft Purview ke zjišťování, správě a řízení datových prostředků.
Naučte se:
- Vytvoření a nasazení požadovaných prostředků
- Přiřazení rolí a přístupových oprávnění
- Připojení prostředků pro integraci dat
Tento kurz vám pomůže seznámit se se službami nasazenými ve skupině prostředků ukázkového datového <DMLZ-prefix>-dev-dp001
produktu. Vyzkoušejte si, jak se služby Azure vzájemně provedou a jaká bezpečnostní opatření se používají.
Při nasazování nových komponent budete mít možnost prozkoumat, jak Purview spojuje zásady správného řízení služeb, abyste vytvořili ucelenou a aktuální mapu vaší datové krajiny. Výsledkem je automatizované zjišťování dat, klasifikace citlivých dat a kompletní rodokmen dat.
Požadavky
Než začnete s nastavením dávky datového produktu, ujistěte se, že splňujete tyto požadavky:
Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si ještě dnes bezplatný účet Azure.
Oprávnění k předplatnému Azure Pokud chcete pro nasazení nastavit Purview a Azure Synapse Analytics, musíte mít v předplatném Azure roli Správce uživatelských přístupů nebo roli Vlastník . V tomto kurzu nastavíte další přiřazení rolí pro služby a instanční objekty.
Nasazené prostředky. K dokončení kurzu už musí být tyto prostředky nasazené ve vašem předplatném Azure:
Účet Microsoft Purview. Účet se vytvoří jako součást nasazení cílové zóny správy dat.
Místní prostředí Integration Runtime Modul runtime se vytvoří jako součást nasazení cílové zóny dat.
Poznámka:
V tomto kurzu zástupné symboly odkazují na požadované prostředky, které nasadíte před zahájením kurzu:
<DMLZ-prefix>
odkazuje na předponu, kterou jste zadali při vytváření nasazení cílové zóny správy dat.<DLZ-prefix>
odkazuje na předponu, kterou jste zadali při vytváření nasazení cílové zóny dat.<DP-prefix>
odkazuje na předponu, kterou jste zadali při vytváření dávkového nasazení datového produktu.
Vytváření instancí azure SQL Database
Pro zahájení tohoto kurzu vytvořte dvě ukázkové instance služby SQL Database. Databáze použijete k simulaci zdrojů dat CRM a ERP v dalších částech.
Na webu Azure Portal v globálních ovládacích prvcích portálu vyberte ikonu Cloud Shellu a otevřete terminál Azure Cloud Shellu. Jako typ terminálu vyberte Bash .
V Cloud Shellu spusťte následující skript. Skript najde
<DLZ-prefix>-dev-dp001
skupinu prostředků a<DP-prefix>-dev-sqlserver001
server Azure SQL, který je ve skupině prostředků. Pak skript vytvoří na serveru dvě instance<DP-prefix>-dev-sqlserver001
služby SQL Database. Databáze jsou předem vyplněné ukázkovými daty AdventureWorks. Data zahrnují tabulky, které používáte v tomto kurzu.Nezapomeňte nahradit zástupnou hodnotu parametru
subscription
vlastním ID předplatného Azure.# Azure SQL Database instances setup # Create the AdatumCRM and AdatumERP databases to simulate customer and sales data. # Use the ID for the Azure subscription you used to deployed the data product. az account set --subscription "<your-subscription-ID>" # Get the resource group for the data product. resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, 'dp001')==\`true\`].name") # Get the existing Azure SQL Database server name. sqlServerName=$(az sql server list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'sqlserver001')==\`true\`].name") # Create the first SQL Database instance, AdatumCRM, to create the customer's data source. az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumCRM --service-objective Basic --sample-name AdventureWorksLT # Create the second SQL Database instance, AdatumERP, to create the sales data source. az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumERP --service-objective Basic --sample-name AdventureWorksLT
Po dokončení spuštění skriptu na <DP-prefix>-dev-sqlserver001
serveru Azure SQL máte dvě nové instance AdatumCRM
služby SQL Database a AdatumERP
. Obě databáze jsou na výpočetní úrovni Basic. Databáze se nacházejí ve stejné <DLZ-prefix>-dev-dp001
skupině prostředků, kterou jste použili k nasazení dávky datového produktu.
Nastavení Purview pro katalog datové dávky produktu
Dále dokončete kroky nastavení Purview pro katalog datové dávky produktu. Začnete vytvořením instančního objektu. Potom nastavíte požadované prostředky a přiřadíte role a přístupová oprávnění.
Vytvoření instančního objektu služby
Na webu Azure Portal v globálních ovládacích prvcích portálu vyberte ikonu Cloud Shellu a otevřete terminál Azure Cloud Shellu. Jako typ terminálu vyberte Bash .
Revidujte následující skript:
- Nahraďte hodnotu zástupného symbolu parametru
subscriptionId
vlastním ID předplatného Azure. - Nahraďte zástupnou hodnotu parametru
spname
názvem, který chcete použít pro instanční objekt. Název instančního objektu musí být v předplatném jedinečný.
Po aktualizaci hodnot parametrů spusťte skript v Cloud Shellu.
# Replace the parameter values with the name you want to use for your service principal name and your Azure subscription ID. spname="<your-service-principal-name>" subscriptionId="<your-subscription-id>" # Set the scope to the subscription. scope="/subscriptions/$subscriptionId" # Create the service principal. az ad sp create-for-rbac \ --name $spname \ --role "Contributor" \ --scope $scope
- Nahraďte hodnotu zástupného symbolu parametru
Ve výstupu JSON zkontrolujte výsledek podobný následujícímu příkladu. Poznamenejte si nebo zkopírujte hodnoty ve výstupu, které chcete použít v pozdějších krocích.
{ "appId": "<your-app-id>", "displayName": "<service-principal-display-name>", "name": "<your-service-principal-name>", "password": "<your-service-principal-password>", "tenant": "<your-tenant>" }
Nastavení přístupu a oprávnění instančního objektu
Z výstupu JSON vygenerovaného v předchozím kroku získejte následující vrácené hodnoty:
- ID instančního objektu (
appId
) - Klíč instančního objektu (
password
)
Instanční objekt musí mít následující oprávnění:
- Role Čtenář dat objektů blob služby Storage v účtech úložiště
- Oprávnění čtečky dat k instancím služby SQL Database
Pokud chcete nastavit instanční objekt s požadovanou rolí a oprávněními, proveďte následující kroky.
Oprávnění účtu služby Azure Storage
Na webu Azure Portal přejděte do
<DLZ-prefix>devraw
účtu Azure Storage. V nabídce prostředků vyberte Řízení přístupu (IAM).Vyberte Přidat>Přidat přiřazení role.
V části Přidat přiřazení role na kartě Role vyhledejte a vyberte Čtenář dat objektů blob služby Storage. Pak vyberte Další.
V oblasti Členové zvolte Vybrat členy.
V části Vybrat členy vyhledejte název instančního objektu, který jste vytvořili.
Ve výsledcích hledání vyberte instanční objekt a pak zvolte Vybrat.
Přiřazení role dokončíte tak, že dvakrát vyberete Zkontrolovat a přiřadit .
Opakujte kroky v této části pro zbývající účty úložiště:
<DLZ-prefix>devencur
<DLZ-prefix>devwork
Oprávnění služby SQL Database
Pokud chcete nastavit oprávnění služby SQL Database, připojte se k virtuálnímu počítači Azure SQL pomocí editoru dotazů. Vzhledem k tomu, že všechny prostředky jsou za privátním koncovým bodem, musíte se nejprve přihlásit k webu Azure Portal pomocí hostitelského virtuálního počítače služby Azure Bastion.
Na webu Azure Portal se připojte k virtuálnímu počítači, který je nasazený ve <DMLZ-prefix>-dev-bastion
skupině prostředků. Pokud nevíte, jak se připojit k virtuálnímu počítači pomocí hostitelské služby Bastion, přečtěte si téma Připojení k virtuálnímu počítači.
Pokud chcete přidat instanční objekt jako uživatele v databázi, možná budete muset nejprve přidat sebe jako správce Microsoft Entra. V krocích 1 a 2 přidáte sami sebe jako správce Microsoft Entra. V krocích 3 až 5 udělíte instančnímu objektu oprávnění k databázi. Po přihlášení k portálu z hostitelského virtuálního počítače Bastion vyhledejte virtuální počítače Azure SQL na webu Azure Portal.
Přejděte na
<DP-prefix>-dev-sqlserver001
virtuální počítač Azure SQL. V nabídce prostředků v části Nastavení vyberte Microsoft Entra ID.Na panelu příkazů vyberte Nastavit správce. Vyhledejte a vyberte svůj vlastní účet. Zvolte Vybrat.
V nabídce prostředků vyberte databáze SQL a pak databázi
AdatumCRM
.V nabídce prostředků AdatumCRM vyberte Editor dotazů (Preview). V části Ověřování služby Active Directory vyberte tlačítko Pokračovat jako , abyste se přihlásili.
V editoru dotazů upravte následující příkazy tak, aby se nahradily
<service principal name>
názvem vytvořeného instančního objektu (napříkladpurview-service-principal
). Potom spusťte příkazy.CREATE USER [<service principal name>] FROM EXTERNAL PROVIDER GO EXEC sp_addrolemember 'db_datareader', [<service principal name>] GO
Opakujte kroky 3 až 5 pro AdatumERP
databázi.
Nastavení trezoru klíčů
Purview načte klíč instančního objektu z instance služby Azure Key Vault. Trezor klíčů se vytvoří v nasazení cílové zóny správy dat. K nastavení trezoru klíčů jsou potřeba následující kroky:
Přidejte klíč instančního objektu do trezoru klíčů jako tajný klíč.
Udělte v trezoru klíčů oprávnění čtenáře tajných kódů MSI purview.
Přidejte trezor klíčů do Purview jako připojení trezoru klíčů.
Vytvořte v Purview přihlašovací údaje, které odkazují na tajný klíč trezoru klíčů.
Přidání oprávnění pro přidání tajného kódu do trezoru klíčů
Na webu Azure Portal přejděte do služby Azure Key Vault. Vyhledejte
<DMLZ-prefix>-dev-vault001
trezor klíčů.V nabídce prostředků vyberte Řízení přístupu (IAM). Na panelupříkazůch
Na kartě Role vyhledejte a pak vyberte Správce služby Key Vault. Vyberte Další.
V části Členové zvolte Vybrat členy a přidejte účet, který je aktuálně přihlášený.
V části Vybrat členy vyhledejte účet, který je aktuálně přihlášený. Vyberte účet a pak zvolte Vybrat.
Proces přiřazení role dokončíte tak, že dvakrát vyberete Zkontrolovat a přiřadit .
Přidání tajného klíče do trezoru klíčů
Pomocí následujících kroků se přihlaste k webu Azure Portal z hostitelského počítače Bastion.
V nabídce prostředků trezoru
<DMLZ-prefix>-dev-vault001
klíčů vyberte Tajné kódy. Na panelu příkazů vyberte Generovat/Importovat a vytvořte nový tajný kód.V části Vytvořit tajný klíč vyberte nebo zadejte následující hodnoty:
Nastavení Akce Možnosti nahrávání Vyberte Ručně. Název Zadejte tajný klíč instančního objektu. Hodnota Zadejte heslo instančního objektu, které jste vytvořili dříve. Poznámka:
Tento krok vytvoří tajný klíč pojmenovaný
service-principal-secret
v trezoru klíčů pomocí klíče hesla instančního objektu. Purview používá tajný kód pro připojení ke zdrojům dat a prohledávání. Pokud zadáte nesprávné heslo, nebudete moct dokončit následující části.Vyberte Vytvořit.
Nastavení oprávnění Purview v trezoru klíčů
Aby instance Purview četla tajné kódy uložené v trezoru klíčů, musíte purview přiřadit příslušná oprávnění v trezoru klíčů. Pokud chcete nastavit oprávnění, přidáte spravovanou identitu Purview do role Čtenář tajných kódů trezoru klíčů.
V nabídce prostředků trezoru
<DMLZ-prefix>-dev-vault001
klíčů vyberte Řízení přístupu (IAM).Na panelupříkazůch
V roli vyhledejte a vyberte uživatele tajných kódů služby Key Vault. Vyberte Další.
V oblasti Členové zvolte Vybrat členy.
Vyhledejte
<DMLZ-prefix>-dev-purview001
instanci Purview. Vyberte instanci, do které chcete přidat příslušný účet. Pak zvolte Vybrat.Proces přiřazení role dokončíte tak, že dvakrát vyberete Zkontrolovat a přiřadit .
Nastavení připojení trezoru klíčů v Purview
Pokud chcete nastavit připojení trezoru klíčů k Purview, musíte se přihlásit k webu Azure Portal pomocí hostitelského virtuálního počítače služby Azure Bastion.
Na webu Azure Portal přejděte na
<DMLZ-prefix>-dev-purview001
účet Purview. V části Začínáme na portálu zásad správného řízení Microsoft Purview vyberte Otevřít.V nástroji Purview Studio vyberte Přihlašovací údaje pro správu>. Na panelu příkazů Přihlašovací údaje vyberte Spravovat připojení služby Key Vault a pak vyberte Nový.
V okně Nové připojení trezoru klíčů vyberte nebo zadejte následující informace:
Nastavení Akce Název Zadejte <DMLZ-prefix-dev-vault001>. Předplatné Azure Vyberte předplatné, které je hostitelem trezoru klíčů. Název služby Key Vault <Vyberte trezor klíčů DMLZ-prefix-dev-vault001>. Vyberte Vytvořit.
V možnosti Potvrdit udělení přístupu vyberte Potvrdit.
Vytvoření přihlašovacích údajů v Purview
Posledním krokem k nastavení trezoru klíčů je vytvoření přihlašovacích údajů v Purview, které odkazuje na tajný klíč, který jste vytvořili v trezoru klíčů pro instanční objekt.
V nástroji Purview Studio vyberte Přihlašovací údaje pro správu>. Na panelu příkazů Přihlašovací údaje vyberte Nový.
V části Nové přihlašovací údaje vyberte nebo zadejte následující informace:
Nastavení Akce Název Zadejte purviewServicePrincipal. Metoda ověřování Vyberte instanční objekt. ID klientu Hodnota se vyplní automaticky. ID instančního objektu Zadejte ID aplikace nebo ID klienta instančního objektu. Připojení ke službě Key Vault Vyberte připojení trezoru klíčů, které jste vytvořili v předchozí části. Název tajného kódu Zadejte název tajného klíče do trezoru klíčů (service-principal-secret). Vyberte Vytvořit.
Registrace zdrojů dat
V tomto okamžiku se Purview může připojit k instančnímu objektu. Teď můžete zaregistrovat a nastavit zdroje dat.
Registrace účtů Azure Data Lake Storage Gen2
Následující kroky popisují proces registrace účtu úložiště Azure Data Lake Storage Gen2.
V Purview Studiu vyberte ikonu mapy dat, vyberte Zdroje a pak vyberte Zaregistrovat.
V registru zdrojů vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.
V části Registrovat zdroje (Azure Data Lake Storage Gen2) vyberte nebo zadejte následující informace:
Nastavení Akce Název Zadejte <předponu>DLZ dldevraw. Předplatné Azure Vyberte předplatné, které je hostitelem účtu úložiště. Název účtu úložiště Vyberte příslušný účet úložiště. Endpoint Hodnota se automaticky vyplní na základě vybraného účtu úložiště. Výběr kolekce Vyberte kořenovou kolekci. Výběrem možnosti Zaregistrovat vytvořte zdroj dat.
Opakujte tento postup pro následující účty úložiště:
<DMLZ-prefix>devencur
<DMLZ-prefix>devwork
Registrace instance služby SQL Database jako zdroje dat
V Nástroji Purview Studio vyberte ikonu mapování dat, vyberte Zdroje a pak vyberte Zaregistrovat.
V registru zdrojů vyberte Azure SQL Database a pak vyberte Pokračovat.
V části Registrovat zdroje (Azure SQL Database) vyberte nebo zadejte následující informace:
Nastavení Akce Název Zadejte databázi SQLDatabase (název databáze vytvořené v instanci Create Azure SQL Database). Předplatné Vyberte předplatné, které je hostitelem databáze. Název serveru Zadejte <DP-prefix-dev-sqlserver001>. Vyberte Zaregistrovat.
Nastavení kontrol
Dále nastavte vyhledávání zdrojů dat.
Kontrola zdroje dat Data Lake Storage Gen2
V Nástroji Purview Studio přejděte na mapu dat. Ve zdroji dat vyberte ikonu Nová kontrola .
V novém podokně skenování vyberte nebo zadejte následující informace:
Nastavení Akce Název Zadejte Scan_<DLZ-prefix>devraw. Připojení přes prostředí Integration Runtime Vyberte místní prostředí Integration Runtime, které se nasadilo s cílovou zónou dat. Pověření Vyberte instanční objekt, který jste nastavili pro Purview. Výběrem možnosti Test připojení ověřte připojení a příslušná oprávnění. Zvolte Pokračovat.
V oboru kontroly vyberte jako obor kontroly celý účet úložiště a pak vyberte Pokračovat.
V části Vyberte sadu pravidel kontroly, vyberte AdlsGen2 a pak vyberte Pokračovat.
V nastavení triggeru kontroly vyberte Jednou a pak vyberte Pokračovat.
V části Kontrola kontroly zkontrolujte nastavení kontroly. Výběrem možnosti Uložit a Spustit spusťte kontrolu.
Opakujte tento postup pro následující účty úložiště:
<DMLZ-prefix>devencur
<DMLZ-prefix>devwork
Kontrola zdroje dat služby SQL Database
Ve zdroji dat Azure SQL Database vyberte Nová kontrola.
V novém podokně skenování vyberte nebo zadejte následující informace:
Nastavení Akce Název Zadejte Scan_Database001. Připojení přes prostředí Integration Runtime Vyberte Purview-SHIR. Název databáze Vyberte název databáze. Pověření Vyberte přihlašovací údaje trezoru klíčů, které jste vytvořili v Purview. Extrakce rodokmenu (Preview) Vyberte Vypnuto. Výběrem možnosti Test připojení ověřte připojení a příslušná oprávnění. Zvolte Pokračovat.
Vyberte obor kontroly. Pokud chcete zkontrolovat celou databázi, použijte výchozí hodnotu.
V části Vyberte sadu pravidel kontroly, vyberte AzureSqlDatabase a pak vyberte Pokračovat.
V nastavení triggeru kontroly vyberte Jednou a pak vyberte Pokračovat.
V části Kontrola kontroly zkontrolujte nastavení kontroly. Výběrem možnosti Uložit a Spustit spusťte kontrolu.
Tento postup opakujte pro AdatumERP
databázi.
Purview je teď nastavený pro zásady správného řízení dat pro registrované zdroje dat.
Kopírování dat sql Database do Data Lake Storage Gen2
V následujících krocích AdatumCRM
pomocí nástroje Pro kopírování dat ve službě Data Factory vytvoříte kanál pro kopírování tabulek z instancí služby SQL Database a AdatumERP
do souborů CSV v <DLZ-prefix>devraw
účtu Data Lake Storage Gen2.
Prostředí je uzamčené pro veřejný přístup, takže nejdřív musíte nastavit privátní koncové body. Pokud chcete používat privátní koncové body, přihlásíte se k webu Azure Portal v místním prohlížeči a pak se připojíte k hostitelskému virtuálnímu počítači Bastion pro přístup k požadovaným službám Azure.
Vytváření privátních koncových bodů
Nastavení privátních koncových bodů pro požadované prostředky:
<DMLZ-prefix>-dev-bastion
Ve skupině prostředků vyberte<DMLZ-prefix>-dev-vm001
.Na panelu příkazů vyberte Připojit a vyberte Bastion.
Zadejte uživatelské jméno a heslo virtuálního počítače a pak vyberte Připojit.
Ve webovém prohlížeči virtuálního počítače přejděte na web Azure Portal. Přejděte do
<DLZ-prefix>-dev-shared-integration
skupiny prostředků a otevřete datovou továrnu<DLZ-prefix>-dev-integration-datafactory001
.V části Začínáme v nástroji Open Azure Data Factory Studio vyberte Otevřít.
V nabídce Data Factory Studio vyberte ikonu Spravovat (ikona vypadá jako čtvercový panel nástrojů s razítkem klíče). V nabídce prostředků vyberte spravované privátní koncové body a vytvořte privátní koncové body, které jsou potřeba k připojení služby Data Factory k jiným zabezpečeným službám Azure.
Schválení žádostí o přístup pro privátní koncové body je popsáno v další části. Jakmile schválíte žádosti o přístup k privátnímu koncovému bodu, stav schválení se schválí, jak je znázorněno v následujícím příkladu
<DLZ-prefix>devencur
účtu úložiště.Než schválíte připojení privátního koncového bodu, vyberte Nový. Zadáním Azure SQL najděte konektor azure SQL Database, který použijete k vytvoření nového spravovaného privátního koncového
<DP-prefix>-dev-sqlserver001
bodu pro virtuální počítač Azure SQL. Virtuální počítač obsahuje dříveAdatumCRM
vytvořené databáze aAdatumERP
databáze.Do pole Nový spravovaný privátní koncový bod (Azure SQL Database) zadejte jako název data-product-dev-sqlserver001. Zadejte předplatné Azure, které jste použili k vytvoření prostředků. Jako název serveru vyberte
<DP-prefix>-dev-sqlserver001
, abyste se k němu mohli připojit z této datové továrny v dalších částech.
Schválení žádostí o přístup k privátním koncovým bodům
Pokud chcete službě Data Factory udělit přístup k privátním koncovým bodům pro požadované služby, máte několik možností:
Možnost 1: V každé službě, ke které požadujete přístup, přejděte na webu Azure Portal na možnost připojení k síti nebo privátnímu koncovému bodu a schvalte žádosti o přístup k privátnímu koncovému bodu.
Možnost 2: Spuštěním následujících skriptů v Azure Cloud Shellu v režimu Bash schvalte všechny žádosti o přístup k požadovaným privátním koncovým bodům najednou.
# Storage managed private endpoint approval # devencur resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-storage')==\`true\`].name") storageAcctName=$(az storage account list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'devencur')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved" # devraw resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-storage')==\`true\`].name") storageAcctName=$(az storage account list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'devraw')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved" # SQL Database managed private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-dp001')==\`true\`].name") sqlServerName=$(az sql server list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'sqlserver001')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $sqlServerName --type Microsoft.Sql/servers -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $sqlServerName --type Microsoft.Sql/servers --description "Approved" # Key Vault private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-metadata')==\`true\`].name") keyVaultName=$(az keyvault list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'dev-vault001')==\`true\`].name") endPointConnectionID=$(az network private-endpoint-connection list -g $resourceGroupName -n $keyVaultName --type Microsoft.Keyvault/vaults -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].id") az network private-endpoint-connection approve -g $resourceGroupName --id $endPointConnectionID --resource-name $keyVaultName --type Microsoft.Keyvault/vaults --description "Approved" # Purview private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, 'dev-governance')==\`true\`].name") purviewAcctName=$(az purview account list -g $resourceGroupName -o tsv --query "[?contains(@.name, '-dev-purview001')==\`true\`].name") for epn in $(az network private-endpoint-connection list -g $resourceGroupName -n $purviewAcctName --type Microsoft.Purview/accounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") do az network private-endpoint-connection approve -g $resourceGroupName -n $epn --resource-name $purviewAcctName --type Microsoft.Purview/accounts --description "Approved" done
Následující příklad ukazuje, jak <DLZ-prefix>devraw
účet úložiště spravuje žádosti o přístup privátního koncového bodu. V nabídce prostředků pro účet úložiště vyberte Sítě. Na panelu příkazů vyberte připojení privátního koncového bodu.
U některých prostředků Azure v nabídce prostředků vyberete připojení privátního koncového bodu. Příklad pro Azure SQL Server je zobrazený na následujícím snímku obrazovky.
Pokud chcete schválit žádost o přístup k privátnímu koncovému bodu, v připojeních privátních koncových bodů vyberte čekající žádost o přístup a pak vyberte Schválit:
Po schválení žádosti o přístup v každé požadované službě může trvat několik minut, než se žádost v nástroji Data Factory Studio zobrazí jako schválená ve spravovaných privátních koncových bodech . I když na panelu příkazů vyberete Aktualizovat , může být stav schválení za několik minut zastaralý.
Po dokončení schvalování všech žádostí o přístup pro požadované služby ve spravovaných privátních koncových bodech je hodnota stavu Schválení pro všechny služby schválena:
Přiřazení rolí
Po dokončení schvalování žádostí o přístup k privátním koncovým bodům přidejte příslušná oprávnění role pro službu Data Factory pro přístup k těmto prostředkům:
- Instance
AdatumCRM
služby SQL Database aAdatumERP
na<DP-prefix>-dev-sqlserver001
serveru Azure SQL - Účty
<DLZ-prefix>devraw
úložiště ,<DLZ-prefix>devencur
a<DLZ-prefix>devwork
- Účet Purview
<DMLZ-prefix>-dev-purview001
Virtuální počítač Azure SQL
Pokud chcete přidat přiřazení rolí, začněte virtuálním počítačem Azure SQL. Ve skupině
<DMLZ-prefix>-dev-dp001
prostředků přejděte na<DP-prefix>-dev-sqlserver001
.V nabídce prostředků vyberte Řízení přístupu (IAM). Na panelu příkazů vyberte Přidat>přiřazení role.
Na kartě Role vyberte Přispěvatel a pak vyberte Další.
V možnosti Členové vyberte možnost Přiřadit přístup ke spravované identitě. V případě členů zvolte Vybrat členy.
V části Vybrat spravované identity vyberte své předplatné Azure. U spravované identity vyberte Data Factory (V2) a zobrazte dostupné datové továrny. V seznamu datových továren vyberte Azure Data Factory <DLZ-prefix-dev-integration-datafactory001>. Zvolte Vybrat.
Proces dokončíte tak, že vyberete Zkontrolovat a přiřadit dvakrát.
Účty úložiště
Dále přiřaďte požadované role účtům , <DLZ-prefix>devencur
a <DLZ-prefix>devwork
účtům <DLZ-prefix>devraw
úložiště.
Pokud chcete přiřadit role, proveďte stejné kroky, které jste použili k vytvoření přiřazení role serveru Azure SQL. U této role ale místo přispěvatele vyberte Přispěvatel dat objektů blob služby Storage.
Po přiřazení rolí pro všechny tři účty úložiště se služba Data Factory může připojit k účtům úložiště a přistupovat k nim.
Microsoft Purview
Posledním krokem pro přidání přiřazení rolí je přidání role kurátora dat Purview v Microsoft Purview do účtu <DLZ-prefix>-dev-integration-datafactory001
spravované identity datové továrny. Proveďte následující kroky, aby data Factory mohl odesílat informace o prostředcích katalogu dat z více zdrojů dat do účtu Purview.
Ve skupině
<DMLZ-prefix>-dev-governance
prostředků přejděte na<DMLZ-prefix>-dev-purview001
účet Purview.V Purview Studiu vyberte ikonu mapy dat a pak vyberte Kolekce.
Vyberte kartu Přiřazení rolí pro kolekci. V části Kurátoré dat přidejte spravovanou identitu pro
<DLZ-prefix>-dev-integration-datafactory001
:
Připojení služby Data Factory k Purview
Oprávnění jsou nastavená a Purview teď může zobrazit datová továrna. Dalším krokem je připojení <DMLZ-prefix>-dev-purview001
k <DLZ-prefix>-dev-integration-datafactory001
.
V Purview Studiu vyberte ikonu Správa a pak vyberte Data Factory. Výběrem možnosti Nový vytvořte připojení služby Data Factory.
V podokně Připojení k nové službě Data Factory zadejte své předplatné Azure a vyberte datovou továrnu
<DLZ-prefix>-dev-integration-datafactory001
. Vyberte OK.<DLZ-prefix>-dev-integration-datafactory001
V instanci Data Factory Studio v části Spravovat>Azure Purview aktualizujte účet Azure Purview.Integrace
Data Lineage - Pipeline
teď zobrazuje zelenou ikonu Připojeno .
Vytvoření kanálu ETL
Teď, když <DLZ-prefix>-dev-integration-datafactory001
má požadovaná přístupová oprávnění, vytvořte ve službě Data Factory aktivitu kopírování, která přesune data z instancí služby SQL Database do nezpracovaného <DLZ-prefix>devraw
účtu úložiště.
Použití nástroje pro kopírování dat s AdatumCRM
Tento proces extrahuje zákaznická data z AdatumCRM
instance služby SQL Database a zkopíruje je do úložiště Data Lake Storage Gen2.
V nástroji Data Factory Studio vyberte ikonu Autor a pak vyberte Prostředky továrny. Vyberte znaménko plus (+) a vyberte Nástroj pro kopírování dat.
Proveďte každý krok v průvodci nástrojem pro kopírování dat:
Pokud chcete vytvořit trigger pro spuštění kanálu každých 24 hodin, vyberte Plán.
Pokud chcete vytvořit propojenou službu pro připojení této datové továrny k
AdatumCRM
instanci služby SQL Database na<DP-prefix>-dev-sqlserver001
serveru (zdroj), vyberte Nové připojení.Poznámka:
Pokud dojde k chybám při připojování k datům v instancích služby SQL Database nebo účtech úložiště nebo při přístupu k datům, zkontrolujte svá oprávnění v předplatném Azure. Ujistěte se, že datová továrna má požadované přihlašovací údaje a přístupová oprávnění k jakémukoli problematickému prostředku.
Vyberte tyto tři tabulky:
SalesLT.Address
SalesLT.Customer
SalesLT.CustomerAddress
Vytvořte novou propojenou službu pro přístup k úložišti
<DLZ-prefix>devraw
Azure Data Lake Storage Gen2 (cíl).Procházejte složky v úložišti
<DLZ-prefix>devraw
a jako cíl vyberte Data .Změňte příponu názvu souboru na .csv a použijte další výchozí možnosti.
Přejděte do dalšího podokna a vyberte Přidat záhlaví do souboru.
Po dokončení průvodce vypadá podokno Dokončení nasazení podobně jako v tomto příkladu:
Nový kanál je uvedený v Pipelines.
Spuštění kanálu
Tento proces vytvoří ve složce Data\CRM tři .csv soubory, jeden pro každou vybranou tabulku v AdatumCRM
databázi.
Přejmenujte kanál
CopyPipeline_CRM_to_Raw
.Přejmenujte datové sady
CRM_Raw_Storage
aCRM_DB
.Na panelu příkazů Prostředky továrny vyberte Publikovat vše.
Vyberte kanál a na panelu
CopyPipeline_CRM_to_Raw
příkazů kanálu vyberte Trigger a zkopírujte tři tabulky ze služby SQL Database do Data Lake Storage Gen2.
Použití nástroje pro kopírování dat s AdatumERP
Dále extrahujte data z AdatumERP
databáze. Data představují prodejní data pocházející ze systému ERP.
Ve službě Data Factory Studio vytvořte nový kanál pomocí nástroje pro kopírování dat. Tentokrát odesíláte prodejní data ze
AdatumERP
<DLZ-prefix>devraw
složky s daty účtu úložiště stejným způsobem jako s daty CRM. Proveďte stejné kroky, ale jako zdroj použijteAdatumERP
databázi.Vytvořte plán, který se má aktivovat každou hodinu.
Vytvořte propojenou službu s
AdatumERP
instancí služby SQL Database.Vyberte tyto sedm tabulek:
SalesLT.Product
SalesLT.ProductCategory
SalesLT.ProductDescription
SalesLT.ProductModel
SalesLT.ProductModelProductDescription
SalesLT.SalesOrderDetail
SalesLT.SalesOrderHeader
Použijte existující propojenou službu k
<DLZ-prefix>devraw
účtu úložiště a nastavte příponu souboru na .csv.Vyberte Přidat hlavičku do souboru.
Dokončete průvodce znovu a přejmenujte kanál
CopyPipeline_ERP_to_DevRaw
. Potom na panelu příkazů vyberte Publikovat vše. Nakonec spuštěním triggeru pro tento nově vytvořený kanál zkopírujte sedm vybraných tabulek z SQL Database do Data Lake Storage Gen2.
Po dokončení těchto kroků se 10 souborů CSV nachází v úložišti <DLZ-prefix>devraw
Data Lake Storage Gen2. V další části budete spravovat soubory v úložišti <DLZ-prefix>devencur
Data Lake Storage Gen2.
Kurátorování dat ve službě Data Lake Storage Gen2
Po dokončení vytváření 10 souborů CSV v nezpracovaném <DLZ-prefix>devraw
úložišti Data Lake Storage Gen2 tyto soubory podle potřeby transformujte podle potřeby do kurátorovaného <DLZ-prefix>devencur
úložiště Data Lake Storage Gen2.
Pokračujte v používání služby Azure Data Factory k vytvoření těchto nových kanálů pro orchestraci přesunu dat.
Curate CRM to customer data
Vytvořte tok dat, který získá soubory CSV ve složce Data\CRM ve <DLZ-prefix>devraw
složce . Transformujte soubory a zkopírujte transformované soubory ve formátu souboru .parquet do složky Data\Customer v <DLZ-prefix>devencur
souboru .
Ve službě Azure Data Factory přejděte do datové továrny a vyberte Orchestrate (Orchestrate).
V části Obecné pojmenujte kanál
Pipeline_transform_CRM
.V podokně Aktivity rozbalte položku Přesunout a transformovat. Přetáhněte aktivitu toku dat a přesuňte ji na plátno kanálu.
V části Přidání Tok dat vyberte Vytvořit nový tok dat a pojmenujte tok
CRM_to_Customer
dat . Vyberte Dokončit.Poznámka:
Na panelu příkazů na plátně kanálu zapněte ladění toku dat. V režimu ladění můžete interaktivně otestovat logiku transformace na živém clusteru Apache Spark. Zahřátí clusterů toků dat trvá 5 až 7 minut. Než začnete s vývojem toku dat, doporučujeme zapnout ladění.
Po dokončení výběru možností v
CRM_to_Customer
tokuPipeline_transform_CRM
dat vypadá kanál podobně jako v tomto příkladu:Tok dat vypadá jako v tomto příkladu:
Dále upravte tato nastavení ve toku dat pro
CRMAddress
zdroj:Vytvořte novou datovou sadu z Data Lake Storage Gen2. Použijte formát DelimitedText. Pojmenujte datovou sadu
DevRaw_CRM_Address
.Připojte propojenou službu k
<DLZ-prefix>devraw
.Data\CRM\SalesLTAddress.csv
Vyberte soubor jako zdroj.
Upravte tato nastavení v toku dat pro spárovanou
CustAddress
jímku:Vytvořte novou datovou sadu s názvem
DevEncur_Cust_Address
.Jako jímku vyberte složku
<DLZ-prefix>devencur
Data\Customer.V části Nastavení\Výstup na jeden soubor převeďte soubor na Address.parquet.
Pro zbytek konfigurace toku dat použijte informace v následujících tabulkách pro každou komponentu. Všimněte si, že CRMAddress
a CustAddress
jsou to první dva řádky. Použijte je jako příklady pro ostatní objekty.
Položka, která není v některé z následujících tabulek, je modifikátor schématu RemovePasswords
. Předchozí snímek obrazovky ukazuje, že tato položka přechází mezi CRMCustomer
a CustCustomer
. Pokud chcete přidat tento modifikátor schématu, přejděte do části Vybrat nastavení a odeberte PasswordHash a PasswordSalt.
CRMCustomer
vrátí schéma 15 sloupců ze souboru .crv. CustCustomer
Zapíše pouze 13 sloupců poté, co modifikátor schématu odebere dva sloupce hesel.
Kompletní tabulka
Název | Object type | Název datové sady | Úložiště dat | Typ formátu | Propojená služba | Soubor nebo složka |
---|---|---|---|---|---|---|
CRMAddress |
Zdroj | DevRaw_CRM_Address |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\CRM\SalesLTAddress.csv |
CustAddress |
Jímka | DevEncur_Cust_Address |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Customer\Address.parquet |
CRMCustomer |
Zdroj | DevRaw_CRM_Customer |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\CRM\SalesLTCustomer.csv |
CustCustomer |
Jímka | DevEncur_Cust_Customer |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Customer\Customer.parquet |
CRMCustomerAddress |
Zdroj | DevRaw_CRM_CustomerAddress |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\CRM\SalesLTCustomerAddress.csv |
CustCustomerAddress |
Jímka | DevEncur_Cust_CustomerAddress |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Customer\CustomerAddress.parquet |
Tabulka ERP to Sales
Teď opakujte podobné kroky pro vytvoření Pipeline_transform_ERP
kanálu, vytvořte ERP_to_Sales
tok dat pro transformaci .csv souborů ve složce Data\ERP a <DLZ-prefix>devraw
zkopírujte transformované soubory do složky Data\Sales v <DLZ-prefix>devencur
.
V následující tabulce najdete objekty, které se mají vytvořit v ERP_to_Sales
toku dat, a nastavení, která je potřeba upravit pro každý objekt. Každý soubor .csv je mapován na jímku .parquet .
Název | Object type | Název datové sady | Úložiště dat | Typ formátu | Propojená služba | Soubor nebo složka |
---|---|---|---|---|---|---|
ERPProduct |
Zdroj | DevRaw_ERP_Product |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\ERP\SalesLTProduct.csv |
SalesProduct |
Jímka | DevEncur_Sales_Product |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\Product.parquet |
ERPProductCategory |
Zdroj | DevRaw_ERP_ProductCategory |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\ERP\SalesLTProductCategory.csv |
SalesProductCategory |
Jímka | DevEncur_Sales_ProductCategory |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductCategory.parquet |
ERPProductDescription |
Zdroj | DevRaw_ERP_ProductDescription |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\ERP\SalesLTProductDescription.csv |
SalesProductDescription |
Jímka | DevEncur_Sales_ProductDescription |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductDescription.parquet |
ERPProductModel |
Zdroj | DevRaw_ERP_ProductModel |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\ERP\SalesLTProductModel.csv |
SalesProductModel |
Jímka | DevEncur_Sales_ProductModel |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductModel.parquet |
ERPProductModelProductDescription |
Zdroj | DevRaw_ERP_ProductModelProductDescription |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\ERP\SalesLTProductModelProductDescription.csv |
SalesProductModelProductDescription |
Jímka | DevEncur_Sales_ProductModelProductDescription |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductModelProductDescription.parquet |
ERPProductSalesOrderDetail |
Zdroj | DevRaw_ERP_ProductSalesOrderDetail |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\ERP\SalesLTProductSalesOrderDetail.csv |
SalesProductSalesOrderDetail |
Jímka | DevEncur_Sales_ProductSalesOrderDetail |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductSalesOrderDetail.parquet |
ERPProductSalesOrderHeader |
Zdroj | DevRaw_ERP_ProductSalesOrderHeader |
Azure Data Lake Storage Gen2 | Text s oddělovači | devraw |
Data\ERP\SalesLTProductSalesOrderHeader.csv |
SalesProductSalesOrderHeader |
Jímka | DevEncur_Sales_ProductSalesOrderHeader |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductSalesOrderHeader.parquet |