Koncepty dat ve službě Azure Machine Learning

Článek
09/02/2024

Pomocí služby Azure Machine Learning můžete importovat data z místního počítače nebo z existujícího cloudového prostředku úložiště. Tento článek popisuje klíčové koncepty dat služby Azure Machine Learning.

Úložiště dat

Úložiště dat Azure Machine Learning slouží jako odkaz na existující účet úložiště Azure. Úložiště dat Azure Machine Learning nabízí tyto výhody:

Běžné snadno použitelné rozhraní API, které komunikuje s různými typy úložiště (Blob/Files/ADLS).
Snadnější zjišťování užitečných úložišť dat v týmových operacích.
Pro přístup na základě přihlašovacích údajů (instanční objekt/ SAS/klíč) zabezpečí úložiště dat Azure Machine Learning informace o připojení. Tímto způsobem nemusíte tyto informace zadávat do skriptů.

Při vytváření úložiště dat s existujícím účtem úložiště Azure máte dvě různé možnosti metody ověřování:

Na základě přihlašovacích údajů – ověřování přístupu k datům pomocí instančního objektu, tokenu sdíleného přístupového podpisu (SAS) nebo klíče účtu Uživatelé s přístupem k pracovnímu prostoru Čtenář mají přístup k přihlašovacím údajům.
Na základě identity – k ověření přístupu k datům použijte identitu Microsoft Entra nebo spravovanou identitu.

Tato tabulka shrnuje cloudové služby úložiště Azure, které může úložiště dat Azure Machine Learning vytvořit. Kromě toho tabulka shrnuje typy ověřování, které mají přístup k těmto službám:

Podporované služby úložiště	Ověřování na základě přihlašovacích údajů	Ověřování na základě identity
Kontejner objektů blob Azure	✓	✓
Sdílená složka Azure	✓
Azure Data Lake Gen1	✓	✓
Azure Data Lake Gen2	✓	✓

Další informace o úložištích dat najdete v tématu Vytváření úložišť dat.

Výchozí úložiště dat

Každý pracovní prostor Azure Machine Learning má výchozí účet úložiště (účet úložiště Azure), který obsahuje tyto úložiště dat:

Tip

Pokud chcete najít ID vašeho pracovního prostoru, přejděte do pracovního prostoru na webu Azure Portal. Rozbalte položku Nastavení a pak vyberte Vlastnosti. Zobrazí se ID pracovního prostoru.

Název úložiště dat	Typ datového úložiště	Název úložiště dat	Popis
`workspaceblobstore`	Kontejner objektů blob	`azureml-blobstore-{workspace-id}`	Ukládá nahrávání dat, snímky kódu úlohy a mezipaměť dat kanálu.
`workspaceworkingdirectory`	Sdílená složka	`code-{GUID}`	Ukládá data pro poznámkové bloky, výpočetní instance a tok výzvy.
`workspacefilestore`	Sdílená složka	`azureml-filestore-{workspace-id}`	Alternativní kontejner pro nahrání dat
`workspaceartifactstore`	Kontejner objektů blob	`azureml`	Úložiště pro prostředky, jako jsou metriky, modely a komponenty.

Datové typy

Identifikátor URI (umístění úložiště) může odkazovat na soubor, složku nebo tabulku dat. Definice vstupu a výstupu úlohy strojového učení vyžaduje jeden z těchto tří datových typů:

Typ	V2 API	V1 API	Kanonické scénáře	Rozdíl mezi rozhraním API V2 a V1
Soubor Odkaz na jeden soubor	`uri_file`	`FileDataset`	Čtení a zápis jednoho souboru – soubor může mít libovolný formát.	Typ nového rozhraní vůči API V2. V rozhraních API V1 se soubory vždy mapují na složku v cílovém systému souborů výpočetního prostředí; toto mapování vyžadovalo `os.path.join`. V rozhraních API V2 se namapuje jeden soubor. Tímto způsobem můžete odkazovat na toto umístění v kódu.
Složka Odkaz na jednu složku	`uri_folder`	`FileDataset`	Do Pandas/Sparku musíte číst/zapisovat složku souborů parquet/CSV. Hluboké učení s obrázky, textem, zvukem, videosoubory umístěnými ve složce.	V rozhraních API V1 měl `FileDataset` přidružený modul, který mohl ze složky brát ukázkový soubor. V rozhraních API V2 je složka jednoduchým mapováním na cílový systém souborů výpočetních prostředků.
Tabulka Odkazování na tabulku dat	`mltable`	`TabularDataset`	Máte složité schéma, které podléhá častým změnám, nebo potřebujete podmnožinu velkých tabulkových dat. AutoML s tabulkami	V rozhraních API uložil back-end služby Azure Machine Learning podrobný plán materializace dat. V důsledku toho fungovalo pouze v případě, `TabularDataset` že jste měli pracovní prostor Azure Machine Learning. `mltable` ukládá podrobný plán materializace dat do úložiště . Toto umístění úložiště znamená, že ho můžete použít odpojené ke službě Azure Machine Learning – například místně i místně. V rozhraních API V2 je jednodušší přejít z místního na vzdálené úlohy. Další informace najdete v tématu Práce s tabulkami ve službě Azure Machine Learning.

Identifikátor URI

Identifikátor URI (Uniform Resource Identifier) představuje umístění úložiště na místním počítači, úložišti Azure nebo veřejně dostupném umístění HTTP. Tyto příklady ukazují identifikátory URI pro různé možnosti úložiště:

Dočasné úložiště	Příklady identifikátorů URI
Úložiště dat služby Azure Machine Learning	`azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet`
Místní počítač	`./home/username/data/my_data`
Veřejný server HTTP	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Blob Storage	`wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/`
Azure Data Lake (Gen2)	`abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv`
Azure Data Lake (Gen1)	`adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>`

Úloha Azure Machine Learning mapuje identifikátory URI do cílového systému souborů compute. Toto mapování znamená, že pro příkaz, který využívá nebo vytváří identifikátor URI, funguje jako soubor nebo složka. Identifikátor URI používá ověřování založené na identitách pro připojení ke službám úložiště s id Microsoft Entra (výchozí) nebo spravovanou identitou. Identifikátory URI úložiště dat služby Azure Machine Learning můžou používat ověřování na základě identity nebo ověřování na základě přihlašovacích údajů (například instanční objekt, token SAS, klíč účtu) bez vystavení tajných kódů.

Identifikátor URI může sloužit jako vstup nebo výstup úlohy Azure Machine Learning a může se mapovat na cílový systém výpočetních souborů s jednou ze čtyř různých možností režimu:

Připojení jen pro čtení (ro_mount): Identifikátor URI představuje umístění úložiště připojené k cílovému systému souborů výpočetních prostředků. Připojené umístění dat výhradně podporuje výstup jen pro čtení.
Připojení pro čtení i zápis (): Identifikátor URI představuje umístění úložiště připojené k cílovému systému souborů výpočetních prostředků.rw_mount Připojené umístění dat podporuje výstup pro čtení i zápis dat do něj.
Download (download): Identifikátor URI představuje umístění úložiště obsahující data stažená do cílového systému souborů výpočetních prostředků.
Nahrání (upload): Všechna data zapsaná do cílového umístění výpočetních prostředků se nahrají do umístění úložiště reprezentované identifikátorem URI.

Kromě toho můžete identifikátor URI předat jako vstupní řetězec úlohy pomocí přímého režimu. Tato tabulka shrnuje kombinaci režimů dostupných pro vstupy a výstupy:

Úloha Vstup nebo výstup	`upload`	`download`	`ro_mount`	`rw_mount`	`direct`
Vstup		✓	✓		✓
Výstup	✓			✓

Další informace najdete v accessových datech v úloze.

Funkce modulu runtime dat

Azure Machine Learning používá vlastní modul runtime dat pro jeden ze tří účelů:

pro připojení, nahrávání a stahování
mapování identifikátorů URI úložiště na cílový systém souborů výpočetních prostředků
materializace tabulkových dat do knihovny pandas/spark pomocí tabulek Azure Machine Learning (mltable)

Modul runtime dat Služby Azure Machine Learning je navržený pro úlohy strojového učení s vysokou rychlostí a vysokou efektivitou . Nabízí tyto klíčové výhody:

Architektura jazyka Rust . Jazyk Rust je známý pro vysokou rychlost a vysokou efektivitu paměti.
Lehká hmotnost; Modul runtime dat Azure Machine Learning nemá žádné závislosti na jiných technologiích – JVM, takže modul runtime se rychle nainstaluje na cílové výpočetní objekty.
Načítání více procesů (paralelních) dat
Předběžné načtení dat funguje jako úloha na pozadí procesorů, aby se zvýšilo využití GPU v operacích hlubokého učení.
Bezproblémové ověřování do cloudového úložiště

Datový asset

Datový prostředek služby Azure Machine Learning se podobá záložkám webového prohlížeče (oblíbené položky). Místo zapamatování dlouhých cest úložiště (URI), které odkazují na nejčastěji používaná data, můžete vytvořit datový prostředek a pak k ho získat přístup popisným názvem.

Vytvoření datového assetu také vytvoří odkaz na umístění zdroje dat spolu s kopií jeho metadat. Vzhledem k tomu, že data zůstávají v existujícím umístění, neúčtují se vám žádné další náklady na úložiště a neriskujete integritu zdroje dat. Datové prostředky můžete vytvářet z úložišť dat služby Azure Machine Learning, Azure Storage, veřejných adres URL nebo místních souborů.

Další informace o datových prostředcích najdete v tématu Vytvoření datových prostředků.

Sdílet prostřednictvím