Databegrepp i Azure Mašinsko učenje
Med Azure Mašinsko učenje kan du importera data från en lokal dator eller en befintlig molnbaserad lagringsresurs. I den här artikeln beskrivs viktiga azure-Mašinsko učenje databegrepp.
Datalager
Ett Azure Mašinsko učenje-datalager fungerar som en referens till ett befintligt Azure Storage-konto. Ett Azure Mašinsko učenje-datalager erbjuder följande fördelar:
- Ett vanligt, användarvänligt API som interagerar med olika lagringstyper (Blob/Files/ADLS).
- Enklare identifiering av användbara datalager i teamåtgärder.
- För autentiseringsbaserad åtkomst (tjänstens huvudnamn/SAS/nyckel) skyddar ett Azure-Mašinsko učenje datalager anslutningsinformation. På så sätt behöver du inte placera den informationen i dina skript.
När du skapar ett datalager med ett befintligt Azure Storage-konto har du två olika autentiseringsmetodalternativ:
- Autentiseringsbaserad – autentisera dataåtkomst med ett tjänsthuvudnamn, sas-token (signatur för delad åtkomst) eller kontonyckel. Användare med åtkomst till arbetsytan Läsare kan komma åt autentiseringsuppgifterna.
- Identitetsbaserad – använd din Microsoft Entra-identitet eller hanterade identitet för att autentisera dataåtkomst.
Den här tabellen sammanfattar de molnbaserade Azure-lagringstjänster som ett Azure-Mašinsko učenje datalager kan skapa. Dessutom sammanfattar tabellen de autentiseringstyper som kan komma åt dessa tjänster:
Lagringstjänst som stöds | Autentiseringsuppgiftsbaserad autentisering | Identitetsbaserad autentisering |
---|---|---|
Azure Blob-container | ✓ | ✓ |
Azure-filresurs | ✓ | |
Azure Data Lake Gen1 | ✓ | ✓ |
Azure Data Lake Gen2 | ✓ | ✓ |
Mer information om datalager finns i Skapa datalager.
Standarddatalager
Varje Azure Mašinsko učenje-arbetsyta har ett standardlagringskonto (Azure Storage-konto) som innehåller dessa datalager:
Dricks
Om du vill hitta ID:t för din arbetsyta går du till arbetsytan i Azure-portalen. Expandera Inställningar och välj sedan Egenskaper. Arbetsytans ID visas.
Namn på datalager | Datalagringstyp | Namn på datalagring | beskrivning |
---|---|---|---|
workspaceblobstore |
Blobcontainer | azureml-blobstore-{workspace-id} |
Lagrar datauppladdningar, ögonblicksbilder av jobbkod och cacheminne för pipelinedata. |
workspaceworkingdirectory |
Filresurs | code-{GUID} |
Lagrar data för notebook-filer, beräkningsinstanser och promptflöde. |
workspacefilestore |
Filresurs | azureml-filestore-{workspace-id} |
Alternativ container för dataöverföring. |
workspaceartifactstore |
Blobcontainer | azureml |
Lagring för tillgångar som mått, modeller och komponenter. |
Datatyper
En URI (lagringsplats) kan referera till en fil, en mapp eller en datatabell. En maskininlärningsjobbsindata- och utdatadefinition kräver någon av följande tre datatyper:
Typ | V2 API | V1 API | Kanoniska scenarier | API-skillnad för V2/V1 |
---|---|---|---|---|
Arkiv Referera till en enskild fil |
uri_file |
FileDataset |
Läsa/skriva en enskild fil – filen kan ha valfritt format. | En typ som är ny för V2-API:er. I V1-API:er mappas filer alltid till en mapp i filsystemet för beräkningsmål. Den här mappningen krävde en os.path.join . I V2-API:er mappas den enskilda filen. På så sätt kan du referera till den platsen i koden. |
Mapp Referera till en enskild mapp |
uri_folder |
FileDataset |
Du måste läsa/skriva en mapp med parquet-/CSV-filer till Pandas/Spark. Djupinlärning med bilder, text, ljud, videofiler som finns i en mapp. |
I V1-API:er hade FileDataset en associerad motor som kunde ta ett filexempel från en mapp. I V2-API:er är en mappning en enkel mappning till filsystemet för beräkningsmål. |
Tabell Referera till en datatabell |
mltable |
TabularDataset |
Du har ett komplext schema som kan ändras ofta, eller så behöver du en delmängd med stora tabelldata. AutoML med tabeller. |
I V1-API:er lagrade Azure Machine Learning-serverdelen skissen för datamaterialisering. Därför TabularDataset fungerade bara om du hade en Azure-Mašinsko učenje arbetsyta. mltable lagrar skissen för datamaterialisering i lagringen . Den här lagringsplatsen innebär att du kan använda den frånkopplad till Azure Mašinsko učenje – till exempel lokalt och lokalt. I V2-API:er är det enklare att övergå från lokala till fjärranslutna jobb. Mer information finns i Arbeta med tabeller i Azure Mašinsko učenje. |
URI
En URI (Uniform Resource Identifier) representerar en lagringsplats på din lokala dator, Azure Storage eller en offentligt tillgänglig http-plats. I de här exemplen visas URI:er för olika lagringsalternativ:
Lagringsplats | URI-exempel |
---|---|
Azure Mašinsko učenje Datastore | azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet |
Lokal dator | ./home/username/data/my_data |
Offentlig http-server | https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv |
Blobb-lagring | wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/ |
Azure Data Lake (gen2) | abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv |
Azure Data Lake (gen1) | adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2> |
Ett Azure-Mašinsko učenje-jobb mappar URI:er till filsystemet för beräkningsmål. Den här mappningen innebär att för ett kommando som använder eller producerar en URI fungerar den URI:n som en fil eller en mapp. En URI använder identitetsbaserad autentisering för att ansluta till lagringstjänster, antingen med ditt Microsoft Entra-ID (standard) eller hanterad identitet. Azure Mašinsko učenje Datastore-URI:er kan använda identitetsbaserad autentisering eller autentiseringsbaserad autentisering (till exempel tjänsthuvudnamn, SAS-token, kontonyckel) utan att hemligheter exponeras.
En URI kan fungera som antingen indata eller utdata till ett Azure Mašinsko učenje-jobb, och den kan mappas till beräkningsmålfilsystemet med något av fyra olika lägesalternativ:
- Skrivskyddad montering (
ro_mount
): URI:n representerar en lagringsplats som är monterad på filsystemet för beräkningsmål. Den monterade dataplatsen stöder endast skrivskyddade utdata. - Läs-skrivmontering (
rw_mount
): URI:n representerar en lagringsplats som är monterad på filsystemet för beräkningsmål. Den monterade dataplatsen stöder både läsutdata från den och dataskrivningar till den. - Ladda ned (
download
): URI:n representerar en lagringsplats som innehåller data som laddas ned till filsystemet för beräkningsmål. - Ladda upp (
upload
): Alla data som skrivs till en beräkningsmålplats laddas upp till lagringsplatsen som representeras av URI:n.
Dessutom kan du skicka in URI:n som en jobbindatasträng med direktläget . Den här tabellen sammanfattar kombinationen av lägen som är tillgängliga för indata och utdata:
Projekt Indata eller utdata |
upload |
download |
ro_mount |
rw_mount |
direct |
---|---|---|---|---|---|
Indata | ✓ | ✓ | ✓ | ||
Utdata | ✓ | ✓ |
Mer information finns i Åtkomst till data i ett jobb.
Datakörningsfunktion
Azure Mašinsko učenje använder sin egen datakörning i något av tre syften:
- för monteringar/uppladdningar/nedladdningar
- för att mappa lagrings-URI:er till filsystemet för beräkningsmål
- för att materialisera tabelldata till pandas/spark med Azure Mašinsko učenje-tabeller (
mltable
)
Azure Mašinsko učenje datakörning är utformad för hög hastighet och hög effektivitet i maskininlärningsuppgifter. Den erbjuder följande viktiga fördelar:
- Rust-språkarkitektur . Rust-språket är känt för hög hastighet och hög minneseffektivitet.
- Lätt vikt; Azure Mašinsko učenje-datakörningen har inga beroenden för andra tekniker – till exempel JVM – så körningen installeras snabbt på beräkningsmål.
- Datainläsning med flera processer (parallell).
- Förhämtning av data fungerar som bakgrundsaktivitet på processorerna för att förbättra användningen av GPU:er i djupinlärningsåtgärder.
- Sömlös autentisering till molnlagring.
Datatillgång
En Azure Mašinsko učenje-datatillgång liknar webbläsarbokmärken (favoriter). I stället för att komma ihåg långa lagringssökvägar (URI:er) som pekar på dina mest använda data kan du skapa en datatillgång och sedan komma åt tillgången med ett eget namn.
Skapande av datatillgång skapar också en referens till datakällans plats, tillsammans med en kopia av dess metadata. Eftersom data finns kvar på den befintliga platsen medför du ingen extra lagringskostnad och du riskerar inte datakällans integritet. Du kan skapa datatillgångar från Azure Mašinsko učenje datalager, Azure Storage, offentliga URL:er eller lokala filer.
Mer information om datatillgångar finns i Skapa datatillgångar.