Databegrepp i Azure Mašinsko učenje

Med Azure Mašinsko učenje kan du importera data från en lokal dator eller en befintlig molnbaserad lagringsresurs. I den här artikeln beskrivs viktiga azure-Mašinsko učenje databegrepp.

Datalager

Ett Azure Mašinsko učenje-datalager fungerar som en referens till ett befintligt Azure Storage-konto. Ett Azure Mašinsko učenje-datalager erbjuder följande fördelar:

  • Ett vanligt, användarvänligt API som interagerar med olika lagringstyper (Blob/Files/ADLS).
  • Enklare identifiering av användbara datalager i teamåtgärder.
  • För autentiseringsbaserad åtkomst (tjänstens huvudnamn/SAS/nyckel) skyddar ett Azure-Mašinsko učenje datalager anslutningsinformation. På så sätt behöver du inte placera den informationen i dina skript.

När du skapar ett datalager med ett befintligt Azure Storage-konto har du två olika autentiseringsmetodalternativ:

  • Autentiseringsbaserad – autentisera dataåtkomst med ett tjänsthuvudnamn, sas-token (signatur för delad åtkomst) eller kontonyckel. Användare med åtkomst till arbetsytan Läsare kan komma åt autentiseringsuppgifterna.
  • Identitetsbaserad – använd din Microsoft Entra-identitet eller hanterade identitet för att autentisera dataåtkomst.

Den här tabellen sammanfattar de molnbaserade Azure-lagringstjänster som ett Azure-Mašinsko učenje datalager kan skapa. Dessutom sammanfattar tabellen de autentiseringstyper som kan komma åt dessa tjänster:

Lagringstjänst som stöds Autentiseringsuppgiftsbaserad autentisering Identitetsbaserad autentisering
Azure Blob-container
Azure-filresurs
Azure Data Lake Gen1
Azure Data Lake Gen2

Mer information om datalager finns i Skapa datalager.

Standarddatalager

Varje Azure Mašinsko učenje-arbetsyta har ett standardlagringskonto (Azure Storage-konto) som innehåller dessa datalager:

Dricks

Om du vill hitta ID:t för din arbetsyta går du till arbetsytan i Azure-portalen. Expandera Inställningar och välj sedan Egenskaper. Arbetsytans ID visas.

Namn på datalager Datalagringstyp Namn på datalagring beskrivning
workspaceblobstore Blobcontainer azureml-blobstore-{workspace-id} Lagrar datauppladdningar, ögonblicksbilder av jobbkod och cacheminne för pipelinedata.
workspaceworkingdirectory Filresurs code-{GUID} Lagrar data för notebook-filer, beräkningsinstanser och promptflöde.
workspacefilestore Filresurs azureml-filestore-{workspace-id} Alternativ container för dataöverföring.
workspaceartifactstore Blobcontainer azureml Lagring för tillgångar som mått, modeller och komponenter.

Datatyper

En URI (lagringsplats) kan referera till en fil, en mapp eller en datatabell. En maskininlärningsjobbsindata- och utdatadefinition kräver någon av följande tre datatyper:

Typ V2 API V1 API Kanoniska scenarier API-skillnad för V2/V1
Arkiv
Referera till en enskild fil
uri_file FileDataset Läsa/skriva en enskild fil – filen kan ha valfritt format. En typ som är ny för V2-API:er. I V1-API:er mappas filer alltid till en mapp i filsystemet för beräkningsmål. Den här mappningen krävde en os.path.join. I V2-API:er mappas den enskilda filen. På så sätt kan du referera till den platsen i koden.
Mapp
Referera till en enskild mapp
uri_folder FileDataset Du måste läsa/skriva en mapp med parquet-/CSV-filer till Pandas/Spark.

Djupinlärning med bilder, text, ljud, videofiler som finns i en mapp.
I V1-API:er hade FileDataset en associerad motor som kunde ta ett filexempel från en mapp. I V2-API:er är en mappning en enkel mappning till filsystemet för beräkningsmål.
Tabell
Referera till en datatabell
mltable TabularDataset Du har ett komplext schema som kan ändras ofta, eller så behöver du en delmängd med stora tabelldata.

AutoML med tabeller.
I V1-API:er lagrade Azure Machine Learning-serverdelen skissen för datamaterialisering. Därför TabularDataset fungerade bara om du hade en Azure-Mašinsko učenje arbetsyta. mltable lagrar skissen för datamaterialisering i lagringen . Den här lagringsplatsen innebär att du kan använda den frånkopplad till Azure Mašinsko učenje – till exempel lokalt och lokalt. I V2-API:er är det enklare att övergå från lokala till fjärranslutna jobb. Mer information finns i Arbeta med tabeller i Azure Mašinsko učenje.

URI

En URI (Uniform Resource Identifier) representerar en lagringsplats på din lokala dator, Azure Storage eller en offentligt tillgänglig http-plats. I de här exemplen visas URI:er för olika lagringsalternativ:

Lagringsplats URI-exempel
Azure Mašinsko učenje Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Lokal dator ./home/username/data/my_data
Offentlig http-server https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blobb-lagring wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Ett Azure-Mašinsko učenje-jobb mappar URI:er till filsystemet för beräkningsmål. Den här mappningen innebär att för ett kommando som använder eller producerar en URI fungerar den URI:n som en fil eller en mapp. En URI använder identitetsbaserad autentisering för att ansluta till lagringstjänster, antingen med ditt Microsoft Entra-ID (standard) eller hanterad identitet. Azure Mašinsko učenje Datastore-URI:er kan använda identitetsbaserad autentisering eller autentiseringsbaserad autentisering (till exempel tjänsthuvudnamn, SAS-token, kontonyckel) utan att hemligheter exponeras.

En URI kan fungera som antingen indata eller utdata till ett Azure Mašinsko učenje-jobb, och den kan mappas till beräkningsmålfilsystemet med något av fyra olika lägesalternativ:

  • Skrivskyddad montering (ro_mount): URI:n representerar en lagringsplats som är monterad på filsystemet för beräkningsmål. Den monterade dataplatsen stöder endast skrivskyddade utdata.
  • Läs-skrivmontering (rw_mount): URI:n representerar en lagringsplats som är monterad på filsystemet för beräkningsmål. Den monterade dataplatsen stöder både läsutdata från den och dataskrivningar till den.
  • Ladda ned (download): URI:n representerar en lagringsplats som innehåller data som laddas ned till filsystemet för beräkningsmål.
  • Ladda upp (upload): Alla data som skrivs till en beräkningsmålplats laddas upp till lagringsplatsen som representeras av URI:n.

Dessutom kan du skicka in URI:n som en jobbindatasträng med direktläget . Den här tabellen sammanfattar kombinationen av lägen som är tillgängliga för indata och utdata:

Projekt
Indata eller utdata
upload download ro_mount rw_mount direct
Indata
Utdata

Mer information finns i Åtkomst till data i ett jobb.

Datakörningsfunktion

Azure Mašinsko učenje använder sin egen datakörning i något av tre syften:

  • för monteringar/uppladdningar/nedladdningar
  • för att mappa lagrings-URI:er till filsystemet för beräkningsmål
  • för att materialisera tabelldata till pandas/spark med Azure Mašinsko učenje-tabeller (mltable)

Azure Mašinsko učenje datakörning är utformad för hög hastighet och hög effektivitet i maskininlärningsuppgifter. Den erbjuder följande viktiga fördelar:

  • Rust-språkarkitektur . Rust-språket är känt för hög hastighet och hög minneseffektivitet.
  • Lätt vikt; Azure Mašinsko učenje-datakörningen har inga beroenden för andra tekniker – till exempel JVM – så körningen installeras snabbt på beräkningsmål.
  • Datainläsning med flera processer (parallell).
  • Förhämtning av data fungerar som bakgrundsaktivitet på processorerna för att förbättra användningen av GPU:er i djupinlärningsåtgärder.
  • Sömlös autentisering till molnlagring.

Datatillgång

En Azure Mašinsko učenje-datatillgång liknar webbläsarbokmärken (favoriter). I stället för att komma ihåg långa lagringssökvägar (URI:er) som pekar på dina mest använda data kan du skapa en datatillgång och sedan komma åt tillgången med ett eget namn.

Skapande av datatillgång skapar också en referens till datakällans plats, tillsammans med en kopia av dess metadata. Eftersom data finns kvar på den befintliga platsen medför du ingen extra lagringskostnad och du riskerar inte datakällans integritet. Du kan skapa datatillgångar från Azure Mašinsko učenje datalager, Azure Storage, offentliga URL:er eller lokala filer.

Mer information om datatillgångar finns i Skapa datatillgångar.

Nästa steg