Ansluta till data med Azure Machine Learning-studio

Artikel
09/02/2024

Den här artikeln visar hur du kommer åt dina data med Azure Mašinsko učenje Studio. Anslut till dina data i Azure Storage-tjänster med Azure Mašinsko učenje datalager. Paketera sedan dessa data för ML-arbetsflödesuppgifter med Azure Mašinsko učenje datauppsättningar.

Den här tabellen definierar och sammanfattar fördelarna med datalager och datauppsättningar.

Objekt	beskrivning	Förmåner
Datalager	Om du vill ansluta till lagringstjänsten på Azure på ett säkert sätt lagrar du anslutningsinformationen (prenumerations-ID, tokenauktorisering osv.) i nyckelvalvet som är associerat med arbetsytan	Eftersom din information lagras på ett säkert sätt utsätter du inte autentiseringsuppgifter eller ursprungliga datakällor för risk, och du behöver inte längre hårdkoda dessa värden i skripten
Datauppsättningar	Skapande av datauppsättning skapar också en referens till datakällans plats, tillsammans med en kopia av dess metadata. Med datauppsättningar kan du komma åt data under modellträningen, dela data och samarbeta med andra användare och använda bibliotek med öppen källkod, till exempel Pandas, för datautforskning.	Eftersom datauppsättningar utvärderas lazily och data finns kvar på den befintliga platsen behåller du en enda kopia av data i din lagring. Dessutom medför du ingen extra lagringskostnad, du undviker oavsiktliga ändringar av dina ursprungliga datakällor och förbättrar prestandahastigheterna för ML-arbetsflödet.

Om du vill veta var datalager och datauppsättningar får plats i det övergripande arbetsflödet för Azure-Mašinsko učenje dataåtkomst går du till Säker åtkomst till data.

Mer information om Azure Mašinsko učenje Python SDK och en kod-first-upplevelse finns i:

Förutsättningar

En Azure-prenumeration. Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar. Prova den kostnadsfria eller betalda versionen av Azure Mašinsko učenje
Åtkomst till Azure Mašinsko učenje Studio
En Azure Machine Learning-arbetsyta. Skapa arbetsyteresurser
- När du skapar en arbetsyta registreras automatiskt en Azure-blobcontainer och en Azure-filresurs på arbetsytan som datalager. De heter workspaceblobstore respektive workspacefilestore. För tillräckliga bloblagringsresurser workspaceblobstore anges som standarddatalager, som redan har konfigurerats för användning. Om du behöver fler bloblagringsresurser behöver du ett Azure Storage-konto med en lagringstyp som stöds.

Skapa datalager

Du kan skapa datalager från dessa Azure Storage-lösningar. För lagringslösningar som inte stöds och för att spara kostnader för utgående data under ML-experiment måste du flytta dina data till en Azure Storage-lösning som stöds. Mer information om datalager finns i den här resursen.

Du kan skapa datalager med autentiseringsbaserad åtkomst eller identitetsbaserad åtkomst.

Autentiseringsbaserad
Identitetsbaserad

Skapa ett nytt datalager med Azure Mašinsko učenje Studio.

Viktigt!

Om ditt datalagringskonto finns i ett virtuellt nätverk krävs ytterligare konfigurationssteg för att säkerställa att studion kan komma åt dina data. Besök Nätverksisolering och sekretess för mer information om lämpliga konfigurationssteg.

Logga in på Azure Mašinsko učenje Studio.
Välj Data i den vänstra rutan under Tillgångar.
Längst upp väljer du Datalager.
Välj + Skapa.
Fyll i formuläret för att skapa och registrera ett nytt datalager. Formuläret uppdateras på ett intelligent sätt baserat på dina val för Azure-lagringstyp och autentiseringstyp. Mer information om var du hittar de autentiseringsuppgifter som krävs för att fylla i formuläret finns i avsnittet åtkomst och behörigheter för lagring.

Den här skärmbilden visar panelen för skapande av Azure-blobdatalager :

Skapa datatillgångar

När du har skapat ett datalager skapar du en datauppsättning för att interagera med dina data. Datauppsättningar paketera dina data i ett lätt utvärderat förbrukningsobjekt för maskininlärningsuppgifter – till exempel träning. Mer information om datauppsättningar finns i Skapa Azure Mašinsko učenje datauppsättningar.

Datauppsättningar har två typer: FileDataset och TabularDataset. FileDatasets skapar referenser till en eller flera filer eller offentliga URL:er. TabularDatasets representerar data i tabellformat. Du kan skapa TabularDatasets från

.csv
.tsv
.parkettgolv
.json filer och sql-frågeresultat.

Följande steg beskriver hur du skapar en datauppsättning i Azure Mašinsko učenje studio.

Kommentar

Datauppsättningar som skapas via Azure Mašinsko učenje Studio registreras automatiskt på arbetsytan.

Gå till Azure Mašinsko učenje Studio
Under Tillgångar i det vänstra navigeringsfältet väljer du Data. På fliken Datatillgångar väljer du Skapa
Ge datatillgången ett namn och en valfri beskrivning. Under Typ väljer du sedan en datauppsättningstyp, antingen Fil eller tabell.
Fönstret Datakälla öppnas härnäst, som du ser i den här skärmbilden:

Du har olika alternativ för din datakälla. För data som redan har lagrats i Azure väljer du "Från Azure Storage". Om du vill ladda upp data från din lokala enhet väljer du "Från lokala filer". För data som lagras på en offentlig webbplats väljer du "Från webbfiler". Du kan också skapa en datatillgång från en SQL-databas eller från Azure Open Datasets.

I filvalssteget väljer du den plats där Azure ska lagra dina data och de datafiler som du vill använda.
1. Aktivera hoppa över validering om dina data finns i ett virtuellt nätverk. Läs mer om isolering och sekretess för virtuella nätverk.
Följ stegen för att ange dataparsningsinställningar och schema för datatillgången. Inställningarna fylls i förväg baserat på filtyp, och du kan konfigurera inställningarna ytterligare innan du skapar datatillgången.
När du når granskningssteget väljer du Skapa på den sista sidan

Förhandsversion och profil för data

När du har skapat datauppsättningen kontrollerar du att du kan visa förhandsversionen och profilen i studion:

Logga in på Azure Mašinsko učenje Studio
Under Tillgångar i det vänstra navigeringsfältet väljer du Data.
Välj namnet på den datauppsättning som du vill visa.
Välj fliken Utforska .
Välj fliken Förhandsversion .
Välj fliken Profil .

Du kan använda sammanfattningsstatistik i datauppsättningen för att kontrollera om datauppsättningen är ML-klar. För icke-numeriska kolumner innehåller den här statistiken endast grundläggande statistik , till exempel min, max och felantal. Numeriska kolumner erbjuder statistiska ögonblick och uppskattade kvantantiler.

Dataprofilen för Azure Mašinsko učenje-datauppsättning innehåller:

Kommentar

Tomma poster visas för funktioner med irrelevanta typer.

Statistik	beskrivning
Funktion	Det sammanfattade kolumnnamnet
Profil	Infogad visualisering baserat på den härledda typen. Strängar, booleska värden och datum har värdeantal. Decimaler (numeriska) har ungefärliga histogram. Dessa visualiseringar ger en snabb förståelse för datadistributionen
Typdistribution	Antal in-line-värden för typer i en kolumn. Null-värden är sin egen typ, så den här visualiseringen kan identifiera udda eller saknade värden
Typ	Härledd kolumntyp. Möjliga värden är: strängar, booleska värden, datum och decimaler
Min	Minsta värde för kolumnen. Tomma poster visas för funktioner vars typ inte har någon inbyggd ordning (till exempel booleska objekt)
Max	Maximalt värde för kolumnen.
Antal	Totalt antal saknade och icke-tillåtna poster i kolumnen
Antal saknas inte	Antal poster i kolumnen som inte saknas. Tomma strängar och fel behandlas som värden, så de bidrar inte till antalet "saknas inte".
Kvantiler	Ungefärliga värden vid varje kvantil för att ge en uppfattning om datafördelningen
Medelvärde	Aritmetiskt medelvärde eller medelvärde för kolumnen
Standardavvikelse	Mått på mängden spridning eller variation för data i den här kolumnen
Varians	Mått på hur långt data i den här kolumnen sprids ut från dess genomsnittliga värde
Snedhet	Mäter skillnaden mellan den här kolumnens data och en normal fördelning
Toppighet	Mäter graden av "tailness" för den här kolumnens data jämfört med en normal fördelning

Åtkomst och behörigheter för lagring

För att säkerställa att du ansluter säkert till azure-lagringstjänsten kräver Azure Mašinsko učenje att du har behörighet att komma åt motsvarande datalagring. Den här åtkomsten beror på de autentiseringsuppgifter som används för att registrera datalagringen.

Virtuellt nätverk

Om ditt datalagringskonto finns i ett virtuellt nätverk krävs extra konfigurationssteg för att säkerställa att Azure Mašinsko učenje har åtkomst till dina data. Se Använda Azure Mašinsko učenje Studio i ett virtuellt nätverk för att säkerställa att lämpliga konfigurationssteg tillämpas när du skapar och registrerar ditt datalager.

Åtkomstverifiering

Varning

Åtkomst till lagringskonton mellan klientorganisationer stöds inte. Om ditt scenario behöver åtkomst mellan klientorganisationer kontaktar du Azure Mašinsko učenje Data Support-teamets alias för amldatasupport@microsoft.com att få hjälp med en anpassad kodlösning.

Som en del av den första processen för att skapa och registrera datalager verifierar Azure Mašinsko učenje automatiskt att den underliggande lagringstjänsten finns och att det användardefinierade huvudkontot (användarnamn, tjänstens huvudnamn eller SAS-token) har åtkomst till den angivna lagringen.

När datalager har skapats utförs den här verifieringen endast för metoder som kräver åtkomst till den underliggande lagringscontainern. Verifieringen utförs inte varje gång datalagerobjekt hämtas. Validering sker till exempel när du laddar ned filer från ditt datalager. Men om du vill ändra standarddatalagringen sker inte verifieringen.

Om du vill autentisera din åtkomst till den underliggande lagringstjänsten anger du antingen din kontonyckel, sas-token (signaturer för delad åtkomst) eller tjänstens huvudnamn enligt den datalagertyp som du vill skapa. Lagringstypmatrisen visar de autentiseringstyper som stöds och som motsvarar varje datalagertyp.

Du hittar kontonyckel, SAS-token och information om tjänstens huvudnamn i Azure-portalen.

Om du vill hämta en kontonyckel för autentisering väljer du Lagringskonton i den vänstra rutan och väljer det lagringskonto som du vill registrera
- Sidan Översikt innehåller information som kontonamn, container och filresursnamn.
- Expandera noden Säkerhet + nätverk i det vänstra navigeringsfältet
- Välj Åtkomstnycklar
- De tillgängliga nyckelvärdena fungerar som kontonyckelvärden
Om du vill hämta en SAS-token för autentisering väljer du Lagringskonton i den vänstra rutan och väljer det lagringskonto som du vill använda
- Om du vill hämta ett åtkomstnyckelvärde expanderar du noden Säkerhet + nätverk i det vänstra navigeringsfältet
- Välj Signatur för delad åtkomst
- Slutför processen för att generera SAS-värdet
Om du vill använda tjänstens huvudnamn för autentisering går du till dina appregistreringar och väljer vilken app du vill använda.
- Motsvarande översiktssida innehåller nödvändig information som klient-ID och klient-ID.

Viktigt!

Om du vill ändra dina åtkomstnycklar för ett Azure Storage-konto (kontonyckel eller SAS-token) måste du synkronisera de nya autentiseringsuppgifterna med både din arbetsyta och de datalager som är anslutna till den. Mer information finns i synkronisera dina uppdaterade autentiseringsuppgifter.
Om du avregistrerar och sedan registrerar om ett datalager med samma namn och omregistreringen misslyckas kanske Azure Key Vault för din arbetsyta inte har mjuk borttagning aktiverat. Som standard är mjuk borttagning aktiverat för nyckelvalvsinstansen som skapats av din arbetsyta, men den kanske inte är aktiverad om du använde ett befintligt nyckelvalv eller har en arbetsyta som skapats före oktober 2020. Mer information om hur du aktiverar mjuk borttagning finns i Aktivera mjuk borttagning för ett befintligt nyckelvalv.

Behörigheter

För Azure Blob-container och Azure Data Lake Gen 2-lagring kontrollerar du att dina autentiseringsuppgifter har åtkomst till Storage Blob Data Reader . Läs mer om Storage Blob Data Reader. Som standard har en SAS-token för kontot inga behörigheter.

För dataläsningsåtkomst måste dina autentiseringsuppgifter ha minst list- och läsbehörigheter för containrar och objekt.
För åtkomst till dataskrivning krävs även skriv- och tilläggsbehörigheter.

Träna med datauppsättningar

Använd dina datamängder i dina maskininlärningsexperiment för att träna ML-modeller. Läs mer om hur du tränar med datauppsättningar.

Nästa steg

Ett steg för steg-exempel på träning med TabularDatasets och automatiserad maskininlärning
Träna en modell
Fler exempel på datauppsättningsträning finns i exempelanteckningsböckerna

Dela via