Identifiera data
Azure Databricks tillhandahåller en uppsättning verktyg och produkter som förenklar identifieringen av datatillgångar som är tillgängliga via Databricks Data Intelligence Platform. Den här artikeln innehåller en översikt över hur du kan identifiera och förhandsgranska data som redan har konfigurerats för åtkomst på din arbetsyta.
- Information om hur du ansluter till datakällor finns i Ansluta till datakällor.
- Information om hur du får åtkomst till data på Databricks Marketplace finns i Vad är Databricks Marketplace?.
Ämnen i det här avsnittet fokuserar på att utforska dataobjekt och datafiler. Information om hur du arbetar med tillgångar som notebook-filer, SQL-frågor, bibliotek och modeller finns i Navigera på arbetsytan.
Om du vill ha vägledning om hur du genererar sammanfattningsstatistik för datauppsättningar eller andra uppgifter som är associerade med undersökande dataanalys (EDA) kan du läsa Undersökande dataanalys på Azure Databricks: Verktyg och tekniker.
Hur kan du identifiera datatillgångar?
Dataidentifieringsverktyg i Azure Databricks tillhör följande allmänna kategorier:
- AI-assisterad insikt, sammanfattning och sökning.
- Nyckelordssökning.
- Katalogutforskning med hjälp av användargränssnittet.
- Programmatisk lista och metadatautforskning.
Dataidentifieringsverktyg är optimerade för data som styrs av Unity Catalog. Datatillgångar som inte har registrerats som Unity Catalog-objekt kanske inte kan identifieras med hjälp av några av dessa metoder.
Hitta data med hjälp av användargränssnittet
Catalog Explorer innehåller verktyg för att utforska och styra datatillgångar. Du kommer åt Katalogutforskaren med hjälp av katalogen i sidofältet för arbetsytan. Se Vad är Katalogutforskaren?.
Notebook-filer och SQL-frågeredigeraren tillhandahåller också en katalognavigering för att utforska databasobjekt. Klicka på katalogikonen i dessa gränssnitt för att expandera eller dölja katalognavigatorn utan att lämna kodredigeraren.
När du har upptäckt en datamängd av intresse kan du använda fliken Insikter för att lära dig hur data används på din arbetsyta. Se Visa vanliga frågor och användare av en tabell.
Utforska data programmatiskt
Du kan använda SHOW
kommandot på alla databasobjekt för att identifiera tillgångar som är registrerade i Unity Catalog. LIST
Använd kommandot, det %fs
magiska kommandot eller Databricks Utilities för att lista filer.
Se Utforska lagring och hitta datafiler och Utforska databasobjekt.
Granska datakommentar
Du kan granska kommentarer för att lära dig mer om innehållet i datauppsättningar som är tillgängliga i ditt lakehouse. Kommentarer kan anges för dataobjekt som kataloger, scheman, tabeller och kolumner. Du kan visa kommentarer i Katalogutforskaren eller med hjälp av DESCRIBE
kommandot för ett objekt.
Catalog Explorer kan ge AI-genererade kommentarer för tabeller, vilket gör det enkelt för datatillgångsägare att ge en omfattande översikt över datauppsättningar. Se Lägga till AI-genererade kommentarer till Unity Catalog-objekt.
Användare kan också ange kommentarer om tabeller och andra databasobjekt med markdown, som återges i Katalogutforskaren. Se Lägga till kommentarer till data och AI-tillgångar.
Sök efter tabeller i ditt lakehouse
Du kan använda sökfältet i Azure Databricks för att hitta tabeller som är registrerade i Unity Catalog. Du kan antingen utföra en nyckelordssökning eller använda semantisk sökning för att hitta datauppsättningar eller kolumner som är relaterade till din sökfråga. Sökningen returnerar endast resultat för tabeller som du har behörighet att se. Sök igenom tabellnamn, kolumnnamn, tabellkommentar och kolumnkommentare. Se Sök efter arbetsyteobjekt.