Individuare i dati

Azure Databricks offre una suite di strumenti e prodotti che semplificano l'individuazione degli asset di dati accessibili tramite databricks Data Intelligence Platform. Questo articolo offre una panoramica di come individuare e visualizzare in anteprima i dati già configurati per l'accesso nell'area di lavoro.

Gli argomenti di questa sezione sono incentrati sull'esplorazione di oggetti dati e file di dati. Per informazioni sull'uso di asset come notebook, query SQL, librerie e modelli, vedere Esplorare l'area di lavoro.

Per indicazioni sulla generazione di statistiche di riepilogo per set di dati o altre attività associate all'analisi esplorativa dei dati (EDA), vedere Analisi esplorativa dei dati in Azure Databricks: Strumenti e tecniche.

How to discover data assets (Come individuare gli asset di dati)

Gli strumenti di individuazione dei dati in Azure Databricks rientrano nelle categorie generali seguenti:

  • Informazioni dettagliate, riepilogo e ricerca assistita dall'intelligenza artificiale.
  • Ricerca per parole chiave.
  • Esplorazione del catalogo tramite l'interfaccia utente.
  • Elenco a livello di codice ed esplorazione dei metadati.

Gli strumenti di individuazione dei dati sono ottimizzati per i dati regolati da Unity Catalog. Gli asset di dati che non sono stati registrati come oggetti Catalogo Unity potrebbero non essere individuabili usando alcuni di questi approcci.

Trovare i dati usando l'interfaccia utente

Esplora cataloghi offre strumenti per l'esplorazione e la governance degli asset di dati. È possibile accedere a Esplora cataloghi usando il Icona catalogo catalogo nella barra laterale dell'area di lavoro. Vedere Che cos'è Esplora cataloghi?.

I notebook e l'editor di query SQL forniscono anche uno strumento di esplorazione del catalogo per l'esplorazione degli oggetti di database. Fare clic sull'icona Catalogo in queste interfacce per espandere o comprimere lo strumento di navigazione del catalogo senza uscire dall'editor di codice.

Dopo aver individuato un set di dati di interesse, è possibile usare la scheda Insights per informazioni su come vengono usati i dati nell'area di lavoro. Vedere Visualizzare query frequenti e utenti di una tabella.

Esplorare i dati a livello di codice

È possibile usare il SHOW comando in tutti gli oggetti di database per individuare gli asset registrati nel catalogo unity. Usare il LIST comando, il %fs comando magic o Le utilità di Databricks per elencare i file.

Vedere Esplorare l'archiviazione e trovare i file di dati ed Esplorare gli oggetti di database.

Esaminare i commenti dei dati

È possibile esaminare i commenti per ottenere informazioni sul contenuto dei set di dati disponibili nel lakehouse. I commenti possono essere impostati su oggetti dati, inclusi cataloghi, schemi, tabelle e colonne. È possibile visualizzare i commenti in Esplora cataloghi o usare il DESCRIBE comando per un oggetto .

Esplora cataloghi può fornire commenti generati dall'intelligenza artificiale per le tabelle, semplificando la panoramica dei set di dati da parte dei proprietari di asset di dati. Vedere Aggiungere commenti generati dall’IA agli oggetti del catalogo unity.

Gli utenti possono anche fornire commenti su tabelle e altri oggetti di database usando markdown, di cui viene eseguito il rendering in Esplora cataloghi. Vedere Aggiungere commenti ai dati e agli asset IA.

Cercare tabelle nel lakehouse

È possibile usare la barra di ricerca in Azure Databricks per trovare le tabelle registrate in Unity Catalog. È possibile eseguire una ricerca di parole chiave o usare la ricerca semantica per trovare set di dati o colonne correlate alla query di ricerca. La ricerca restituisce solo i risultati per le tabelle di cui si dispone dell'autorizzazione per visualizzare. La ricerca esamina i nomi delle tabelle, i nomi delle colonne, i commenti delle tabelle e i commenti delle colonne. Vedere Cercare oggetti dell'area di lavoro.