Analisi esplorativa dei dati in Azure Databricks: strumenti e tecniche

Questo articolo descrive strumenti e tecniche per l'analisi esplorativa dei dati (EDA) in Azure Databricks.

Che cos'è EDA e perché è utile?

L'analisi esplorativa dei dati include metodi per l'esplorazione dei set di dati per riepilogare le caratteristiche principali e identificare eventuali problemi con i dati. Usando metodi statistici e visualizzazioni, è possibile ottenere informazioni su un set di dati per determinare la conformità per l'analisi e informare le tecniche da applicare per la preparazione dei dati. EDA può anche influenzare gli algoritmi che si sceglie di applicare per i modelli di Machine Learning di training.

Quali sono gli strumenti EDA in Azure Databricks?

Azure Databricks include strumenti di analisi e visualizzazione predefiniti sia in Databricks SQL che in Databricks Runtime. Per un elenco illustrato dei tipi di visualizzazioni disponibili in Azure Databricks, vedere Tipi di visualizzazione.

EDA in Databricks SQL

Di seguito sono riportati alcuni articoli utili sugli strumenti di visualizzazione ed esplorazione dei dati in Databricks SQL:

EDA in Databricks Runtime

Databricks Runtime offre un ambiente predefinito con librerie di esplorazione dei dati comuni già installate. È possibile visualizzare l'elenco delle librerie predefinite nelle note sulla versione.

Gli articoli seguenti mostrano anche esempi di strumenti di visualizzazione in Databricks Runtime:

In un notebook Python di Databricks è possibile combinare SQL e Python per esplorare i dati. Quando si esegue codice in una cella del linguaggio SQL in un notebook Python, i risultati della tabella vengono resi automaticamente disponibili come dataframe Python. Per informazioni dettagliate, vedere Esplorare i risultati delle celle SQL nei notebook Python.