Cosa sono i set di dati aperti di Azure e come possono essere usati?
I set di dati aperti di Azure include set di dati pubblici curati che è possibile usare per aggiungere caratteristiche specifiche dello scenario alle soluzioni di Machine Learning e realizzare modelli più accurati. I set di dati aperti sono disponibili nel cloud in Microsoft Azure. Sono integrati in Azure Machine Learning e sono facilmente disponibili per Azure Databricks e Machine Learning Studio (versione classica). È anche possibile accedere ai set di dati tramite API e usarli in altri prodotti, come Power BI e Azure Data Factory.
I set di dati includono dati di pubblico dominio relativi a meteo, censimento, festività, sicurezza pubblica e posizione, che consentono di eseguire il training di modelli di Machine Learning e arricchire le soluzioni predittive. È anche possibile condividere i propri set di dati pubblici in set di dati aperti di Azure.
Set di dati preparati e curati
I set di dati pubblici, aperti e curati disponibili in Azure Open Datasets sono ottimizzati per l'utilizzo in flussi di lavoro di Machine Learning.
Per altre informazioni sui set di dati disponibili, visitare la risorsa set di dati aperti di Azure.
Gli scienziati dei dati dedicano spesso la maggior parte del loro tempo a pulire e preparare i dati per l'analisi avanzata. I set di dati aperti vengono copiati nel cloud di Azure e pre-elaborati per far risparmiare tempo. A intervalli regolari viene effettuato il pull dei dati dalle origini, ad esempio tramite una connessione FTP alla National Oceanic and Atmosferical Administration (NOAA). Successivamente, i dati vengono analizzati in un formato strutturato e quindi arricchiti in modo appropriato con funzionalità come il codice postale ZIP (Stati Uniti) o la posizione della stazione meteo più vicina.
I set di dati sono co-ospitati con risorse di calcolo del cloud in Azure, semplificandone l'accesso e la manipolazione.
Ecco alcuni esempi di set di dati disponibili:
Dati meteo
Set di dati | Notebook | Descrizione |
---|---|---|
ISD (Integrated Surface Data) NOAA | Azure Notebooks Azure Databricks |
Dati meteo orari a livello mondiale di NOAA, con la migliore copertura spaziale in America del Nord, Europa, Australia e parti dell'Asia. Vengono aggiornati quotidianamente. |
GFS (Global Forecast System) NOAA | Azure Notebooks Azure Databricks |
Dati di 15 giorni di previsioni meteo orarie degli USA provenienti da NOAA. Vengono aggiornati quotidianamente. |
Dati di calendario
Set di dati | Notebook | Descrizione |
---|---|---|
Festività pubbliche | Azure Notebooks Azure Databricks |
Dati sulle festività pubbliche di tutto il mondo, con copertura di 41 nazioni o aree geografiche dal 1970 al 2099. Include il paese/area geografica e indicano se si tratta o meno di ferie retribuite per la maggior parte delle persone. |
Accedere ai set di dati
Con un account Azure è possibile accedere ai set di dati aperti tramite codice o tramite l'interfaccia dei servizi di Azure. I dati sono co-ospitati con risorse di calcolo del cloud di Azure per l'uso nelle soluzioni di Machine Learning.
I set di dati aperti sono disponibili tramite l'interfaccia utente di Azure Machine Learning e l'SDK. I set di dati aperti mettono inoltre a disposizione notebook di Azure Notebooks e Azure Databricks, che possono essere usati per connettere i dati ad Azure Machine Learning e ad Azure Databricks. I set di dati sono accessibili anche tramite Python SDK.
Tuttavia, non è necessario un account Azure per accedere ai set di dati aperti, che sono accessibili in qualsiasi ambiente Python con o senza Spark.
Richiedere o aggiungere set di dati
Se i dati desiderati non sono disponibili, è possibile inviarci un messaggio di posta elettronica per richiedere un set di dati o aggiungere un set di dati.