Vad är Azure Open Datasets och hur kan du använda dem?

Azure Open Datasets är utvalda offentliga datauppsättningar som du kan lägga till i scenariospecifika funktioner i maskininlärningslösningar för mer exakta modeller. Öppna datauppsättningar är tillgängliga i molnet i Microsoft Azure. De är integrerade i Azure Mašinsko učenje och är lättillgängliga för Azure Databricks och Mašinsko učenje Studio (klassisk). Du kan också komma åt datauppsättningarna via API:er och du kan använda dem i andra produkter, till exempel Power BI och Azure Data Factory.

Datauppsättningar innehåller offentliga data för väder, folkräkning, helgdagar, allmän säkerhet och plats som hjälper dig att träna maskininlärningsmodeller och berika förutsägande lösningar. Du kan också dela dina offentliga datamängder via Azure Open Datasets.

Diagram som visar Byggblock för Azure Open Datasets-tjänsten.

Utvalda, förberedda datauppsättningar

Utvalda öppna offentliga datamängder i Azure Open Datasets är optimerade för förbrukning i arbetsflöden för maskininlärning.

Mer information om tillgängliga datauppsättningar finns i resursen Azure Open Datasets Catalog .

Dataexperter ägnar ofta större delen av sin tid åt att rensa och förbereda data för avancerad analys. För att spara tid kopieras öppna Datauppsättningar till Azure-molnet och sedan förbearbetas. Med jämna mellanrum hämtas data från källorna , till exempel av en FTP-anslutning till National Oceanic and Atmospheric Administration (NOAA). Därefter parsas data i ett strukturerat format och berikas sedan efter behov med funktioner som postnummer eller platserna för närmaste väderstationer.

Datauppsättningar samvärdas med molnberäkning i Azure för att underlätta åtkomst och manipulering.

Här är exempel på tillgängliga datauppsättningar:

Väderdata

Datamängd Notebook-filer beskrivning
NOAA Integrated Surface Data (ISD) Azure Notebooks
Azure Databricks
Världsomfattande väderdata varje timme från NOAA med den bästa rumsliga täckningen i Nordamerika, Europa, Australien och delar av Asien. Uppdateras dagligen.
NOAA Global Forecast System (GFS) Azure Notebooks
Azure Databricks
Väderprognosdata för 15 dagar i USA varje timme från NOAA. Uppdateras dagligen.

Kalenderdata

Datamängd Notebook-filer beskrivning
Helgdagar Azure Notebooks
Azure Databricks
Globala helgdagsdata, som omfattar 41 nationer eller regioner från 1970 till 2099. Inkluderar land/region och om de flesta har betalat 100 000 000 000.

Åtkomst till datauppsättningar

Med ett Azure-konto kan du komma åt öppna datauppsättningar via kod eller via Azure-tjänstgränssnittet. Data är samlokaliserade med Azure-molnberäkningsresurser för användning i dina maskininlärningslösningar.

Open Datasets är tillgängliga via Azure Machine Learning-användargränssnittet och SDK. Öppna datauppsättningar tillhandahåller även Azure Notebooks och Azure Databricks-notebook-filer som kan ansluta data till Azure Mašinsko učenje och Azure Databricks. Datauppsättningar kan även nås via en Python-SDK.

Du behöver dock inget Azure-konto för att få åtkomst till Open Datasets. Du kan komma åt dem från valfri Python-miljö med eller utan Spark.

Begära eller bidra med datauppsättningar

Om du inte hittar de data du vill ha kan du skicka ett e-postmeddelande till oss för att begära en datamängd eller bidra med en datauppsättning.

Nästa steg