Exempeldatauppsättningar

Artikel
08/15/2024

Det finns en mängd olika exempeldatauppsättningar som tillhandahålls av Azure Databricks och görs tillgängliga av tredje part som du kan använda på din Azure Databricks-arbetsyta.

Unity Catalog-datauppsättningar

Unity Catalog ger åtkomst till ett antal exempeldatauppsättningar i samples katalogen. Du kan granska dessa datauppsättningar i katalogutforskarens användargränssnitt och referera till dem direkt i en notebook-fil eller i SQL-redigeraren med hjälp <catalog-name>.<schema-name>.<table-name> av mönstret.

Schemat nyctaxi (även kallat en databas) innehåller tabellen trips, som innehåller information om taxiresor i New York City. Följande instruktion returnerar de första 10 posterna i den här tabellen:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Schemat tpch innehåller data från TPC-H Benchmark. Om du vill visa en lista över tabellerna i det här schemat kör du:

SHOW TABLES IN samples.tpch

Exempeldatauppsättningar från tredje part i CSV-format

Azure Databricks har inbyggda verktyg för att snabbt ladda upp exempeldatauppsättningar från tredje part som kommaavgränsade värden (CSV)-filer till Azure Databricks-arbetsytor. Några populära exempeldatauppsättningar från tredje part som är tillgängliga i CSV-format:

Exempeldatauppsättning	Så här laddar du ned exempeldatauppsättningen som en CSV-fil...
Ekorreräkningen	På webbsidan Data klickar du på Parkera data, Ekorredata eller berättelser.
OWID-datauppsättningssamling	Klicka på mappen datamängder på GitHub-lagringsplatsen. Klicka på den undermapp som innehåller måldatauppsättningen och klicka sedan på datauppsättningens CSV-fil.
Data.gov CSV-datauppsättningar	På webbsidan för sökresultat klickar du på sökresultatet och bredvid CSV-ikonen klickar du på Ladda ned.
Diamanter (kräver ett Kaggle-konto )	På datauppsättningens webbsida går du till fliken Data och klickar på ikonen Ladda ned bredvid diamonds.csv på fliken Data.
Varaktighet för nyc taxiresa (kräver ett Kaggle-konto )	På datauppsättningens webbsida går du till fliken Data bredvid sample_submission.zip och klickar på Nedladdningsikon . Om du vill hitta datauppsättningens CSV-filer extraherar du innehållet i den nedladdade ZIP-filen.
UFO-observationer (kräver ett data.world konto)	På datauppsättningens webbsida bredvid nuforc_reports.csv klickar du på ikonen Ladda ned.

Om du vill använda exempeldatauppsättningar från tredje part på din Azure Databricks-arbetsyta gör du följande:

Följ instruktionerna från tredje part för att ladda ned datamängden som en CSV-fil till den lokala datorn.
Ladda upp CSV-filen från den lokala datorn till din Azure Databricks-arbetsyta.
Om du vill arbeta med importerade data använder du Databricks SQL för att fråga efter data. Eller så kan du använda en notebook-fil för att läsa in data som en DataFrame.

Exempeldatauppsättningar från tredje part i bibliotek

Vissa tredje parter inkluderar exempeldatauppsättningar i bibliotek, till exempel PyPI-paket (Python Package Index) eller CRAN-paket (Comprehensive R Archive Network). Mer information finns i biblioteksleverantörens dokumentation.

Information om hur du installerar ett bibliotek i ett Azure Databricks-kluster med hjälp av klustrets användargränssnitt finns i Klusterbibliotek.
Information om hur du installerar ett Python-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i Python-bibliotek med notebook-omfattning.
Information om hur du installerar ett R-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i R-bibliotek med notebook-omfattning.

Databricks-datamängder (databricks-datamängder) monterade på DBFS

Azure Databricks rekommenderar att du inte använder DBFS och monterad molnobjektlagring för de flesta användningsfall i Unity Catalog-aktiverade Databricks-arbetsytor. Vissa exempeldatauppsättningar som monterats på DBFS är tillgängliga i Azure Databricks

Kommentar

Tillgängligheten och platsen för Databricks-datauppsättningar kan komma att ändras utan föregående meddelande.

Bläddra bland DBFS-monterade Databricks-datamängder

Om du vill bläddra bland dessa filer från en Python-, Scala- eller R-notebook-fil kan du använda databricks Utilities-referens (dbutils). Följande kod visar alla tillgängliga Databricks-datamängder.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Dela via