Conjuntos de dados de amostra

Artigo
11/06/2024

Há diversos conjuntos de dados de exemplo fornecidos pelo Azure Databricks e disponibilizados por terceiros que você usar em seu workspace do Azure Databricks.

Conjuntos de dados do Catálogo do Unity

O Unity Catalog fornece acesso a vários conjuntos de dados de exemplo no catálogo samples. Você pode examinar esses conjuntos de dados na Interface do usuário do Catalog Explorer e fazer referência a eles diretamente em um notebook ou no editor SQL usando o <catalog-name>.<schema-name>.<table-name> padrão.

O esquema nyctaxi (também conhecido como um banco de dados) contém a tabela trips, que tem detalhes sobre corridas de táxi em Nova York. A instrução a seguir retorna os 10 primeiros registros nesta tabela:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

O esquema tpch contém dados do Parâmetro de comparação TPC-H. Para listar as tabelas neste esquema, execute:

SHOW TABLES IN samples.tpch

Conjuntos de dados de exemplo de terceiros no formato CSV

O Azure Databricks tem ferramentas internas para carregar rapidamente conjuntos de dados de exemplo de terceiros como arquivos CSV (valores separados por vírgula) nos workspaces do Azure Databricks. Alguns conjuntos de dados de terceiros de exemplo populares disponíveis no formato CSV:

Amostra do conjunto de dados	Para baixar o conjunto de dados de exemplo como um arquivo CSV…
Squirrel Census	Na página da Web Dados, clique em Dados Park, Dados Squirrel ou Histórias.
Coleção de conjuntos de dados OWID	No repositório do GitHub, clique na pasta conjuntos de dados. Clique na subpasta que contém o conjunto de dados de destino e, em seguida, clique no arquivo CSV do conjunto de dados.
Conjuntos de dados CSV em Data.gov	Na página da Web dos resultados da pesquisa, clique no resultado da pesquisa de destino e, ao lado do ícone CSV, clique em Baixar.
Diamonds (requer uma conta no Kaggle)	Na página da Web do conjunto de dados, na guia Dados, na guia Dados, ao lado de diamonds.csv, clique no ícone Baixar.
Duração da viagem de táxi de NYC (requer uma conta no Kaggle)	Na página da Web do conjunto de dados, na guia Dados, ao lado de sample_submission.zip, clique no Ícone Download. Para localizar os arquivos CSV do conjunto de dados, extrai o conteúdo do arquivo ZIP baixado.

Para usar conjuntos de dados de terceiros de exemplo no workspace do Azure Databricks, faça o seguinte:

Siga as instruções de terceiros para baixar o conjunto de dados como um arquivo CSV no computador local.
Carregue o arquivo CSV do computador local para o workspace do Azure Databricks.
Para trabalhar com os dados importados, use o Databricks SQL para consultar os dados. Ou você pode usar um notebook para carregar os dados como um DataFrame.

Conjuntos de dados de exemplo de terceiros em bibliotecas

Alguns terceiros incluem conjuntos de dados de exemplo em bibliotecas, como pacotes PyPI (Índice de Pacotes do Python) ou pacotes CRAN (Rede de arquivamento abrangente R). Para obter mais informações, consulte a documentação do provedor de biblioteca.

Para instalar uma biblioteca em um cluster do Azure Databricks usando a interface do usuário do cluster, consulte Bibliotecas de cluster.
Para instalar uma biblioteca do Python usando um notebook do Azure Databricks, confira Bibliotecas do Python no escopo do notebook.
Para instalar uma biblioteca do R usando um notebook do Azure Databricks, confira Bibliotecas do R no escopo do notebook.

Conjuntos de dados do Databricks (databricks-datasets) montados no DBFS

O Azure Databricks recomenda evitar o uso do DBFS e do armazenamento em nuvem montado para a maioria dos casos de uso em workspaces do Databricks com o Catálogo do Unity habilitado. Alguns conjuntos de dados de exemplo montados no DBFS estão disponíveis no Azure Databricks

Observação

A disponibilidade e o local dos conjuntos de dados do Databricks estão sujeitos a alterações sem aviso prévio.

Procurar conjuntos de dados do Databricks montados no DBFS

Para procurar esses arquivos de um notebook Python, Scala ou R, você pode usar a Referência dos Utilitários do Databricks (dbutils). O código a seguir lista todos os conjuntos de dados do Databricks disponíveis.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Compartilhar via