Conjuntos de dados de amostra

Há diversos conjuntos de dados de exemplo fornecidos pelo Azure Databricks e disponibilizados por terceiros que você usar em seu workspace do Azure Databricks.

Conjuntos de dados do Catálogo do Unity

O Unity Catalog fornece acesso a vários conjuntos de dados de exemplo no catálogo samples. Você pode examinar esses conjuntos de dados na Interface do usuário do Catalog Explorer e fazer referência a eles diretamente em um notebook ou no editor SQL usando o <catalog-name>.<schema-name>.<table-name> padrão.

O esquema nyctaxi (também conhecido como um banco de dados) contém a tabela trips, que tem detalhes sobre corridas de táxi em Nova York. A instrução a seguir retorna os 10 primeiros registros nesta tabela:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

O esquema tpch contém dados do Parâmetro de comparação TPC-H. Para listar as tabelas neste esquema, execute:

SHOW TABLES IN samples.tpch

Conjuntos de dados de exemplo de terceiros no formato CSV

O Azure Databricks tem ferramentas internas para carregar rapidamente conjuntos de dados de exemplo de terceiros como arquivos CSV (valores separados por vírgula) nos workspaces do Azure Databricks. Alguns conjuntos de dados de terceiros de exemplo populares disponíveis no formato CSV:

Amostra do conjunto de dados Para baixar o conjunto de dados de exemplo como um arquivo CSV…
Squirrel Census Na página da Web Dados, clique em Dados Park,
Dados Squirrel ou Histórias.
Coleção de conjuntos de dados OWID No repositório do GitHub, clique na pasta conjuntos de dados. Clique na subpasta que contém o conjunto de dados de destino e, em seguida, clique no arquivo CSV do conjunto de dados.
Conjuntos de dados CSV em Data.gov Na página da Web dos resultados da pesquisa, clique no resultado da pesquisa de destino e, ao lado do ícone CSV, clique em Baixar.
Diamonds (requer uma conta no Kaggle) Na página da Web do conjunto de dados, na guia Dados, na guia Dados, ao lado de diamonds.csv, clique no ícone Baixar.
Duração da viagem de táxi de NYC (requer uma conta no Kaggle) Na página da Web do conjunto de dados, na guia Dados, ao lado de sample_submission.zip, clique no
Ícone Download. Para localizar os arquivos CSV do conjunto de dados, extrai o conteúdo do arquivo ZIP baixado.

Para usar conjuntos de dados de terceiros de exemplo no workspace do Azure Databricks, faça o seguinte:

  1. Siga as instruções de terceiros para baixar o conjunto de dados como um arquivo CSV no computador local.
  2. Carregue o arquivo CSV do computador local para o workspace do Azure Databricks.
  3. Para trabalhar com os dados importados, use o Databricks SQL para consultar os dados. Ou você pode usar um notebook para carregar os dados como um DataFrame.

Conjuntos de dados de exemplo de terceiros em bibliotecas

Alguns terceiros incluem conjuntos de dados de exemplo em bibliotecas, como pacotes PyPI (Índice de Pacotes do Python) ou pacotes CRAN (Rede de arquivamento abrangente R). Para obter mais informações, consulte a documentação do provedor de biblioteca.

Conjuntos de dados do Databricks (databricks-datasets) montados no DBFS

O Azure Databricks recomenda evitar o uso do DBFS e do armazenamento em nuvem montado para a maioria dos casos de uso em workspaces do Databricks com o Catálogo do Unity habilitado. Alguns conjuntos de dados de exemplo montados no DBFS estão disponíveis no Azure Databricks

Observação

A disponibilidade e o local dos conjuntos de dados do Databricks estão sujeitos a alterações sem aviso prévio.

Procurar conjuntos de dados do Databricks montados no DBFS

Para procurar esses arquivos de um notebook Python, Scala ou R, você pode usar a Referência dos Utilitários do Databricks (dbutils). O código a seguir lista todos os conjuntos de dados do Databricks disponíveis.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"