Opções de formato de dados
O Azure Databricks tem ligações de palavras-chave incorporadas para todos os formatos de dados suportados nativamente pelo Apache Spark. O Azure Databricks usa o Delta Lake como o protocolo padrão para ler e gravar dados e tabelas, enquanto o Apache Spark usa o Parquet.
Estes artigos fornecem uma visão geral de muitas das opções e configurações disponíveis quando você consulta dados no Azure Databricks.
Os seguintes formatos de dados têm configurações de palavra-chave incorporadas no Apache Spark DataFrames e SQL:
O Azure Databricks também fornece uma palavra-chave personalizada para carregar experimentos MLflow.
Formatos de dados com considerações especiais
Alguns formatos de dados requerem configuração adicional ou considerações especiais para uso:
- O Databricks recomenda o carregamento de imagens como
binary
dados. - O Azure Databricks pode ler diretamente arquivos compactados em muitos formatos de arquivo. Você também pode descompactar arquivos compactados no Azure Databricks, se necessário.
- LZO requer uma instalação de codec.
Para obter mais informações sobre origens de dados do Apache Spark, veja Funções Genéricas de Carregar/Guardar e Opções Genéricas de Origem de Ficheiro.