Sincronizar o Apache Spark para definições de tabela externa do Azure Synapse no pool de SQL sem servidor

O pool de SQL sem servidor pode sincronizar automaticamente metadados do Apache Spark. Um banco de dados do pool de SQL sem servidor será criado para cada banco de dados existente nos pools do Apache Spark sem servidor.

Para cada tabela externa do Spark baseada em Parquet ou CSV e localizada no Armazenamento do Azure, uma tabela externa é criada no banco de dados do pool de SQL sem servidor. Assim, você pode desligar os seus pools do Spark e ainda consultar tabelas externas do Spark no pool de SQL sem servidor.

Quando uma tabela é particionada no Spark, os arquivos do armazenamento são organizados por pastas. O pool de SQL sem servidor usará metadados de partição e apenas terá como destino pastas e arquivos relevantes para a consulta.

A sincronização de metadados é configurada automaticamente para cada Pool do Apache Spark sem servidor provisionado no workspace do Azure Synapse. Você pode começar a consultar as tabelas externas do Spark instantaneamente.

Cada tabela externa de Parquet ou CSV do Spark localizada no Armazenamento do Azure é representada por uma tabela externa em um esquema dbo que corresponde a um banco de dados do pool de SQL sem servidor.

Para consultas de tabela externa do Spark, execute uma consulta que tenha como destino uma [tabela_do_Spark] externa. Antes de executar o exemplo a seguir, verifique se você tem o acesso correto à conta de armazenamento na qual os arquivos estão localizados.

SELECT * FROM [db].dbo.[spark_table]

Mapeamento de tipos de dados do Apache Spark para tipos de dados SQL

Para obter mais informações sobre como mapear tipos de dados de Apache Spark para SQL tipos de dados, confira Tabelas de metadados compartilhados do Azure Synapse Analytics.

Próximas etapas

Avance para o artigo Controle de acesso de armazenamento para saber mais sobre o controle de acesso de armazenamento.