Synchroniser Apache Spark pour les définitions de tables externes d’Azure Synapse dans le pool SQL serverless

Le pool SQL serverless peut synchroniser automatiquement les métadonnées depuis Apache Spark. Une base de données de pool SQL serverless sera créée pour chaque base de données existante dans les pools Apache Spark.

Pour chaque table externe Spark de type Parquet ou CSV et située dans Stockage Azure, une table externe est créée dans la base de données du pool SQL serverless. Par conséquent, vous pouvez arrêter vos pools Spark et interroger quand même les tables externes Spark à partir du pool SQL serverless.

Quand une table est partitionnée dans Spark, les fichiers dans le stockage sont organisés par dossiers. Le pool SQL serverless utilise les métadonnées des partitions et cible seulement les dossiers et fichiers pertinents pour votre requête.

La synchronisation des métadonnées est configurée automatiquement pour chaque pool Apache Spark serverless provisionné dans l’espace de travail Azure Synapse. Vous pouvez tout de suite commencer à interroger des tables externes Spark.

Chaque table externe Parquet Spark ou CSV qui se trouve dans Stockage Azure est représentée par une table externe dans un schéma dbo qui correspond à une base de données de pool SQL serverless.

Pour les requêtes de table externe Spark, exécutez une requête qui cible une [spark_table] externe. Avant d’exécuter l’exemple ci-dessous, veillez à disposer d’un accès correct au compte de stockage où se trouvent les fichiers.

SELECT * FROM [db].dbo.[spark_table]

Mappage des types de données Apache Spark aux types de données SQL

Pour plus d’informations sur le mappage des types de données Apache Spark aux types de données SQL, consultez Tables de métadonnées partagées Azure Synapse Analytics.

Étapes suivantes

Pour en savoir plus sur le contrôle d’accès au stockage, accédez à l’article Contrôle d’accès au stockage.