Convertir en Delta Lake
La commande SQL CONVERT TO DELTA
effectue une conversion unique des tables Parquet et Iceberg en tables Delta Lake. Pour la conversion incrémentielle des tables Parquet ou Iceberg en Delta Lake, consultez Cloner de manière incrémentielle des tables Parquet et Iceberg dans Delta Lake.
Unity Catalog prend en charge la commande SQL CONVERT TO DELTA
pour les tables Parquet et Iceberg stockées dans des emplacements externes gérés par Unity Catalog.
Vous pouvez configurer des fichiers de données Parquet existants en tant que tables externes dans Unity Catalog, puis les convertir au format Delta Lake pour déverrouiller toutes les fonctionnalités du lakehouse Databricks.
Pour obtenir la documentation technique, consultez CONVERT TO DELTA.
Conversion d’un répertoire de fichiers Parquet ou Iceberg dans un emplacement externe vers Delta Lake
Notes
- La conversion de tables Iceberg est en préversion publique.
- La conversion de tables Iceberg est prise en charge dans Databricks Runtime 10.4 LTS et versions ultérieures.
- La conversion des tables du metastore Iceberg n’est pas prise en charge.
- La conversion de tables Iceberg ayant connu une évolution de partition n’est pas prise en charge.
- La conversion de tables de fusion en lecture Iceberg ayant été mises à jour, supprimées ou fusionnées n’est pas prise en charge.
- Voici des limitations pour convertir des tables Iceberg avec des partitions définies sur des colonnes tronquées :
- Dans Databricks Runtime 12.2 LTS et versions ultérieures, le seul type de colonne tronqué pris en charge est
string
. - Dans Databricks Runtime 13.3 LTS et versions ultérieures, vous pouvez utiliser des colonnes tronquées de types
string
,long
ouint
. - Azure Databricks ne prend pas en charge l’utilisation de colonnes tronquées de type
decimal
.
- Dans Databricks Runtime 12.2 LTS et versions ultérieures, le seul type de colonne tronqué pris en charge est
Vous pouvez convertir un répertoire de fichiers de données Parquet en table Delta Lake tant que vous disposez d’un accès en écriture sur l’emplacement de stockage. Pour plus d’informations sur la configuration de l’accès avec le catalogue Unity, consultez Se connecter au stockage d’objets cloud et aux services à l’aide du catalogue Unity.
Remarque
Unity Catalog nécessite Azure Data Lake Storage Gen2.
CONVERT TO DELTA parquet.`abfss://container@storageAccount.dfs.core.windows.net/parquet-data`;
CONVERT TO DELTA iceberg.`abfss://container@storageAccount.dfs.core.windows.net/iceberg-data`;
Pour charger des tables converties comme tables externes dans Unity Catalog, vous avez besoin de l’autorisation CREATE EXTERNAL TABLE
sur l’emplacement externe.
Remarque
Pour Databricks Runtime 11.3 LTS et versions ultérieures, CONVERT TO DELTA
déduit automatiquement les informations de partitionnement des tables inscrites dans le metastore Hive. Vous devez fournir des informations de partitionnement pour les tables externes du Unity Catalog.
Conversion de tables managées et externes en Delta Lake sur Unity Catalog
La syntaxe CONVERT TO DELTA
ne peut être utilisée que pour créer des tables externes du Unity Catalog. Utilisez une instruction CTAS
pour convertir une table Parquet héritée gérée par le métastore Hive en une table Delta Lake gérée par Unity Catalog, consultez Mise à niveau d'une table Hive en une table gérée par Unity Catalog à l'aide de CREATE TABLE AS SELECT.
Pour mettre à niveau une table Parquet externe vers une table externe Unity Catalog, consultez Mettre à niveau une seule table Hive vers une table externe Unity Catalog avec l’Assistant Mise à niveau.
Après vous être inscrit une table Parquet externe dans Unity Catalog, vous pouvez la convertir en table Delta Lake externe. Vous devez fournir des informations de partitionnement si la table Parquet est partitionnée.
CONVERT TO DELTA catalog_name.database_name.table_name;
CONVERT TO DELTA catalog_name.database_name.table_name PARTITIONED BY (date_updated DATE);