Paramètres de capacité du pilote pour le pilote ODBC Databricks

Article
08/30/2024

Cet article explique comment configurer des paramètres de capacité du pilote spéciaux et avancés pour le pilote ODBC Databricks.

Le pilote ODBC Databricks fournit les paramètres de capacité de pilote spéciaux et avancés suivants.

Définir le schéma initial dans ODBC
Prise en charge des requêtes ANSI SQL-92 dans ODBC
Extraire les résultats de requête volumineux dans ODBC
Sérialisation Arrow dans ODBC
Cloud Fetch dans ODBC
Activation de la journalisation

Définir le schéma initial dans ODBC

Le pilote ODBC vous permet de spécifier le schéma en définissant Schema=<schema-name> comme une configuration de connexion. Cela équivaut à exécuter USE <schema-name>.

Prise en charge des requêtes ANSI SQL-92 dans ODBC

Le pilote ODBC accepte les requêtes SQL dans le dialecte ANSI SQL-92 et traduit les requêtes en dialecte Databricks SQL. Toutefois, si votre application génère directement Databricks SQL, ou si votre application utilise une syntaxe SQL standard propre à Azure Databricks autre que ANSI SQL-92, Databricks vous recommande de définir UseNativeQuery=1 comme configuration de connexion. Avec ce paramètre, le pilote passe le détail des requêtes SQL à Azure Databricks.

Extraire les résultats de requête volumineux dans ODBC

Pour obtenir des performances optimales lorsque vous extrayez des résultats de requête volumineux, utilisez la version la plus récente du pilote ODBC qui comprend les optimisations suivantes.

Sérialisation Arrow dans ODBC

Les versions 2.6.15 et ultérieures du pilote ODBC prennent en charge un format de sérialisation des résultats de requête optimisé qui utilise Apache Arrow.

Cloud Fetch dans ODBC

Les version 2.6.17 et ultérieures du pilote ODBC prennent en charge Cloud Fetch. Cette fonctionnalité extrait les résultats des requêtes via le stockage cloud configuré dans votre déploiement Azure Databricks.

Les résultats de requête sont chargés dans un emplacement de stockage DBFS interne sous la forme de fichiers sérialisés par Arrow (jusqu’à 20 Mo). Lorsque le pilote envoie des demandes de récupération après la fin de la requête, Azure Databricks génère et retourne des signatures d’accès partagé aux fichiers chargés. Le pilote ODBC utilise ensuite les URL pour télécharger les résultats directement à partir de DBFS.

Cloud Fetch est utilisé uniquement pour les résultats de requête d’une taille supérieure à 1 Mo. Les résultats plus petits sont récupérés directement à partir d’Azure Databricks.

Azure Databricks récupère automatiquement les fichiers accumulés (garbage collection) qui sont marqués pour suppression au bout de 24 heures. Ces fichiers marqués sont définitivement supprimés dans les 24 heures qui suivent.

Pour en savoir plus sur l’architecture de Cloud Fetch, consultez How We Achieved High-bandwidth Connectivity With BI Tools.

Activation de la journalisation

Pour activer la journalisation dans le pilote ODBC pour Windows, définissez les champs suivants dans l’Administrateur des sources de données ODBC pour le nom de source de données lié :

Définissez le champ Niveau de journalisation de FATAL pour journaliser uniquement les événements graves à TRACE pour journaliser toute l’activité du pilote.
Définissez le champ Chemin d’accès au journal sur le chemin d’accès au dossier où vous souhaitez enregistrer des fichiers journaux.
Définissez le champ Nombre maximal de fichiers sur le nombre maximal de fichiers journaux à conserver.
Définissez le champ Taille maximale de fichier sur la taille maximale en mégaoctets de chaque fichier journal.

Si vous souhaitez activer la journalisation dans le pilote ODBC pour un ordinateur non Windows, définissez les propriétés suivantes dans la chaîne de connexion sans DSN ou avec DNS associée :

Définissez la propriété LogLevel à partir de 1 pour journaliser uniquement des événements graves jusqu’à 6 pour journaliser toute l’activité de pilote.
Définissez la propriété LogPath du chemin d’accès complet sur le dossier où vous souhaitez enregistrer des fichiers journaux.
Définissez la propriété LogFileCount sur le nombre maximal de fichiers journaux à conserver.
Définissez la propriété LogFileSize sur la taille maximale en octets de chaque fichier journal.

Si vous souhaitez obtenir plus d’informations, consultez les sections Configuring Logging Options on Windows et Configuring Logging Options on a Non-Windows Machine dans le Guide du pilote JDBC Databricks.

Partager via