Optimiser l’utilisation des clusters de pipelines Delta Live Tables avec la mise à l’échelle automatique améliorée

La mise à l’échelle automatique améliorée Databricks optimise l’utilisation du cluster en allouant automatiquement des ressources de cluster en fonction du volume de charge de travail, avec un impact minimal sur la latence de traitement des données de vos pipelines.

La mise à l’échelle automatique améliorée améliore la fonctionnalité de mise à l’échelle automatique du cluster Azure Databricks avec les fonctionnalités suivantes :

  • La mise à l’échelle automatique améliorée implémente l’optimisation des charges de travail de diffusion en continu et ajoute des améliorations pour renforcer les performances des charges de travail par lots. La mise à l’échelle automatique améliorée permet d’optimiser les coûts en ajoutant ou en supprimant des machines à mesure que la charge de travail change.
  • La mise à l’échelle automatique améliorée arrête de manière proactive les nœuds sous-utilisés tout en garantissant qu’aucune tâche n’échoue lors de l’arrêt. La fonctionnalité de mise à l’échelle automatique du cluster existante met à l’échelle les nœuds uniquement si le nœud est inactif.

La mise à l’échelle automatique améliorée est le mode de mise à l’échelle automatique par défaut lorsque vous créez un pipeline dans l’interface utilisateur Delta Live Tables. Vous pouvez activer la mise à l’échelle automatique améliorée pour les pipelines existants en modifiant les paramètres de pipeline dans l’interface utilisateur. Vous pouvez également activer la mise à l’échelle automatique améliorée lorsque vous créez ou modifiez des pipelines avec l’API Delta Live Tables.

Activer la mise à l’échelle automatique améliorée

Remarque

Étant donné que les ressources de calcul sont automatiquement optimisées pour les pipelines DLT serverless, les paramètres de Databricks Enhanced Autoscaling ne sont pas disponibles lorsque vous sélectionnez Serverless pour un pipeline.

Pour en savoir plus sur l’activation des pipelines DLT serverless, contactez votre équipe de compte Azure Databricks.

Pour utiliser la mise à l’échelle automatique améliorée, effectuez l’une des opérations suivantes :

  • Définissez Mode cluster sur Mise à l’échelle automatique améliorée lorsque vous créez ou modifiez un pipeline dans l’interface utilisateur de Delta Live Tables.
  • Ajoutez le paramètre autoscale à la configuration du cluster de pipeline et définissez le champ mode sur ENHANCED. Consultez Configurer vos paramètres de calcul.

Suivez les instructions suivantes lors de la configuration de la mise à l’échelle automatique améliorée pour les pipelines de production :

  • Conservez le paramètre Min workers par défaut.
  • Définissez le paramètre Max workers sur une valeur en fonction du budget et de la priorité du pipeline.

L’exemple suivant configure un cluster de mise à l’échelle automatique améliorée avec un minimum de 5 workers et un maximum de 10 workers. max_workers doit être supérieur ou égal à min_workers.

Remarque

  • La mise à l’échelle automatique améliorée est uniquement disponible pour les clusters updates. La fonctionnalité de mise à l’échelle automatique existante est utilisée pour les clusters maintenance.
  • La configuration autoscale contient deux modes :
{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

Le pipeline est automatiquement redémarré après la modification de la configuration de mise à l’échelle automatique si le pipeline est configuré pour une exécution continue. Après le redémarrage, attendez-vous à une courte période d’augmentation de la latence. Après cette brève période d’augmentation de la latence, la taille du cluster doit être mise à jour en fonction de votre configuration autoscale, et la latence du pipeline redéfinie sur ses caractéristiques de latence précédentes.

Surveillance des pipelines activés pour la mise à l’échelle automatique améliorée

Vous pouvez utiliser le journal des événements dans l’interface utilisateur de Delta Live Tables pour surveiller les métriques de la mise à l’échelle automatique améliorée. Les événements de mise à l’échelle automatique améliorée ont le type d’événement autoscale. Voici des exemples d’événements :

Événement Message
Demande de redimensionnement de cluster lancée Scaling [up or down] to <y> executors from current cluster size of <x>
Demande de redimensionnement de cluster réussie Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED
Demande de redimensionnement de cluster partiellement réussie Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED
Demande de redimensionnement de cluster échouée Achieved cluster size <x> for cluster <cluster-id> with status FAILED

Vous pouvez également afficher les événements de mise à l’échelle automatique améliorée en interrogeant directement le journal des événements :