Démarrage rapide : Déployer un cluster Apache Spark managé avec Azure Databricks

Azure Managed Instance pour Apache Cassandra offre des opérations de déploiement et de mise à l’échelle automatisées pour les centres de données Apache Cassandra open source managés. Cette fonctionnalité accélère les scénarios hybrides et réduit la maintenance continue.

Ce guide de démarrage rapide explique comment utiliser le portail Azure pour créer un cluster Apache Spark complètement managé dans le réseau virtuel Azure de votre cluster Azure Managed Instance pour Apache Cassandra. Vous créez le cluster Spark dans Azure Databricks. Plus tard, vous pourrez créer ou attacher des notebooks au cluster, lire des données de différentes sources, et analyser des insights.

Pour en savoir plus et obtenir des instructions détaillées, consultez Déployer Azure Databricks dans votre réseau virtuel Azure (injection dans le réseau virtuel).

Prérequis

Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

Créer un cluster Azure Databricks

Effectuez les étapes suivantes pour créer un cluster Azure Databricks dans un réseau virtuel avec Azure Managed Instance pour Apache Cassandra :

  1. Connectez-vous au portail Azure.

  2. Dans le volet de navigation de gauche, localisez Groupes de ressources. Accédez au groupe de ressources contenant le réseau virtuel sur lequel votre instance gérée est déployée.

  3. Ouvrez la ressource Réseau virtuel et prenez note de la valeur dans Espace d’adressage :

    Capture d’écran montrant où obtenir l’espace d’adressage de votre réseau virtuel.

  4. Dans le groupe de ressources, sélectionnez Ajouter et faites une recherche sur Azure Databricks dans le champ de recherche :

    Capture d’écran montrant une recherche pour Azure Databricks.

  5. Sélectionnez Créer pour créer un compte Azure Databricks :

    Capture d’écran montrant l’offre Azure Databricks avec le bouton Créer sélectionné.

  6. Saisissez les valeurs suivantes :

    • Nom de l’espace de travail : entrez un nom pour votre espace de travail Databricks.
    • Région : veillez à sélectionner la même région que celle de votre réseau virtuel.
    • Niveau tarifaire : choisissez le niveau Standard, Premium ou Essai. Pour plus d’informations sur ces niveaux, consultez la page de tarification Databricks.

    Capture d’écran montrant une boîte de dialogue dans laquelle vous pouvez entrer le nom, la région et le niveau tarifaire de l’espace de travail pour le compte Databricks.

  7. Ensuite, sélectionnez l’onglet Mise en réseau et entrez les informations suivantes :

    • Déployer l’espace de travail Azure Databricks dans votre réseau virtuel (VNet) : sélectionnez Oui.
    • Réseau virtuel : dans la liste déroulante, choisissez le réseau virtuel sur lequel se trouve votre instance managée.
    • Nom du sous-réseau public : entrez un nom pour le sous-réseau public.
    • Plage CIDR du sous-réseau public : entrez une plage d’adresses IP pour le sous-réseau public.
    • Nom du sous-réseau privé : entrez un nom pour le sous-réseau privé.
    • Plage CIDR du sous-réseau privé : entrez une plage d’adresses IP pour le sous-réseau privé.

    Pour éviter les collisions d’étendues, sélectionnez des plages plus grandes. Si nécessaire, utilisez un calculateur de sous-réseau visuel pour diviser les plages :

    Capture d’écran montrant le calculateur de sous-réseau visuel avec deux adresses réseau identiques mises en surbrillance.

    La capture d’écran suivante montre des exemples de détails dans le volet Réseau :

    Capture d’écran montrant les noms de sous-réseaux publics et privés spécifiés.

  8. Sélectionnez Vérifier et créer, puis sélectionnez Créer pour déployer l’espace de travail.

  9. Lancer l’espace de travail après sa création.

  10. Vous êtes redirigé vers le portail Azure Databricks. Dans le portail, sélectionnez Nouveau cluster.

  11. Dans le volet Nouveau cluster, acceptez les valeurs par défaut pour tous les champs autres que les champs suivants :

    • Nom du cluster : entrez un nom pour le cluster.
    • Version du runtime Databricks : nous recommandons de sélectionner la version du runtime Databricks 7.5 ou supérieure pour la prise en charge de Spark 3.x.

    Capture d’écran montrant la boîte de dialogue Nouveau cluster avec une version du runtime Databricks sélectionnée.

  12. Développez Options avancées et ajoutez la configuration suivante. N’oubliez pas d’indiquer les adresses IP des nœuds et les informations d’identification :

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Ajoutez la bibliothèque du connecteur Apache Spark Cassandra à votre cluster pour vous connecter aux points de terminaison Cassandra natifs et Azure Cosmos DB. Dans votre cluster, sélectionnez Bibliothèques>Installer nouveau>Maven, puis ajoutez com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 dans les coordonnées Maven.

Capture d’écran montrant la recherche de packages Maven dans Databricks.

Nettoyer les ressources

Si vous ne comptez pas continuer à utiliser ce cluster Managed Instance, supprimez-le en effectuant les étapes suivantes :

  1. Dans le menu de gauche du portail Azure, sélectionnez Groupes de ressources.
  2. Dans la liste, sélectionnez le groupe de ressources créé pour ce guide de démarrage rapide.
  3. Dans le volet Vue d’ensemble du groupe de ressources, sélectionnez Supprimer un groupe de ressources.
  4. Dans la fenêtre suivante, entrez le nom du groupe de ressources à supprimer, puis sélectionnez Supprimer.

Étapes suivantes

Dans ce guide de démarrage rapide, vous avez vu comment créer un cluster Apache Spark complètement managé dans le réseau virtuel de votre cluster Azure Managed Instance pour Apache Cassandra. Vous pouvez ensuite apprendre à gérer les ressources du cluster et du centre de ressources :