Intégration de Git à la définition du travail Spark

Cet article explique comment l’intégration de Git aux définitions de travaux Spark (SJD) dans Microsoft Fabric fonctionne. Découvrez comment configurer une connexion de référentiel, gérer les modifications de définition du travail Spark par le biais du contrôle de code source et les déployer dans différents espaces de travail.

L’activation de l’intégration de Git aux définitions de travaux Spark dans Azure DevOps vous permet de suivre les modifications via l’historique git complet. Si PySpark ou SparkR est sélectionné, le fichier de définition main et le fichier de référence sont inclus dans le cadre du commit. Les modifications apportées au code source au sein de ces fichiers sont également suivies.

Important

Cette fonctionnalité est en préversion.

Configurer une connexion

Avec les paramètres de votre espace de travail, vous pouvez facilement configurer une connexion à votre dépôt pour commiter et synchroniser les modifications. Pour configurer la connexion, consultez l'article Démarrage avec l'intégration de Git. Une fois connectés, vos éléments, tels que les définitions de travaux Spark, sont visibles dans le panneau de contrôle de code source.

Capture d’écran du panneau de contrôle de code source de l’espace de travail.

Une fois que vous avez commité la définition du travail Spark dans le référentiel Git, la structure du dossier de la définition du travail apparaît dans le référentiel.

Représentation de définition du travail Spark dans Git

L'image suivante est un exemple de la structure de fichier de chaque élément de définition du travail Spark dans le référentiel :

Capture d’écran de la structure de fichiers de référentiel Git sjd.

Lorsque vous commitez l’élément de définition du travail Spark dans le référentiel, un dossier git est créé pour chaque élément et nommé en fonction de ce schéma : <Nom de l’élément> + « SparkJobDefinition ». Ne renommez pas le dossier tel qu’il est utilisé pour suivre l’élément dans l’espace de travail. Par exemple, si le nom de l’élément est « sjd1 », le nom du dossier git est « sjd1SparkJobDefinition ».

Il existe deux sous-dossiers dans le dossier Git. Il s’agit des sous-dossiers main et référence. Le dossier main contient le fichier de définition main et le dossier de référence contient le fichier de référence.

En plus des fichiers main et de référence, il existe également un fichier SparkJobDefinitionV1.json. Il contient les métadonnées de l'élément de définition du travail Spark, aussi ne le modifiez pas. Le fichier .platform contient les informations de plateforme relatives à l’installation de Git> et ne doit pas être modifié.

Remarque

  • Si vous choisissez Java ou Scala comme langage, les fichiers main et de référence ne seront pas commités lors du téléchargement en tant que fichier .jar.
  • L’environnement attaché persiste dans une définition du travail Spark après la synchronisation à partir du référentiel vers un espace de travail Fabric. Actuellement, les environnements de référence interespaces de travail ne sont pas pris en charge. Vous devez procéder à un attachement manuel à un nouvel environnement ou utiliser les paramètres par défaut de l'espace de travail pour exécuter la définition du travail.
  • La définition du travail Spark conserve l’ID lakehouse par défaut lors de la synchronisation à partir du référentiel vers un espace de travail Fabric. Si vous commitez un notebook avec le lakehouse par défaut, vous devrez référencer manuellement un élément de lakehouse nouvellement créé. Pour plus d’informations, consultez Intégration de Git pour un lakehouse.