Integração do Git à definição de trabalho do Spark

Este artigo explica como funciona a integração do Git para as definições de trabalho do Spark (SJD) no Microsoft Fabric. Saiba como configurar uma conexão de repositório, gerenciar alterações da definição de trabalho do Spark por meio do controle de origem e implantá-las em vários espaços de trabalho.

Habilitar a integração do Git para as definições de trabalho do Spark no Azure DevOps permite que você acompanhe as alterações por meio do histórico completo do Git. Se PySpark ou SparkR estiver selecionado, o arquivo de definição principal e o arquivo de referência serão incluídos como parte do compromisso. As alterações no código-fonte nesses arquivos também são monitoradas.

Importante

Esse recurso está em versão prévia.

Configurar uma conexão

Nas configurações do workspace, você pode configurar facilmente uma conexão com seu repositório a fim de confirmar e sincronizar alterações. Para configurar a conexão, consulte o artigo Introdução à integração do Git. Uma vez conectados, itens como definições de trabalho do Spark, ficarão visíveis no painel Controle do código-fonte.

Captura de tela do painel controle do código-fonte do espaço de trabalho.

Após confirmar a definição de trabalho do Spark no repositório Git, a estrutura de pastas da definição de trabalho aparecerá no repositório.

Representação da definição de trabalho do Spark no Git

A imagem a seguir é um exemplo da estrutura de arquivos de cada item da definição de trabalho no repositório:

Captura de tela da estrutura do arquivo repositório Git do sjd.

Quando você confirma o item de definição de trabalho do Spark no repositório, uma pasta git é criada para cada item e nomeada de acordo com este esquema: <Nome do item> + "SparkJobDefinition". Não renomeie a pasta, pois ela é usada para monitorar o item no espaço de trabalho. Por exemplo, se o nome do item for "sjd1", o nome da pasta git será "sjd1SparkJobDefinition".

Há duas subpastas dentro da pasta git. Eles são a principal e a referência. A pasta principal contém o arquivo de definição principal e a pasta de referência contém o arquivo de referência.

Além dos arquivos principais e de referência, há também um arquivo SparkJobDefinitionV1.json. Ele contém os metadados para o item de definição de trabalho do Spark, portanto, não o modifique. O arquivo .platform contém as informações da plataforma relacionadas à configuração > do Git, e também não deve ser modificado.

Observação

  • Se você escolher Java ou Scala como linguagem, os arquivos principais e de referência não serão confirmados quando forem carregados como um arquivo .jar.
  • O ambiente anexado persiste em uma definição de trabalho do Spark após a sincronização do repositório para um espaço de trabalho do Fabric. Atualmente, não há suporte para ambientes de referência entre workspaces. Conecte-se manualmente a um novo ambiente ou configurações padrão do espaço de trabalho para executar a definição do trabalho.
  • A definição de trabalho do Spark retém o ID padrão do lakehouse ao sincronizar do repositório para um espaço de trabalho do Fabric. Se você confirmar um notebook com o lakehouse padrão, será necessário referenciar manualmente um item do lakehouse criado recentemente. Para obter mais informações, consulte a integração do Git do Lakehouse.