Definição de trabalho do Spark Integração Git
Este artigo explica como funciona a integração do Git para Spark Job Definitions (SJD) no Microsoft Fabric. Saiba como configurar uma conexão de repositório, gerenciar alterações de definição de trabalho do Spark por meio do controle do código-fonte e implantá-las em vários espaços de trabalho.
Habilitar a integração do Git para definições de trabalho do Spark no Azure DevOps permite que você acompanhe as alterações por meio do histórico completo do git. Se PySpark ou SparkR estiver selecionado, o arquivo de definição principal e o arquivo de referência serão incluídos como parte da confirmação. As alterações no código-fonte dentro desses arquivos também são rastreadas.
Importante
Este recurso está em pré-visualização.
Configurar uma ligação
Nas configurações do espaço de trabalho, você pode facilmente configurar uma conexão com o repositório para confirmar e sincronizar alterações. Para configurar a conexão, consulte o artigo Introdução à integração do Git. Uma vez conectados, seus itens, como definições de trabalho do Spark, ficarão visíveis no painel de controle Origem.
Depois de confirmar a definição de trabalho do Spark no repositório Git, a estrutura de pastas de definição de trabalho aparece no repositório.
Representação da definição de trabalho do Spark no Git
A imagem a seguir é um exemplo da estrutura de arquivos de cada item de definição de trabalho do Spark no repositório:
Quando você confirma o item de definição de trabalho do Spark no repositório, uma pasta git é criada para cada item e nomeada de acordo com este esquema: <Nome> do item + "SparkJobDefinition". Não renomeie a pasta, pois ela é usada para controlar o item no espaço de trabalho. Por exemplo, se o nome do item for "sjd1", o nome da pasta git será "sjd1SparkJobDefinition".
Existem duas subpastas dentro da pasta git. Eles são o principal e a referência. A pasta principal contém o arquivo de definição principal e a pasta de referência contém o arquivo de referência.
Além dos arquivos principal e de referência, há também um arquivo SparkJobDefinitionV1.json . Ele contém os metadados para o item de definição de trabalho do Spark, portanto, não o modifique. O arquivo .platform contém as informações da plataforma relacionadas à configuração> do Git, ele não deve ser modificado também.
Nota
- Se você escolher Java ou Scala como linguagem, os arquivos principal e de referência não serão confirmados quando carregados como um arquivo .jar.
- O ambiente anexado persiste em uma definição de trabalho do Spark após a sincronização do repositório para um espaço de trabalho de malha. Atualmente, não há suporte para ambientes de referência entre espaços de trabalho. Você deve anexar manualmente a um novo ambiente ou usar as configurações padrão do espaço de trabalho para executar a definição de trabalho.
- A definição de trabalho do Spark mantém o ID padrão da lakehouse ao sincronizar do repositório para um espaço de trabalho do Fabric. Se você confirmar um bloco de anotações com o lakehouse padrão, precisará fazer referência manual a um item lakehouse recém-criado. Para obter mais informações, consulte Lakehouse Git integration.