O que é uma definição de trabalho do Apache Spark?

Uma definição de trabalho do Apache Spark é um item de código do Microsoft Fabric que permite enviar trabalhos em lote/streaming para clusters do Spark. Ao carregar os arquivos binários a partir da saída de compilação de diferentes linguagens (por exemplo, .jar de Java), você pode aplicar diferentes lógicas de transformação aos dados hospedados em um lakehouse. Além do arquivo binário, você pode personalizar ainda mais o comportamento do trabalho carregando mais bibliotecas e argumentos de linha de comando.

Para executar uma definição de trabalho do Spark, você deve ter pelo menos uma casa de lago associada a ela. Esse contexto lakehouse padrão serve como o sistema de arquivos padrão para o tempo de execução do Spark. Para qualquer código Spark usando um caminho relativo para ler/gravar dados, os dados são servidos a partir do lakehouse padrão.

Gorjeta

Para executar um item de definição de trabalho do Spark, você deve ter um arquivo de definição principal e um contexto de lakehouse padrão. Se você não tiver uma casa de lago, crie uma seguindo as etapas em Criar uma casa de lago.