Início rápido: Criar um Pool do Apache Spark sem servidor usando o Synapse Studio

O Azure Synapse Analytics oferece vários mecanismos de análise para ajudá-lo a ingerir, transformar, modelar, analisar e fornecer seus dados. O Pool do Apache Spark oferece funcionalidades de software livre de computação de Big Data. Depois de criar um Pool do Spark no seu espaço de trabalho Synapse, os dados podem ser carregados, modelados, processados e servidos para obter insights.

Este início rápido descreve as etapas para criar um pool do Apache Spark em um workspace do Synapse usando o Synapse Studio.

Importante

A cobrança das instâncias do Spark será proporcional por minuto, independentemente de elas estarem sendo usadas ou não. Desligue a instância do Spark depois de terminar de usá-la ou defina um tempo limite curto. Para saber mais, confira a seção Recursos de limpeza deste artigo.

Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.

Pré-requisitos

Entre no Portal do Azure

Entre no Portal do Azure

  1. Navegue até o workspace do Synapse em que o pool do Apache Spark será criado digitando o nome do serviço (ou o nome do recurso diretamente) na barra de pesquisa. Screenshot from the Azure portal of the search bar with Synapse workspaces typed in.

  2. Na lista de workspaces, digite o nome (ou parte do nome) do workspace a ser aberto. Para este exemplo, usamos um espaço de trabalho chamado contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Iniciar o Synapse Studio

Na visão geral do workspace, selecione a URL da Web do workspace para abrir o Synapse Studio.

Screenshot from the Azure portal of a Synapse workspace overview with Launch Synapse Studio highlighted.

Criar o pool do Apache Spark no Synapse Studio

Importante

O Azure Synapse Runtime para Apache Spark 2.4 foi preterido e oficialmente não tem suporte desde setembro de 2023. Dado que Spark 3.1 e Spark 3.2 também são anunciados o fim do suporte, recomendamos que os clientes migrem para Spark 3.3.

  1. Na home page do Synapse Studio, navegue até o Hub de Gerenciamento no painel de navegação esquerdo selecionando o ícone Gerenciar. Screenshot from the Azure portal of the Synapse Studio home page with Management Hub section highlighted.

  2. Uma vez no Hub de Gerenciamento, navegue até a seção Pools do Apache Spark para ver a lista atual de pools do Apache Spark disponíveis no workspace. Screenshot from the Azure portal of the Synapse Studio management hub with Apache Spark pools navigation selected.

  3. Selecione + Novo e o novo assistente de criação de pool do Apache Spark será exibido.

  4. Insira os seguintes detalhes na guia Informações Básicas:

    Configuração Valor sugerido Descrição
    Nome do Pool do Apache Spark Um nome de pool válido, como contosospark Esse é o nome que o Pool do Apache Spark terá.
    Tamanho do nó Pequeno (4 vCPU/32 GB) Defina isso com o menor tamanho para reduzir os custos deste início rápido
    Autoescala Desabilitado Não precisamos de dimensionamento automático neste início rápido
    Número de nós 8 Use um tamanho pequeno para limitar os custos do início rápido
    Alocar executores dinamicamente Desabilitado Esta configuração é mapeada para a propriedade de alocação dinâmica na configuração do Spark para a alocação de executores do Aplicativo Spark. Não precisamos dimensionar automaticamente neste guia de início rápido.

    Screenshot from the Azure portal of the Basics for Synapse Studio new Apache Spark pool.

    Importante

    Existem limitações específicas para os nomes que o Pool do Spark podem utilizar. Os nomes precisam conter apenas letras ou números, ter 15 caracteres ou menos, começar com uma letra, ser exclusivos no workspace e não devem conter palavras reservadas.

  5. Na próxima aba, Configurações adicionais, deixe todas as configurações como padrão.

  6. Selecione Marcas. Considere usar tags do Azure. Por exemplo, a tag “Owner” ou “CreatedBy” para identificar quem criou o recurso, e a tag “Environment” para identificar se esse recurso está em Produção, Desenvolvimento, etc. Para obter mais informações, confira Desenvolver sua estratégia de nomenclatura e marcação para recursos do Azure. Quando estiver pronto, selecione Revisar + criar.

  7. Na guia Examinar + criar, verifique se os detalhes estão corretos com base no que foi inserido anteriormente e clique em Criar.

    Screenshot from the Azure portal of the Create Synapse Studio new Apache Spark pool.

  8. O pool do Apache Spark iniciará o processo de provisionamento.

  9. Quando o provisionamento for concluído, o novo pool do Apache Spark aparecerá na lista.

    Screenshot from the Azure portal of the Synapse Studio new Apache Spark pool list.

Limpar recursos do pool do Apache Spark usando o Synapse Studio

Os passos seguintes eliminam a Pool do Spark do espaço de trabalho utilizando o Synapse Studio.

Aviso

A exclusão de um pool do Spark removerá o mecanismo de análise do workspace. Não será mais possível se conectar ao pool e todas as consultas, os pipelines e os notebooks que usam esse Pool do Spark deixarão de funcionar.

Se você quiser excluir o Pool do Spark, execute as seguintes etapas:

  1. Navegue até os pools do Apache Spark no Hub de Gerenciamento no Synapse Studio.

  2. Selecione as reticências ao lado do pool do Apache a ser excluído (nesse caso, contosospark) para mostrar os comandos do pool do Apache Spark.

    Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.

  3. Selecione Excluir.

  4. Confirme a exclusão e selecione o botão Delete.

  5. Quando o processo for concluído com êxito, o Pool do Apache Spark não estará mais listado nos recursos do workspace.