Conectar-se ao Syncsort

Importante

Esse recurso está em uma versão prévia.

O Syncsort ajuda você a dividir os silos de dados integrando dados herdados, de mainframe e da IBM ao Azure Databricks. Você pode extrair dados dessas fontes com facilidade para o Delta Lake.

Estas são as etapas para usar o Syncsort com o Azure Databricks.

Etapa 1: Gerar um token de acesso pessoal do Databricks

O Syncsort é autenticado no Azure Databricks por meio de um token de acesso pessoal do Azure Databricks.

Observação

Como melhor prática de segurança, ao autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, o Databricks recomenda que você use tokens de acesso pertencentes às entidades de serviço e não aos usuários do workspace. Para criar tokens para entidades de serviço, confira Gerenciar tokens para uma entidade de serviço.

Etapa 2: Configurar um cluster para dar suporte às necessidades de integração

O Syncsort gravará os dados em um caminho do Azure Data Lake Storage, e o cluster de integração do Azure Databricks lerá os dados desse local. Portanto, o cluster de integração exige acesso seguro ao caminho do Azure Data Lake Storage.

Proteger o acesso a um caminho do Azure Data Lake Storage

Para proteger o acesso aos dados do ADLS (Azure Data Lake Storage), use uma chave de acesso da conta de armazenamento do Azure (recomendado) ou uma entidade de serviço do Microsoft Entra ID.

Usar uma chave de acesso da conta de armazenamento do Azure

É possível configurar uma chave de acesso da conta de armazenamento no cluster de integração como parte da configuração do Spark. Verifique se a conta de armazenamento tem acesso ao contêiner do ADLS e ao sistema de arquivos usado para o preparo de dados, bem como ao contêiner do ADLS e ao sistema de arquivos no qual deseja gravar as tabelas do Delta Lake. Para configurar o cluster de integração para usar a chave, siga as etapas em Conectar-se ao Azure Data Lake Storage Gen2 e Armazenamento de Blobs.

Usar uma entidade de serviço do Microsoft Entra ID

É possível configurar uma entidade de serviço no cluster de integração do Azure Databricks como parte da configuração do Spark. Verifique se a entidade de serviço tem acesso ao contêiner do ADLS usado para o preparo de dados e ao contêiner do ADLS no qual deseja gravar as tabelas Delta. Para configurar o cluster de integração a fim de usar a entidade de serviço, siga as etapas descritas em Acessar o ADLS Gen2 com uma entidade de serviço.

Especificar a configuração de cluster

  1. Defina o Modo de cluster como Standard.

  2. Defina Versão do Databricks Runtime como uma versão do Databricks Runtime.

  3. Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à configuração do Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configure o cluster de acordo com as suas necessidades de integração e de dimensionamento.

Para obter detalhes da configuração do cluster, confira Referência de configuração de computação.

Confira Obter detalhes de conexão para um recurso de computação do Azure Databricks para obter as etapas para obter a URL JDBC e o caminho HTTP.

Etapa 3: Obter os detalhes da conexão JDBC e ODBC para se conectar a um cluster

Para conectar um cluster do Azure Databricks ao Syncsort, você precisará das seguintes propriedades de conexão JDBC/ODBC:

  • JDBC URL
  • Caminho HTTP

Etapa 4: Configurar o Syncsort com o Azure Databricks

Acesse a página de logon do Databricks e Conexão para Big Data e siga as instruções.

Recursos adicionais

Suporte