Carregar dados no Azure Data Lake Storage Gen1 usando o Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

O Azure Data Lake Storage Gen1 (anteriormente conhecido como Azure Data Lake Store) é um repositório de hiperescala em toda a empresa para cargas de trabalho analíticas de big data. O Data Lake Storage Gen1 permite capturar dados de qualquer tamanho, tipo e velocidade de ingestão. Os dados são capturados em um único local para análises operacionais e exploratórias.

O Azure Data Factory é um serviço de integração de dados baseado na nuvem totalmente gerido. Você pode usar o serviço para preencher o lago com dados do seu sistema existente e economizar tempo ao criar suas soluções de análise.

O Azure Data Factory oferece os seguintes benefícios para carregar dados no Data Lake Storage Gen1:

  • Fácil de configurar: Um assistente intuitivo de 5 passos sem necessidade de scripts.
  • Suporte avançado a armazenamento de dados: suporte integrado para um conjunto avançado de armazenamentos de dados locais e baseados em nuvem. Para obter uma lista detalhada, consulte a tabela de Armazenamentos de dados suportados.
  • Seguro e compatível: os dados são transferidos por HTTPS ou ExpressRoute. A presença do serviço global garante que seus dados nunca saiam do limite geográfico.
  • Alto desempenho: velocidade de carregamento de dados de até 1 GB/s no Data Lake Storage Gen1. Para obter detalhes, consulte Copiar desempenho da atividade.

Este artigo mostra como usar a ferramenta Data Factory Copy Data para carregar dados do Amazon S3 no Data Lake Storage Gen1. Você pode seguir etapas semelhantes para copiar dados de outros tipos de armazenamentos de dados.

Pré-requisitos

  • Assinatura do Azure: se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
  • Conta do Data Lake Storage Gen1: se você não tiver uma conta do Data Lake Storage Gen1, consulte as instruções em Criar uma conta do Data Lake Storage Gen1.
  • Amazon S3: este artigo mostra como copiar dados do Amazon S3. Você pode usar outros armazenamentos de dados seguindo etapas semelhantes.

Criar uma fábrica de dados

  1. Se você ainda não criou sua fábrica de dados, siga as etapas em Guia de início rápido: criar uma fábrica de dados usando o portal do Azure e o Azure Data Factory Studio para criar uma. Depois de criá-lo, navegue até o data factory no portal do Azure.

    Home page para o Azure Data Factory, com o bloco Open Azure Data Factory Studio.

  2. Selecione Abrir no bloco Abrir o Azure Data Factory Studio para iniciar o aplicativo Integração de Dados em uma guia separada.

Carregue dados no Data Lake Storage Gen1

  1. Na página inicial, selecione o bloco Ingest para iniciar a ferramenta Copiar dados:

    Captura de tela que mostra a página inicial do ADF.

  2. Na página Propriedades, especifique CopyFromAmazonS3ToADLS para o campo Nome da tarefa e selecione Avançar:

    Página Propriedades

  3. Na página Armazenamento de dados de origem, selecione + Criar nova conexão:

    Página de arquivo de dados de origem

    Selecione Amazon S3 e selecione Continue

    Página s3 do armazenamento de dados de origem

  4. Na página Especificar conexão do Amazon S3, execute as seguintes etapas:

    1. Especifique o valor de ID da Chave de Acesso.

    2. Especifique o valor da Chave de Acesso Secreta.

    3. Selecione Concluir.

      A captura de tela mostra o painel Novo Serviço Vinculado onde você pode inserir valores.

    4. Você verá uma nova conexão. Selecione Seguinte.

    A captura de tela mostra sua nova conexão.

  5. Na página Escolher o ficheiro ou pasta de entrada, navegue até à pasta ou ficheiro que pretende copiar. Selecione a pasta/arquivo, selecione Escolher e, em seguida, selecione Avançar:

    Escolher ficheiro ou pasta de entrada

  6. Escolha o comportamento de cópia selecionando as opções Copiar arquivos recursivamente e Cópia binária (copiar arquivos como estão). Selecione Seguinte:

    A captura de tela mostra a opção Escolha o arquivo ou pasta de entrada onde você pode selecionar Copiar arquivo recursivamente e Cópia binária.

  7. Na página Armazenamento de dados de destino, selecione + Criar nova conexão e, em seguida, selecione Azure Data Lake Storage Gen1 e selecione Continuar:

    Página arquivo de dados de destino

  8. Na página Novo Serviço Vinculado (Azure Data Lake Storage Gen1), execute as seguintes etapas:

    1. Selecione sua conta do Data Lake Storage Gen1 para o nome da conta do Repositório Data Lake.
    2. Especifique o Locatário e selecione Concluir.
    3. Selecione Seguinte.

    Importante

    Nesta explicação passo a passo, você usa uma identidade gerenciada para recursos do Azure para autenticar sua conta do Data Lake Storage Gen1. Certifique-se de conceder ao MSI as permissões adequadas no Data Lake Storage Gen1 seguindo estas instruções.

    Especificar conta do Data Lake Storage Gen1

  9. Na página Escolha o arquivo ou pasta de saída, digite copyfroms3 como o nome da pasta de saída e selecione Avançar:

    A captura de tela mostra o caminho da pasta inserida.

  10. Na página Configurações, selecione Avançar:

    Página de definições

  11. Na página Resumo, revise as configurações e selecione Avançar:

    Página Resumo

  12. Na página Implantação, selecione Monitor para monitorar o pipeline (tarefa):

    Página de implementação

  13. Tenha em atenção que o separador Monitorização à esquerda é selecionado automaticamente. A coluna Ações inclui links para exibir detalhes da execução da atividade e executar novamente o pipeline:

    Monitorizar execuções de pipeline

  14. Para exibir as execuções de atividade associadas à execução do pipeline, selecione o link Exibir execuções de atividade na coluna Ações . Há apenas uma atividade (atividade copiar) no pipeline, pelo que só vai ver uma entrada. Para voltar para a visualização de execuções de pipeline, selecione o link Pipelines na parte superior. Selecione Atualizar para atualizar a lista.

    Monitorização de execuções de atividade

  15. Para monitorar os detalhes de execução de cada atividade de cópia, selecione o link Detalhes em Ações na exibição de monitoramento de atividades. Você pode monitorar detalhes como o volume de dados copiados da origem para o coletor, taxa de transferência de dados, etapas de execução com duração correspondente e configurações usadas:

    Monitorar detalhes da execução da atividade

  16. Verifique se os dados foram copiados para sua conta do Data Lake Storage Gen1:

    Verificar a saída do Data Lake Storage Gen1

Avance para o seguinte artigo para saber mais sobre o suporte ao Data Lake Storage Gen1: