Carregar dados no Azure Data Lake Storage Gen1, usando o Azure Data Factory
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Dica
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!
O Azure Data Lake Storage Gen1 (conhecido anteriormente como Azure Data Lake Store) é um repositório de hiperescala que abrange toda a empresa para cargas de trabalho analíticas de big data. O Data Lake Storage Gen1 permite que você capture dados de qualquer tamanho, tipo e velocidade de ingestão. Os dados são capturados em um único local para análise operacional e exploratória.
O Azure Data Factory é um serviço de integração de dados baseado em nuvem completamente gerenciado. Você pode usar o serviço para preencher o lago com dados do sistema existente e economizar tempo ao criar soluções de análise.
O Azure Data Factory oferece os seguintes benefícios para carregar dados no Data Lake Storage Gen1:
- Fácil de configurar: um assistente intuitivo de cinco etapas sem necessidade de script.
- Suporte avançado de armazenamento de dados: suporte interno para um conjunto avançado de armazenamentos de dados locais e baseados em nuvem. Para obter uma lista detalhada, consulte a tabela de Suporte para repositórios de dados.
- Seguro e em conformidade: os dados são transferidos via HTTPS ou ExpressRoute. A presença do serviço global garante que os dados nunca saiam do limite geográfico.
- Alto desempenho: velocidade de carregamento de dados de até 1 GB/s no Data Lake Storage Gen1. Para obter detalhes, consulte Desempenho da atividade de cópia.
Este artigo mostra como usar a ferramenta Copiar Dados do Data Factory para carregar dados do Amazon S3 no Data Lake Storage Gen1. Você pode seguir as etapas semelhantes para copiar dados de outros tipos de armazenamentos de dados.
Observação
Confira mais informações em Copiar dados para ou do Data Lake Storage Gen1 usando o Azure Data Factory.
Pré-requisitos
- Assinatura do Azure: Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
- Conta do Data Lake Storage Gen1: se você não tem uma conta do Data Lake Storage Gen1, confira as instruções em Criar uma conta do Data Lake Storage Gen1.
- Amazon S3: Este artigo mostra como copiar dados do Amazon S3. Você pode usar outros repositórios de dados seguindo as etapas semelhantes.
Criar uma data factory
Se você ainda não criou o data factory, siga as etapas no Início Rápido: crie um data factory usando o portal do Azure e o Estúdio do Azure Data Factory para criar um. Depois de criá-lo, navegue até o data factory no portal do Azure.
Selecione Abrir no bloco Abrir Estúdio do Azure Data Factory para iniciar o aplicativo Data Integration em uma guia separada.
Carregar dados no Data Lake Storage Gen1
Na página inicial, selecione o bloco Ingerir para a inicialização da ferramenta Copiar Dados:
Na página Propriedades, especifique Copy Data, especifique CopyFromAmazonS3ToADLS para o campo Nome da tarefa e clique em Avançar:
Na página Armazenamento de dados de origem, selecione + Criar conexão:
Selecione Amazon S3 e Continuar
Na página Especificar conexão Amazon S3, faça o seguinte:
Especifique o valor da ID da chave de acesso.
Especifique o valor da chave de acesso secreta.
Selecione Concluir.
Você verá uma nova conexão. Selecione Avançar.
Na página Escolher arquivo de entrada ou pasta página, navegue até a pasta e o arquivo que você deseja copiar. Selecione a pasta/arquivo, selecione Escolhere, em seguida, selecione Avançar:
Escolha o comportamento de cópia marcando as opções Copiar arquivos recursivamente e Cópia binária (copiar arquivos como-são). Selecione Avançar:
Na pagina Armazenamento de dados de destino, selecione + Criar conexão e, em seguida, selecione Azure Data Lake Storage Gen1 e depois Continuar:
Na página Novo Serviço Vinculado (Azure Data Lake Storage Gen1) , execute as seguintes etapas:
- Selecione sua conta do Data Lake Storage Gen1 para o nome da conta do Data Lake Store.
- Especifique o Locatário e selecione Concluir.
- Selecione Avançar.
Importante
Neste passo a passo, você deve usar uma identidade gerenciada para recursos do Azure para autenticar a conta do Data Lake Storage Gen1. Verifique se você concedeu as permissões corretas no Data Lake Store Gen1 ao MSI seguindo estas instruções.
Em Escolher o arquivo de saída ou pasta insira copyfroms3 como o nome da pasta de saída e selecione Avançar:
Na página Configurações, selecione Avançar:
Na página Resumo, examine as configurações e selecione Avançar:
Na Página Implantação, selecione Monitor para monitorar o pipeline (tarefa):
Observe que a guia Monitor à esquerda é selecionada automaticamente. A coluna Ações inclui links para exibir detalhes da execução da atividade e executar o pipeline novamente:
Para exibir as execuções de atividade associadas com a execução do pipeline, selecione o link Exibir as Execuções de Atividade na coluna Ações. Há apenas uma atividade (atividade de cópia) no pipeline. Assim, você vê apenas uma entrada. Para voltar à exibição de execuções de pipeline, selecione o link Pipelines na parte superior. Selecione Atualizar para atualizar a lista.
Para monitorar os detalhes de execução de cada atividade de cópia, selecione o link Detalhes em Ações no modo de exibição de monitoramento de atividades. Você pode monitorar detalhes como o volume de dados copiados da fonte para o coletor, taxa de transferência de dados, etapas de execução com duração correspondente e configurações usadas:
Verifique se os dados são copiados para a conta do Data Lake Storage Gen1:
Conteúdo relacionado
Confira o seguinte artigo para saber mais sobre o suporte do Data Lake Storage Gen1: