Usar o Azure Data Factory para migrar dados do seu data lake ou data warehouse para o Azure
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Se você quiser migrar seu data lake ou data warehouse corporativo (EDW) para o Microsoft Azure, considere usar o Azure Data Factory. O Azure Data Factory é adequado para os seguintes cenários:
- Migração de carga de trabalho de Big Data do Amazon Simple Storage Service (Amazon S3) ou de um Hadoop Distributed File System (HDFS) local para o Azure
- Migração EDW do Oracle Exadata, Netezza, Teradata ou Amazon Redshift para o Azure
O Azure Data Factory pode mover petabytes (PB) de dados para migração de data lake e dezenas de terabytes (TB) de dados para migração de data warehouse.
Por que o Azure Data Factory pode ser usado para migração de dados
- O Azure Data Factory pode facilmente aumentar a quantidade de poder de processamento para mover dados sem servidor com alto desempenho, resiliência e escalabilidade. E você paga apenas pelo que usa. Observe também o seguinte:
- O Azure Data Factory não tem limitações no volume de dados ou no número de ficheiros.
- O Azure Data Factory pode usar totalmente sua rede e largura de banda de armazenamento para obter o maior volume de taxa de transferência de movimentação de dados em seu ambiente.
- O Azure Data Factory usa um método de pagamento conforme o uso, para que você pague apenas pelo tempo que realmente usar para executar a migração de dados para o Azure.
- O Azure Data Factory pode executar uma carga histórica única e cargas incrementais agendadas.
- O Azure Data Factory usa o tempo de execução de integração (IR) do Azure para mover dados entre o data lake acessível publicamente e os pontos de extremidade de depósito. Ele também pode usar IR auto-hospedado para mover dados para data lake e pontos de extremidade de depósito dentro da Rede Virtual do Azure (VNet) ou atrás de um firewall.
- O Azure Data Factory tem segurança de nível empresarial: pode utilizar o Windows Installer (MSI) ou a Identidade de Serviço para integração segura de serviço a serviço ou utilizar o Azure Key Vault para gestão de credenciais.
- O Azure Data Factory fornece uma experiência de criação sem código e um painel de monitoramento avançado e integrado.
Migração de dados online vs. offline
O Azure Data Factory é uma ferramenta de migração de dados online padrão para transferir dados através de uma rede (Internet, ER ou VPN). Enquanto com a migração de dados offline, os usuários enviam fisicamente dispositivos de transferência de dados de sua organização para um Data Center do Azure.
Há três considerações principais quando você escolhe entre uma abordagem de migração online e offline:
- Tamanho dos dados a serem migrados
- Largura de banda de rede
- Janela de migração
Por exemplo, suponha que você planeja usar o Azure Data Factory para concluir a migração de dados dentro de duas semanas (sua janela de migração). Observe a linha de corte rosa/azul na tabela a seguir. A célula rosa mais baixa para qualquer coluna mostra o emparelhamento tamanho de dados/largura de banda de rede cuja janela de migração está mais próxima, mas menos de duas semanas. (Qualquer emparelhamento tamanho/largura de banda em uma célula azul tem uma janela de migração online de mais de duas semanas.)
Esta tabela ajuda-o a determinar se pode cumprir a janela de migração pretendida através da migração online (Azure Data Factory) com base no tamanho dos seus dados e na largura de banda de rede disponível. Se a janela de migração online for superior a duas semanas, convém usar a migração offline.
Nota
Usando a migração on-line, você pode obter o carregamento de dados históricos e feeds incrementais de ponta a ponta por meio de uma única ferramenta. Por meio dessa abordagem, seus dados podem ser mantidos sincronizados entre o repositório existente e o novo armazenamento durante toda a janela de migração. Isso significa que você pode reconstruir sua lógica de ETL no novo repositório com dados atualizados.