Selecionar uma ferramenta de ingestão de dados

Artigo
06/01/2023

Depois de selecionar uma plataforma de destino para seus dados históricos, a próxima etapa é selecionar uma ferramenta para transferir seus dados.

Este artigo descreve um conjunto de ferramentas diferentes usadas para transferir seus dados históricos para a plataforma de destino selecionada. Esta tabela lista as ferramentas disponíveis para cada plataforma de destino e ferramentas gerais para ajudá-lo com o processo de ingestão.

Logs básicos/arquivos do Azure Monitor	Azure Data Explorer	Armazenamento de Blobs do Azure	Ferramentas gerais
• Ferramenta de ingestão de log personalizada do Azure Monitor • API direta	• LightIngest • Logstash	• Azure Data Factory ou Azure Synapse • AzCopy	• Azure Data Box • Acelerador de migração de dados SIEM

Logs básicos/arquivos do Azure Monitor

Antes de ingerir dados em logs básicos ou arquivos do Azure Monitor, para obter preços de ingestão mais baixos, verifique se a tabela na qual você está escrevendo está configurada como Logs Básicos. Examine a ferramenta de ingestão de log personalizada do Azure Monitor e o método de API direta para logs básicos do Azure Monitor.

Ferramenta de ingestão de log personalizada do Azure Monitor

A ferramenta de ingestão de log personalizada é um script do PowerShell que envia dados personalizados para um workspace dos Logs do Azure Monitor. Você pode apontar o script para a pasta onde residem todos os arquivos de log e o script envia os arquivos para essa pasta. O script aceita um formato CSV ou JSON para arquivos de log.

API direta

Com essa opção, você ingerirá seus logs personalizados nos Logs do Azure Monitor. Ingerir os logs com um script do PowerShell que usa uma API REST. Como alternativa, você pode usar qualquer outra linguagem de programação para executar a ingestão e pode usar outros serviços do Azure para abstrair a camada de computação, como o Azure Functions ou os Aplicativos Lógicos do Azure.

Azure Data Explorer

Você pode ingerir dados no ADX (Azure Data Explorer) de várias maneiras.

Os métodos de ingestão que o ADX aceita são baseados em componentes diferentes:

SDKs para idiomas diferentes, como .NET, Go, Python, Java, NodeJS e APIs.
Pipelines gerenciados, como a Grade de Eventos ou os Hubs de Eventos do Blob de Armazenamento e o Azure Data Factory.
Conectores ou plug-ins, como Logstash, Kafka, Power Automate e Apache Spark.

Examine o LightIngest e o Logstash, dois métodos que são mais adequados para o caso de uso de migração de dados.

LightIngest

O ADX desenvolveu o utilitário LightIngest especificamente para o caso de uso de migração de dados históricos. Você pode usar o LightIngest para copiar dados de um sistema de arquivos local ou Armazenamento de Blobs do Azure para o ADX.

Aqui estão alguns dos principais benefícios e funcionalidades do LightIngest:

Como não há restrição de tempo na duração da ingestão, o LightIngest é mais útil quando você deseja ingerir grandes volumes de dados.
O LightIngest é útil quando você deseja consultar registros de acordo com a hora em que foram criados, não pela hora em que foram ingeridos.
Você não precisa lidar com dimensionamento complexo para LightIngest, pois o utilitário não executa a cópia real. O LightIngest informa ao ADX sobre os blobs que precisam ser copiados e o ADX copia os dados.

Se você escolher o LightIngest, examine essas dicas e práticas recomendadas.

Para acelerar a migração e reduzir os custos, aumente o tamanho do cluster do ADX para criar mais nós disponíveis para ingestão. Diminua o tamanho depois que a migração terminar.
Para consultas mais eficientes depois de ingerir os dados no ADX, verifique se os dados copiados usam o carimbo de data/hora para os eventos originais. Os dados não devem usar o carimbo de data/hora de quando os dados são copiados para o ADX. Você fornece o carimbo de data/hora para LightIngest como o caminho do nome do arquivo como parte da propriedade CreationTime.
Se o caminho ou os nomes de arquivo não incluírem um carimbo de data/hora, você ainda poderá instruir o ADX a organizar os dados usando uma política de particionamento.

Logstash

O Logstash é um software livre de pipeline de processamento de dados no lado do servidor que ingere dados de muitas origens simultaneamente, transforma os dados e, depois, envia os dados ao seu "stash" favorito. Saiba como ingerir dados do Logstash para o Azure Data Explorer. O Logstash é executado em computadores Windows, Linux e MacOS.

Para otimizar o desempenho, configure o tamanho da camada Logstash de acordo com os eventos por segundo. Recomendamos que você use o LightIngest sempre que possível, pois o LightIngest depende da computação de cluster do ADX para executar a cópia.

Armazenamento do Blobs do Azure

Você pode ingerir dados para Armazenamento de Blobs do Azure de várias maneiras.

Examine os métodos do Azure Data Factory (ADF) e do Azure Synapse, que são mais adequados para o caso de uso da migração de dados.

Azure Data Factory ou Azure Synapse

Para usar a atividade Copy em pipelines do Azure Data Factory (ADF) ou do Synapse:

Crie e configure um runtime de integração auto-hospedada. Esse componente é responsável por copiar os dados do host local.
Crie serviços vinculados para o armazenamento de dados de origem (filesystem e de coletor armazenamento de blobs.
Para copiar os dados, use a ferramenta Copiar dados. Como alternativa, você pode usar métodos como PowerShell, portal do Azure, um SDK do .NET e assim por diante.

AzCopy

O AzCopy é um utilitário de linha de comando simples que copia arquivos de ou para contas de armazenamento. O AzCopy está disponível para Windows, Linux e macOS. Saiba como copiar dados locais para o armazenamento de Blobs do Azure com o AzCopy.

Você também pode usar essas opções para copiar os dados:

Saiba como otimizar o desempenho do AzCopy.
Saiba como configurar o AzCopy.
Saiba como usar o comando de cópia.

Azure Data Box

Em um cenário em que o SIEM de origem não tem boa conectividade com o Azure, a ingestão dos dados usando as ferramentas revisadas nesta seção pode ser lenta ou até impossível. Para resolver esse cenário, você pode usar o Azure Data Box para copiar os dados localmente do data center do cliente para um dispositivo e, em seguida, enviar esse dispositivo para um data center do Azure. Embora o Azure Data Box não seja um substituto para o AzCopy ou o LightIngest, você pode usar essa ferramenta para acelerar a transferência de dados entre o data center do cliente e o Azure.

O Azure Data Box oferece três SKUs diferentes, dependendo da quantidade de dados a serem migrados:

Depois de concluir a migração, os dados estão disponíveis em uma conta de armazenamento em uma de suas assinaturas do Azure. Em seguida, você pode usar o AzCopy, o LightIngest ou o ADF para ingerir dados da conta de armazenamento.

Acelerador de migração de dados SIEM

Além de selecionar uma ferramenta de ingestão, sua equipe precisa investir tempo na configuração do ambiente de base. Para facilitar esse processo, você pode usar o acelerador de migração de dados SIEM, que automatiza as seguintes tarefas:

Implanta uma máquina virtual Windows, que será usada para mover os logs da origem para a plataforma de destino
Baixa e extrai as seguintes ferramentas na área de trabalho da máquina virtual:
- LightIngest: usado para migrar dados para o ADX
- Ferramenta de ingestão de log personalizada do Azure Monitor: usada para migrar dados para o Log Analytics
- AzCopy: usado para migrar dados para o Armazenamento de Blobs do Azure
Implanta a plataforma de destino que hospedará seus logs históricos:
- Conta de Armazenamento do Azure (Armazenamento de Blobs do Azure)
- Cluster e um banco de dados do Azure Data Explorer
- Workspace dos Logs do Azure Monitor (Logs Básicos; habilitados com o Microsoft Sentinel)

Para usar o acelerador de migração de dados SIEM:

Na página do acelerador de migração de dados SIEM, clique em Implantar no Azure na parte inferior da página e autentique.
Selecione Noções Básicas, selecione seu grupo de recursos e local e selecione Avançar.
Selecione VM de Migração e faça o seguinte:
- Digite o nome da máquina virtual, o nome de usuário e a senha.
- Selecione uma vNet existente ou crie uma nova vNet para a conexão da máquina virtual.
- Selecione o tamanho da máquina virtual.
Selecione Plataforma de destino e siga um destes procedimentos:
- Ignore esta etapa.
- Forneça o nome, a SKU e o número de nós do cluster do ADX e do banco de dados.
- Para contas de Armazenamento de Blobs do Azure, selecione uma conta existente. Se você não tiver uma conta, forneça um novo nome de conta, tipo e redundância.
- Para logs do Azure Monitor, digite o nome do novo workspace.

Próximas etapas

Neste artigo, você aprendeu como selecionar uma ferramenta para ingerir seus dados na plataforma de destino.

Ingerir seus dados

Compartilhar via