Obter dados do armazenamento do Azure

A ingestão de dados é o processo utilizado para carregar dados de uma ou mais origens para uma tabela no Azure Data Explorer. Depois de ingeridos, os dados ficam disponíveis para consulta. Neste artigo, vai aprender a obter dados do armazenamento do Azure (contentor do ADLS Gen2, contentor de blobs ou blobs individuais) para uma tabela nova ou existente.

A ingestão pode ser feita como uma operação única ou como um método contínuo. A ingestão contínua só pode ser configurada através do portal.

Para obter informações gerais sobre a ingestão de dados, veja Descrição geral da ingestão de dados do Azure Data Explorer.

Pré-requisitos

Obter dados

  1. No menu esquerdo, selecione Consulta.

  2. Clique com o botão direito do rato na base de dados onde pretende ingerir os dados. Selecione Obter dados.

    Captura de ecrã do separador consulta, com o botão direito do rato numa base de dados e a caixa de diálogo Obter opções aberta.

Origem

Na janela Obter dados , o separador Origem está selecionado.

Selecione a origem de dados na lista disponível. Neste exemplo, está a ingerir dados do armazenamento do Azure.

Captura de ecrã a mostrar a janela obter dados com o separador de origem selecionado.

Configurar

  1. Selecione uma base de dados de destino e uma tabela. Se quiser ingerir dados numa nova tabela, selecione + Nova tabela e introduza um nome de tabela.

    Nota

    Os nomes das tabelas podem ter até 1024 carateres, incluindo espaços, alfanuméricos, hífenes e carateres de sublinhado. Os carateres especiais não são suportados.

  2. Para adicionar a sua origem, selecione Selecionar contentor ou Adicionar URI.

    1. Se tiver selecionado Selecionar contentor, preencha os seguintes campos:

      Captura de ecrã a mostrar o separador configurar com a nova tabela introduzida e um ficheiro de dados de exemplo selecionado.

      Definição Descrição do campo
      Subscrição O ID da subscrição onde está localizada a conta de armazenamento.
      Conta de armazenamento O nome que identifica a sua conta de armazenamento.
      Contentor O contentor de armazenamento que pretende ingerir.
      Filtros de ficheiro (opcional)
      Folder path Filtra dados para ingerir ficheiros com um caminho de pasta específico.
      Extensão de nome de ficheiro Filtra dados para ingerir ficheiros apenas com uma extensão de ficheiro específica.
    2. Se tiver selecionado Adicionar URI, cole o seu cadeia de ligação de armazenamento para um contentor de blobs ou ficheiros individuais no campo URI e, em seguida, selecione +.

      Nota

      • Pode adicionar até 10 blobs individuais. Cada blob pode ter um máximo de 1 GB descomprimido.
      • Pode ingerir até 5000 blobs de um único contentor.

      Captura de ecrã a mostrar o separador configurar com o cadeia de ligação colado no campo URI.

  3. Selecione Seguinte

Inspecionar

O separador Inspecionar é aberto com uma pré-visualização dos dados.

Para concluir o processo de ingestão, selecione Concluir.

Captura de ecrã do separador inspecionar.

Opcionalmente:

Editar colunas

Nota

  • Para formatos tabulares (CSV, TSV, PSV), não pode mapear uma coluna duas vezes. Para mapear para uma coluna existente, elimine primeiro a nova coluna.
  • Não pode alterar um tipo de coluna existente. Se tentar mapear para uma coluna com um formato diferente, poderá acabar com colunas vazias.

As alterações que pode fazer numa tabela dependem dos seguintes parâmetros:

  • O tipo de tabela é novo ou existente
  • O tipo de mapeamento é novo ou existente
Tipo de tabela Tipo de mapeamento Ajustes disponíveis
Nova tabela Novo mapeamento Mudar o nome da coluna, alterar o tipo de dados, alterar a origem de dados, mapear a transformação, adicionar coluna, eliminar coluna
Tabela existente Novo mapeamento Adicionar coluna (na qual pode alterar o tipo de dados, mudar o nome e atualizar)
Tabela existente Mapeamento existente nenhum

Captura de ecrã das colunas abertas para edição.

Transformações de mapeamento

Alguns mapeamentos de formato de dados (Parquet, JSON e Avro) suportam transformações simples de tempo de ingestão. Para aplicar transformações de mapeamento, crie ou atualize uma coluna na janela Editar colunas .

As transformações de mapeamento podem ser executadas numa coluna do tipo cadeia ou datetime, com a origem a ter um tipo de dados int ou longo. As transformações de mapeamento suportadas são:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

Opções avançadas com base no tipo de dados

Tabular (CSV, TSV, PSV):

  • Se estiver a ingerir formatos tabulares numa tabela existente, pode selecionar AdvancedKeep current table schema (Manter o esquema de tabela atual).> Os dados tabulares não incluem necessariamente os nomes de coluna que são utilizados para mapear dados de origem para as colunas existentes. Quando esta opção está selecionada, o mapeamento é feito por ordem e o esquema da tabela permanece o mesmo. Se esta opção estiver desmarcada, serão criadas novas colunas para dados recebidos, independentemente da estrutura de dados.

  • Para utilizar a primeira linha como nomes de coluna, selecione Avançadas>Primeira linha é cabeçalho de coluna.

    Captura de ecrã a mostrar as opções de CSV avançadas.

JSON:

  • Para determinar a divisão de colunas de dados JSON, selecioneNíveis AninhadosAvançados>, de 1 a 100.

  • Se selecionar Avançadas>Ignorar erros de formato de dados, os dados são ingeridos no formato JSON. Se deixar esta caixa de verificação desmarcada, os dados são ingeridos no formato multijson.

    Captura de ecrã a mostrar as opções de JSON avançadas.

Resumo

Na janela Preparação de dados , os três passos são marcados com marcas de verificação verdes quando a ingestão de dados é concluída com êxito. Pode ver os comandos que foram utilizados para cada passo ou selecionar um cartão para consultar, visualizar ou remover os dados ingeridos.

Captura de ecrã da página de resumo com a ingestão concluída com êxito.