Configurar o Oracle Cloud Storage em uma atividade de cópia

Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados do Oracle Cloud Storage.

Pré-requisitos

Para copiar dados do Oracle Cloud Storage, consulte Object Storage Amazon S3 Compatibility API para obter os pré-requisitos e a permissão necessária.

Formato suportado

O Oracle Cloud Storage suporta os seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.

Configuração suportada

Para a configuração de cada guia em uma atividade de cópia, vá para as seguintes seções:

Geral

Para Configuração da guia Geral , vá para Geral.

Origem

As propriedades a seguir são suportadas para o Oracle Cloud Storage na guia Origem de uma atividade de cópia.

Captura de tela que mostra a guia Origem e a lista de propriedades.

As seguintes propriedades são necessárias:

  • Tipo de armazenamento de dados: Selecione Externo.

  • Conexão: selecione uma conexão do Oracle Cloud Storage na lista de conexões. Se não houver conexão, crie uma nova conexão com o Oracle Cloud Storage selecionando Novo.

  • Tipo de caminho de arquivo: você pode escolher Caminho de arquivo, Prefixo, Caminho de arquivo curinga ou Lista de arquivos como seu tipo de caminho de arquivo. A configuração de cada uma dessas configurações é:

    • Caminho do arquivo: Os dados podem ser copiados do bucket especificado ou do caminho da pasta/arquivo especificado no Caminho do arquivo.

    • Prefixo: especifique o bucket e o prefixo.

      • Bucket: especifique o nome do bucket do Oracle Cloud Storage. É obrigatório.

      • Prefixo: prefixo para o nome da chave do Oracle Cloud Storage sob o bucket especificado para filtrar os arquivos de origem do Oracle Cloud Storage. As chaves do Oracle Cloud Storage cujos nomes começam com given_bucket/this_prefix são selecionadas. Ele utiliza o filtro do lado do serviço do Oracle Cloud Storage, que oferece melhor desempenho do que um filtro curinga.

        Captura de tela que mostra como configurar o tipo de caminho de arquivo de prefixo.

    • Caminho do arquivo curinga: especifique os caminhos Bucket e Wildcard.

      • Bucket: especifique o nome do bucket do Oracle Cloud Storage. É obrigatório.

      • Caminhos curinga: especifique o caminho da pasta ou do arquivo com caracteres curinga sob o bucket especificado para filtrar as pastas ou arquivos de origem.

        Os curingas permitidos são: * (corresponde a zero ou mais caracteres) e ? (corresponde a zero ou a um único caractere). Use ^ para escapar se o nome da pasta tiver um curinga ou esse caractere de escape dentro. Para obter mais exemplos, vá para Exemplos de filtro de pasta e arquivo.

        Captura de tela que mostra como configurar o caminho do arquivo curinga.

        • Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga sob o bucket especificado para filtrar as pastas de origem.
        • Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga sob o bucket especificado e o caminho da pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem.
    • Lista de arquivos: especifique o caminho da pasta e o caminho para a lista de arquivos para indicar a cópia de um conjunto de arquivos especificado. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho configurado. Para obter mais exemplos, vá para Exemplos de lista de arquivos.

      Captura de tela que mostra como configurar a Lista de arquivos.

      • Caminho da pasta: especifique o caminho para a pasta sob o bucket especificado. É obrigatório.
      • Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
  • Recursivamente: Indica se os dados são lidos recursivamente a partir das subpastas ou apenas a partir da pasta especificada. Quando essa caixa de seleção é marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino.

  • Formato de arquivo: Selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado.

Em Avançado, você pode especificar os seguintes campos:

  • Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação especificadas. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.

    • Hora de início (UTC): Os ficheiros são selecionados se a hora da última modificação for igual ou superior à hora configurada.
    • Hora de término (UTC): Os arquivos são selecionados se o tempo da última modificação for menor do que o tempo configurado.

    Quando a hora de início (UTC) tem um valor datetime, mas a hora de término (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é maior ou igual ao valor datetime são selecionados. Quando a hora de término (UTC) tem um valor datetime, mas a hora de início (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é menor que o valor datetime estão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo é aplicado aos dados.

  • Habilitar descoberta de partições: especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como outras colunas de origem. Ele não é selecionado por padrão e não é suportado quando você usa o formato de arquivo binário.

    • Caminho raiz das partições: Quando a descoberta de partições estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.

      Se não for especificado, por padrão:

      • Quando você usa um caminho de arquivo ou uma lista de arquivos na origem, o caminho raiz da partição é o caminho que você configurou.
      • Quando você usa um filtro de pasta curinga, o caminho raiz da partição é o subcaminho antes do primeiro curinga.
      • Quando você usa um prefixo, o caminho raiz da partição é o subcaminho antes do último "/".

      Por exemplo, supondo que você configure o caminho como root/folder/year=2020/month=08/day=27:

      • Se você especificar o caminho da raiz da partição como root/folder/year=2020, a atividade de cópia gerará mais duas colunas, mês e dia. Essas colunas têm os valores "08" e "27", respectivamente, além das colunas dentro dos arquivos.
      • Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.

      Captura de ecrã que mostra Ativar deteção de partições.

  • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.

  • Colunas adicionais: adicione mais colunas de dados para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.

Mapeamento

Para a configuração da guia Mapeamento , consulte Configurar seus mapeamentos na guia Mapeamento. Se você escolher Binário como formato de arquivo, o mapeamento não será suportado.

Definições

Para a configuração da guia Configurações , consulte Configurar suas outras configurações na guia Configurações.

Resumo da tabela

A tabela a seguir contém mais informações sobre a atividade de cópia no Oracle Cloud Storage.

Fonte da informação

Name Descrição Valor Obrigatório Propriedade de script JSON
Tipo de armazenamento de dados Seu tipo de armazenamento de dados. Externa Sim /
Ligação Sua conexão com o armazenamento de dados de origem. <sua conexão com o Oracle Cloud Storage> Sim ligação
Tipo de caminho de arquivo O tipo de caminho de arquivo usado para obter dados de origem. • Caminho do arquivo
• Prefixo
• Caminho do arquivo curinga
• Lista de ficheiros
Sim /
Para o caminho do arquivo
Balde O nome do bucket do Oracle Cloud Storage. <o nome do bucket> Sim bucketName
Diretório O caminho para a pasta sob o bucket especificado. <o nome da sua pasta> Não folderpath
Nome do ficheiro O nome do arquivo sob o bucket especificado e o caminho da pasta. <o seu nome de ficheiro> Não fileName
Para prefixo
Balde O nome do bucket do Oracle Cloud Storage. <o nome do bucket> Sim bucketName
Prefixo O prefixo para o nome da chave do Oracle Cloud Storage sob o bucket especificado para filtrar os arquivos de origem do Oracle Cloud Storage. <o seu prefixo> Não prefixo
Para o caminho do arquivo curinga
Balde O nome do bucket do Oracle Cloud Storage. <o nome do bucket> Sim bucketName
Caminho da pasta curinga O caminho da pasta com caracteres curinga sob o bucket especificado para filtrar as pastas de origem. <o caminho da pasta com caracteres curinga> Não curingFolderPath
Nome do arquivo curinga O nome do arquivo com caracteres curinga sob o bucket especificado e o caminho da pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem. <seu nome de arquivo com caracteres curinga> Sim curingaFileName
Para Lista de arquivos
Balde O nome do bucket do Oracle Cloud Storage. <o nome do bucket> Sim bucketName
Diretório O caminho para a pasta sob o bucket especificado. <o nome da sua pasta> Não folderpath
Caminho para a lista de arquivos Indica copiar um conjunto de arquivos especificado. Aponte para um ficheiro de texto que inclua uma lista de ficheiros que pretende copiar, um ficheiro por linha. < caminho da lista de arquivos > Não fileListPath
Formato do ficheiro O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado. / Sim /
Recursivamente Indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Quando essa caixa de seleção é marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. selecionado (padrão) ou desmarcado Não recursiva
Filtrar por última modificação Os ficheiros com a última hora modificada no intervalo [Hora de início, Hora de fim) são filtrados para processamento posterior. A hora é aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ. Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo é aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos. datetime Não modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar a descoberta de partições Indica se as partições devem ser analisadas a partir do caminho do arquivo e adicioná-las como outras colunas de origem. selecionado ou desmarcado (padrão) Não enablePartitionDiscovery:
true ou false (padrão)
Caminho raiz das partições Quando a descoberta de partições estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados. < o caminho raiz da partição > Não partitionRootPath
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections
Colunas adicionais Adicione outras colunas de dados para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. • Nome
• Valor
Não adicionaisColunas:
• nome
• valor