Configurar o Oracle Cloud Storage na atividade de cópia

Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados do Oracle Cloud Storage.

Pré-requisitos

Para copiar dados do Oracle Cloud Storage, consulte API de compatibilidade do Amazon S3 para armazenamento de objetos para obter os pré-requisitos e a permissão necessária.

Formato compatível

O Oracle Cloud Storage é compatível com os seguintes formatos de arquivo. Confira cada artigo para obter configurações baseadas em formato.

Configuração com suporte

Para a configuração de cada guia em uma atividade de cópia, consulte as seguintes seções:

Geral

Para Configuração geral da guia, acesse Geral.

Origem

As propriedades a seguir são compatíveis com o Oracle Cloud Storage na guia Origem de uma atividade de cópia.

Captura de tela mostrando a guia Origem e a lista de propriedades.

As seguintes propriedades são necessárias:

  • Tipo de armazenamento de dados: selecione Externo.

  • Conexão: selecione uma conexão do Oracle Cloud Storage na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Oracle Cloud Storage selecionando Novo.

  • Tipo de caminho de arquivo: você pode escolher Caminho do arquivo, Prefixo, Caminho de arquivo curinga, Lista de arquivos como o tipo de caminho do arquivo. A configuração de cada uma dessas configurações é:

    • Caminho do arquivo: os dados podem ser copiados do bucket fornecido ou caminho de pasta/arquivo especificado em Caminho do arquivo.

    • Prefixo: especifique o Bucket e o Prefixo.

      • Bucket: especifique o nome do bucket do Oracle Cloud Storage. O nome é obrigatório.

      • Prefixo: prefixo para o nome da chave do Oracle Cloud Storage no bucket especificado para filtrar os arquivos de origem do Oracle Cloud Storage. As chaves do Oracle Cloud Storage cujos nomes começam com given_bucket/this_prefix são selecionadas. Utiliza o filtro do lado do serviço do Oracle Cloud Storage, que fornece melhor desempenho do que o filtro curinga.

        Captura de tela que mostra como configurar o tipo de caminho de arquivo de prefixo.

    • Caminho do arquivo curinga: se você escolher esse tipo, especifique os caminhos do Bucket e do Curinga.

      • Bucket: especifique o nome do bucket do Oracle Cloud Storage. O nome é obrigatório.

      • Caminhos do curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga no bucket especificado para filtrar suas pastas ou arquivos de origem.

        Os curingas permitidos são: * (corresponde a zero ou mais caracteres) e ? (corresponde a zero ou caractere único). Use ^ como escape se o nome real da pasta tiver curingas ou esse caractere de escape. Para mais exemplos, vá para Exemplos de filtro de pastas e arquivos.

        Captura de tela que mostra como configurar o caminho do arquivo curinga.

        • Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga no bucket especificado para filtrar as pastas de origem.
        • Nome de arquivo curinga: especifique o nome do arquivo com caracteres curinga no caminho de bucket e pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem.
    • Lista de arquivos: especifique o Caminho da pasta e o Caminho para a lista de arquivos para indicar a cópia de um conjunto de arquivos especificado. Aponte para um arquivo de texto que inclui a lista de arquivos que você deseja copiar com um arquivo por linha, que é o caminho relativo para o caminho configurado no conjunto de dados. Para mais exemplos, vá para Exemplos de lista de arquivos.

      Captura de tela que mostra como configurar a Lista de arquivos.

      • Caminho da pasta: especifique o caminho para a pasta no bucket especificado. O nome é obrigatório.
      • Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
  • Recursivamente: indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Quando essa caixa de seleção está marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino.

  • Formato do arquivo: selecione o formato do arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato com suporte.

Em Avançado, você pode especificar os seguintes campos:

  • Filtrar pela última modificação: Os arquivos são filtrados com base nas datas da última modificação que você especificou. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.

    • Hora de início (UTC): Os arquivos serão selecionados se a hora da última modificação for maior ou igual à hora configurada.
    • Hora de término (UCT): Os arquivos serão selecionados se a hora da última modificação for menor que a hora configurada.

    Quando a Hora de início (UTC) tem valor de data e hora, mas a Hora de término (UTC) é nula (NULL), isso significa que os arquivos cujos atributos de última modificação são maiores ou iguais ao valor de data e hora serão selecionados. Quando a Hora de término (UTC) tem valor de data e hora, mas a Hora de início (UTC) é nula (NULL), isso significa que os arquivos cujos atributos de última modificação são menores que o valor de data e hora são selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo é aplicado aos dados.

  • Habilitar descoberta de partições: especifique se as partições do caminho do arquivo devem ser analisadas e adicionadas como colunas de origem adicionais. Ela não é selecionada por padrão e não tem suporte quando você usa o formato de arquivo binário.

    • Caminho da raiz das partições: quando a descoberta da partição estiver habilitada, especifique o caminho da raiz absoluta para ler as pastas particionadas como colunas de dados.

      Se ele não for especificado, por padrão:

      • Quando você usar o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição será o caminho que você configurou.
      • Quando você usar o filtro de pasta curinga, o caminho raiz da partição será o subcaminho antes do primeiro curinga.
      • Quando você usar um prefixo, o caminho raiz da partição será o subcaminho antes do último "/".

      Por exemplo, supondo que você configure o caminho como root/folder/year=2020/month=08/day=27:

      • Se você especificar o caminho raiz da partição como root/folder/year=2020, a atividade Copy gerará mais duas colunas, mês e dia. Essas colunas têm os valores "08" e "27" respectivamente, além das colunas dentro dos arquivos.
      • Se o caminho da raiz da partição não for especificado, nenhuma coluna extra será gerada.

      Captura de tela que mostra Habilitar descoberta de partições.

  • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.

  • Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.

Mapeamento

Para Configuração da guia Mapeamento, consulte Configurar seus mapeamentos na guia Mapeamento. Se você escolher Binário como o formato de arquivo, o mapeamento não será possível.

Configurações

Para a configuração da guia Configurações, consulte Definir suas outras configurações na guia Configurações.

Resumo da tabela

As tabelas a seguir contêm mais informações sobre a atividade Copy no Oracle Cloud Storage.

Informações de origem

Nome Descrição Valor Obrigatório Propriedade do script JSON
Tipo de armazenamento de dados Seu tipo de armazenamento de dados. Externo Yes /
Conexão Sua conexão com o armazenamento de dados de origem. <sua conexão com o Oracle Cloud Storage> Yes connection
Tipo de caminho de arquivo O tipo de caminho de arquivo usado para obter dados de origem. Caminho do arquivo
Prefixo
Caminho do arquivo curinga
Lista de arquivos
Yes /
Para caminho do arquivo
Bucket O nome do bucket do Oracle Cloud Storage. <o nome do bucket> Sim bucketName
Diretório O caminho para a pasta sob o bucket especificado. <o nome da pasta> Não folderpath
Nome do arquivo O nome do arquivo no bucket e no caminho da pasta especificados. <o nome do arquivo> Não fileName
Para prefixo
Bucket O nome do bucket do Oracle Cloud Storage. <o nome do bucket> Sim bucketName
Prefix O prefixo para o nome da chave do Oracle Cloud Storage no bucket especificado para filtrar os arquivos de origem do Oracle Cloud Storage. <o prefixo> Não prefixo
Para caminho do arquivo curinga
Bucket O nome do bucket do Oracle Cloud Storage. <o nome do bucket> Sim bucketName
Caminho da pasta curinga O caminho da pasta com caracteres curinga no bucket especificado para filtrar as pastas de origem. <o caminho da pasta com caracteres curinga> Não wildcardFolderPath
Nome do arquivo curinga O nome do arquivo com caracteres curinga sob o bucket e caminho da pasta especificados (ou o caminho da pasta curinga) para filtrar os arquivos de origem. <Seu nome de arquivo com caracteres curinga> Yes wildcardFileName
Para lista de arquivos
Bucket O nome do bucket do Oracle Cloud Storage. <o nome do bucket> Sim bucketName
Diretório O caminho para a pasta sob o bucket especificado. <o nome da pasta> Não folderpath
Caminho para a lista de arquivos Indica a cópia de um conjunto de arquivos especificado. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha. < caminho da lista de arquivos > Não fileListPath
Formato de arquivo O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato com suporte. / Yes /
Recursivamente Indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Quando essa caixa de seleção está marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. selecionado (padrão) ou não selecionado Não recursiva
Filtrar pela última modificação Os arquivos com a hora da última modificação no intervalo [Hora de início, Hora de término] são filtrados para processamento posterior. A hora é aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ. Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo é aplicado. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos. datetime Não modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar descoberta de partições Indica se você deve analisar as partições do caminho do arquivo e adicioná-las como outras colunas de origem. selecionado ou não selecionado (padrão) Não enablePartitionDiscovery:
true ou false (padrão)
Caminho raiz das partições Quando a descoberta de partições estiver habilitada, especifique o caminho raiz absoluto para ler as pastas particionadas como colunas de dados. < seu caminho raiz da partição > Não partitionRootPath
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections
Colunas adicionais Adicione outras colunas de dados ao caminho relativo ou valor estático dos arquivos de origem do repositório. A expressão tem suporte para o último. • Nome
• Valor
Não additionalColumns:
• nome
• valor