Configurar o Oracle Cloud Storage em uma atividade de cópia
Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados do Oracle Cloud Storage.
Pré-requisitos
Para copiar dados do Oracle Cloud Storage, consulte Object Storage Amazon S3 Compatibility API para obter os pré-requisitos e a permissão necessária.
Formato suportado
O Oracle Cloud Storage suporta os seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração suportada
Para a configuração de cada guia em uma atividade de cópia, vá para as seguintes seções:
- General (Geral)
- Source
- Mapeamento
- Definições
Geral
Para Configuração da guia Geral , vá para Geral.
Origem
As propriedades a seguir são suportadas para o Oracle Cloud Storage na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
Tipo de armazenamento de dados: Selecione Externo.
Conexão: selecione uma conexão do Oracle Cloud Storage na lista de conexões. Se não houver conexão, crie uma nova conexão com o Oracle Cloud Storage selecionando Novo.
Tipo de caminho de arquivo: você pode escolher Caminho de arquivo, Prefixo, Caminho de arquivo curinga ou Lista de arquivos como seu tipo de caminho de arquivo. A configuração de cada uma dessas configurações é:
Caminho do arquivo: Os dados podem ser copiados do bucket especificado ou do caminho da pasta/arquivo especificado no Caminho do arquivo.
Prefixo: especifique o bucket e o prefixo.
Bucket: especifique o nome do bucket do Oracle Cloud Storage. É obrigatório.
Prefixo: prefixo para o nome da chave do Oracle Cloud Storage sob o bucket especificado para filtrar os arquivos de origem do Oracle Cloud Storage. As chaves do Oracle Cloud Storage cujos nomes começam com
given_bucket/this_prefix
são selecionadas. Ele utiliza o filtro do lado do serviço do Oracle Cloud Storage, que oferece melhor desempenho do que um filtro curinga.
Caminho do arquivo curinga: especifique os caminhos Bucket e Wildcard.
Bucket: especifique o nome do bucket do Oracle Cloud Storage. É obrigatório.
Caminhos curinga: especifique o caminho da pasta ou do arquivo com caracteres curinga sob o bucket especificado para filtrar as pastas ou arquivos de origem.
Os curingas permitidos são:
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou a um único caractere). Use^
para escapar se o nome da pasta tiver um curinga ou esse caractere de escape dentro. Para obter mais exemplos, vá para Exemplos de filtro de pasta e arquivo.- Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga sob o bucket especificado para filtrar as pastas de origem.
- Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga sob o bucket especificado e o caminho da pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem.
Lista de arquivos: especifique o caminho da pasta e o caminho para a lista de arquivos para indicar a cópia de um conjunto de arquivos especificado. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho configurado. Para obter mais exemplos, vá para Exemplos de lista de arquivos.
- Caminho da pasta: especifique o caminho para a pasta sob o bucket especificado. É obrigatório.
- Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
Recursivamente: Indica se os dados são lidos recursivamente a partir das subpastas ou apenas a partir da pasta especificada. Quando essa caixa de seleção é marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino.
Formato de arquivo: Selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado.
Em Avançado, você pode especificar os seguintes campos:
Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação especificadas. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
- Hora de início (UTC): Os ficheiros são selecionados se a hora da última modificação for igual ou superior à hora configurada.
- Hora de término (UTC): Os arquivos são selecionados se o tempo da última modificação for menor do que o tempo configurado.
Quando a hora de início (UTC) tem um valor datetime, mas a hora de término (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é maior ou igual ao valor datetime são selecionados. Quando a hora de término (UTC) tem um valor datetime, mas a hora de início (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é menor que o valor datetime estão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo é aplicado aos dados.
Habilitar descoberta de partições: especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como outras colunas de origem. Ele não é selecionado por padrão e não é suportado quando você usa o formato de arquivo binário.
Caminho raiz das partições: Quando a descoberta de partições estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.
Se não for especificado, por padrão:
- Quando você usa um caminho de arquivo ou uma lista de arquivos na origem, o caminho raiz da partição é o caminho que você configurou.
- Quando você usa um filtro de pasta curinga, o caminho raiz da partição é o subcaminho antes do primeiro curinga.
- Quando você usa um prefixo, o caminho raiz da partição é o subcaminho antes do último "/".
Por exemplo, supondo que você configure o caminho como
root/folder/year=2020/month=08/day=27
:- Se você especificar o caminho da raiz da partição como
root/folder/year=2020
, a atividade de cópia gerará mais duas colunas, mês e dia. Essas colunas têm os valores "08" e "27", respectivamente, além das colunas dentro dos arquivos. - Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Colunas adicionais: adicione mais colunas de dados para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.
Mapeamento
Para a configuração da guia Mapeamento , consulte Configurar seus mapeamentos na guia Mapeamento. Se você escolher Binário como formato de arquivo, o mapeamento não será suportado.
Definições
Para a configuração da guia Configurações , consulte Configurar suas outras configurações na guia Configurações.
Resumo da tabela
A tabela a seguir contém mais informações sobre a atividade de cópia no Oracle Cloud Storage.
Fonte da informação
Name | Descrição | Valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de origem. | <sua conexão com o Oracle Cloud Storage> | Sim | ligação |
Tipo de caminho de arquivo | O tipo de caminho de arquivo usado para obter dados de origem. | • Caminho do arquivo • Prefixo • Caminho do arquivo curinga • Lista de ficheiros |
Sim | / |
Para o caminho do arquivo | ||||
Balde | O nome do bucket do Oracle Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Nome do ficheiro | O nome do arquivo sob o bucket especificado e o caminho da pasta. | <o seu nome de ficheiro> | Não | fileName |
Para prefixo | ||||
Balde | O nome do bucket do Oracle Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Prefixo | O prefixo para o nome da chave do Oracle Cloud Storage sob o bucket especificado para filtrar os arquivos de origem do Oracle Cloud Storage. | <o seu prefixo> | Não | prefixo |
Para o caminho do arquivo curinga | ||||
Balde | O nome do bucket do Oracle Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Caminho da pasta curinga | O caminho da pasta com caracteres curinga sob o bucket especificado para filtrar as pastas de origem. | <o caminho da pasta com caracteres curinga> | Não | curingFolderPath |
Nome do arquivo curinga | O nome do arquivo com caracteres curinga sob o bucket especificado e o caminho da pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem. | <seu nome de arquivo com caracteres curinga> | Sim | curingaFileName |
Para Lista de arquivos | ||||
Balde | O nome do bucket do Oracle Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Caminho para a lista de arquivos | Indica copiar um conjunto de arquivos especificado. Aponte para um ficheiro de texto que inclua uma lista de ficheiros que pretende copiar, um ficheiro por linha. | < caminho da lista de arquivos > | Não | fileListPath |
Formato do ficheiro | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado. | / | Sim | / |
Recursivamente | Indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Quando essa caixa de seleção é marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. | selecionado (padrão) ou desmarcado | Não | recursiva |
Filtrar por última modificação | Os ficheiros com a última hora modificada no intervalo [Hora de início, Hora de fim) são filtrados para processamento posterior. A hora é aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ . Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo é aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos. |
datetime | Não | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar a descoberta de partições | Indica se as partições devem ser analisadas a partir do caminho do arquivo e adicioná-las como outras colunas de origem. | selecionado ou desmarcado (padrão) | Não | enablePartitionDiscovery: true ou false (padrão) |
Caminho raiz das partições | Quando a descoberta de partições estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados. | < o caminho raiz da partição > | Não | partitionRootPath |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Colunas adicionais | Adicione outras colunas de dados para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. | • Nome • Valor |
Não | adicionaisColunas: • nome • valor |