Configurar o Oracle Cloud Storage na atividade de cópia
Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados do Oracle Cloud Storage.
Pré-requisitos
Para copiar dados do Oracle Cloud Storage, consulte API de compatibilidade do Amazon S3 para armazenamento de objetos para obter os pré-requisitos e a permissão necessária.
Formato compatível
O Oracle Cloud Storage é compatível com os seguintes formatos de arquivo. Confira cada artigo para obter configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato do Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração com suporte
Para a configuração de cada guia em uma atividade de cópia, consulte as seguintes seções:
Geral
Para Configuração geral da guia, acesse Geral.
Origem
As propriedades a seguir são compatíveis com o Oracle Cloud Storage na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
Tipo de armazenamento de dados: selecione Externo.
Conexão: selecione uma conexão do Oracle Cloud Storage na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Oracle Cloud Storage selecionando Novo.
Tipo de caminho de arquivo: você pode escolher Caminho do arquivo, Prefixo, Caminho de arquivo curinga, Lista de arquivos como o tipo de caminho do arquivo. A configuração de cada uma dessas configurações é:
Caminho do arquivo: os dados podem ser copiados do bucket fornecido ou caminho de pasta/arquivo especificado em Caminho do arquivo.
Prefixo: especifique o Bucket e o Prefixo.
Bucket: especifique o nome do bucket do Oracle Cloud Storage. O nome é obrigatório.
Prefixo: prefixo para o nome da chave do Oracle Cloud Storage no bucket especificado para filtrar os arquivos de origem do Oracle Cloud Storage. As chaves do Oracle Cloud Storage cujos nomes começam com
given_bucket/this_prefix
são selecionadas. Utiliza o filtro do lado do serviço do Oracle Cloud Storage, que fornece melhor desempenho do que o filtro curinga.
Caminho do arquivo curinga: se você escolher esse tipo, especifique os caminhos do Bucket e do Curinga.
Bucket: especifique o nome do bucket do Oracle Cloud Storage. O nome é obrigatório.
Caminhos do curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga no bucket especificado para filtrar suas pastas ou arquivos de origem.
Os curingas permitidos são:
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
como escape se o nome real da pasta tiver curingas ou esse caractere de escape. Para mais exemplos, vá para Exemplos de filtro de pastas e arquivos.- Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga no bucket especificado para filtrar as pastas de origem.
- Nome de arquivo curinga: especifique o nome do arquivo com caracteres curinga no caminho de bucket e pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem.
Lista de arquivos: especifique o Caminho da pasta e o Caminho para a lista de arquivos para indicar a cópia de um conjunto de arquivos especificado. Aponte para um arquivo de texto que inclui a lista de arquivos que você deseja copiar com um arquivo por linha, que é o caminho relativo para o caminho configurado no conjunto de dados. Para mais exemplos, vá para Exemplos de lista de arquivos.
- Caminho da pasta: especifique o caminho para a pasta no bucket especificado. O nome é obrigatório.
- Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
Recursivamente: indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Quando essa caixa de seleção está marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino.
Formato do arquivo: selecione o formato do arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato com suporte.
Em Avançado, você pode especificar os seguintes campos:
Filtrar pela última modificação: Os arquivos são filtrados com base nas datas da última modificação que você especificou. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.
- Hora de início (UTC): Os arquivos serão selecionados se a hora da última modificação for maior ou igual à hora configurada.
- Hora de término (UCT): Os arquivos serão selecionados se a hora da última modificação for menor que a hora configurada.
Quando a Hora de início (UTC) tem valor de data e hora, mas a Hora de término (UTC) é nula (NULL), isso significa que os arquivos cujos atributos de última modificação são maiores ou iguais ao valor de data e hora serão selecionados. Quando a Hora de término (UTC) tem valor de data e hora, mas a Hora de início (UTC) é nula (NULL), isso significa que os arquivos cujos atributos de última modificação são menores que o valor de data e hora são selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo é aplicado aos dados.
Habilitar descoberta de partições: especifique se as partições do caminho do arquivo devem ser analisadas e adicionadas como colunas de origem adicionais. Ela não é selecionada por padrão e não tem suporte quando você usa o formato de arquivo binário.
Caminho da raiz das partições: quando a descoberta da partição estiver habilitada, especifique o caminho da raiz absoluta para ler as pastas particionadas como colunas de dados.
Se ele não for especificado, por padrão:
- Quando você usar o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição será o caminho que você configurou.
- Quando você usar o filtro de pasta curinga, o caminho raiz da partição será o subcaminho antes do primeiro curinga.
- Quando você usar um prefixo, o caminho raiz da partição será o subcaminho antes do último "/".
Por exemplo, supondo que você configure o caminho como
root/folder/year=2020/month=08/day=27
:- Se você especificar o caminho raiz da partição como
root/folder/year=2020
, a atividade Copy gerará mais duas colunas, mês e dia. Essas colunas têm os valores "08" e "27" respectivamente, além das colunas dentro dos arquivos. - Se o caminho da raiz da partição não for especificado, nenhuma coluna extra será gerada.
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.
Mapeamento
Para Configuração da guia Mapeamento, consulte Configurar seus mapeamentos na guia Mapeamento. Se você escolher Binário como o formato de arquivo, o mapeamento não será possível.
Configurações
Para a configuração da guia Configurações, consulte Definir suas outras configurações na guia Configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre a atividade Copy no Oracle Cloud Storage.
Informações de origem
Nome | Descrição | Valor | Obrigatório | Propriedade do script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externo | Yes | / |
Conexão | Sua conexão com o armazenamento de dados de origem. | <sua conexão com o Oracle Cloud Storage> | Yes | connection |
Tipo de caminho de arquivo | O tipo de caminho de arquivo usado para obter dados de origem. | • Caminho do arquivo • Prefixo • Caminho do arquivo curinga • Lista de arquivos |
Yes | / |
Para caminho do arquivo | ||||
Bucket | O nome do bucket do Oracle Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da pasta> | Não | folderpath |
Nome do arquivo | O nome do arquivo no bucket e no caminho da pasta especificados. | <o nome do arquivo> | Não | fileName |
Para prefixo | ||||
Bucket | O nome do bucket do Oracle Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Prefix | O prefixo para o nome da chave do Oracle Cloud Storage no bucket especificado para filtrar os arquivos de origem do Oracle Cloud Storage. | <o prefixo> | Não | prefixo |
Para caminho do arquivo curinga | ||||
Bucket | O nome do bucket do Oracle Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Caminho da pasta curinga | O caminho da pasta com caracteres curinga no bucket especificado para filtrar as pastas de origem. | <o caminho da pasta com caracteres curinga> | Não | wildcardFolderPath |
Nome do arquivo curinga | O nome do arquivo com caracteres curinga sob o bucket e caminho da pasta especificados (ou o caminho da pasta curinga) para filtrar os arquivos de origem. | <Seu nome de arquivo com caracteres curinga> | Yes | wildcardFileName |
Para lista de arquivos | ||||
Bucket | O nome do bucket do Oracle Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da pasta> | Não | folderpath |
Caminho para a lista de arquivos | Indica a cópia de um conjunto de arquivos especificado. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha. | < caminho da lista de arquivos > | Não | fileListPath |
Formato de arquivo | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato com suporte. | / | Yes | / |
Recursivamente | Indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Quando essa caixa de seleção está marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. | selecionado (padrão) ou não selecionado | Não | recursiva |
Filtrar pela última modificação | Os arquivos com a hora da última modificação no intervalo [Hora de início, Hora de término] são filtrados para processamento posterior. A hora é aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ . Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo é aplicado. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos. |
datetime | Não | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar descoberta de partições | Indica se você deve analisar as partições do caminho do arquivo e adicioná-las como outras colunas de origem. | selecionado ou não selecionado (padrão) | Não | enablePartitionDiscovery: true ou false (padrão) |
Caminho raiz das partições | Quando a descoberta de partições estiver habilitada, especifique o caminho raiz absoluto para ler as pastas particionadas como colunas de dados. | < seu caminho raiz da partição > | Não | partitionRootPath |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Colunas adicionais | Adicione outras colunas de dados ao caminho relativo ou valor estático dos arquivos de origem do repositório. A expressão tem suporte para o último. | • Nome • Valor |
Não | additionalColumns: • nome • valor |