Configurar o Amazon S3 Compatible em uma atividade Copy
Este artigo descreve como usar a atividade Copy em um pipeline de dados para copiar dados do Amazon S3 Compatible.
Permissões necessárias
Para copiar dados do Amazon S3 Compatible, verifique se você recebeu as seguintes permissões para operações de objeto do Amazon S3 Compatible: s3:GetObject
e s3:GetObjectVersion
.
Se você usar a interface do usuário para criar, s3:ListAllMyBuckets
e s3:ListBucket
/s3:GetBucketLocation
serão necessárias permissões adicionais para operações como testar a conexão com o serviço vinculado e navegar da raiz.
Parra detalhes sobre a lista completa e detalhada das permissões do Amazon S3 Compatible, confira Especificar permissões em uma política no site do AWS.
Formato compatível
O Amazon S3 Compatible é compatível aos seguintes formatos de arquivo. Confira cada artigo para obter configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato do Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração com suporte
Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.
Geral
Consulte as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.
Origem
Há suporte para as propriedades a seguir no Amazon S3 Compatible na guia Origem de uma atividade Copy.
As seguintes propriedades são necessárias:
Tipo de armazenamento de dados: selecione Externo.
Conexão: selecione uma conexão do Amazon S3 Compatible na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Amazon S3 Compatible selecionando Novo.
Tipo de conexão: selecione Amazon S3 Compatible como o tipo de conexão.
Tipo de caminho de arquivo: você pode escolher Caminho do arquivo, Prefixo, Caminho de arquivo curinga, Lista de arquivos como o tipo de caminho do arquivo. A configuração de cada uma é:
Caminho do arquivo: se você escolher esse tipo, os dados poderão ser copiados do bucket fornecido ou do bucket fornecido e do caminho de pasta especificado.
Prefixo: se você escolher esse tipo, especifique o Bucket e o Prefixo.
Bucket: especifique o nome do bucket do Armazenamento do S3 Compatible. É obrigatório.
Prefixo: especifique o nome da chave do Armazenamento do S3 Compatible sob o bucket especificado configurado no conjunto de dados para filtrar os arquivos de origem do Armazenamento do S3 Compatible. As chaves do Armazenamento Compatível do S3 cujos nomes começam com
bucket/this_prefix
são selecionadas. Utiliza o filtro do lado do serviço de Armazenamento Compatível do S3, que fornece melhor desempenho do que o filtro curinga.Quando você usa o prefixo e opta por copiar para o destino baseado em arquivo com a hierarquia de preservação, observe que o subcaminho após o último "/" no prefixo será preservado. Por exemplo, você tem a origem
bucket/folder/subfolder/file.txt
e configura o prefixo comofolder/sub
, então o caminho do arquivo preservado ésubfolder/file.txt
.
Caminho de arquivo curinga: se você escolher esse tipo, especifique os caminhos do Bucket e doCuringa.
Bucket: especifique o nome do bucket do Armazenamento do S3 Compatible. É obrigatório.
Caminhos do curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga no contêiner de blob fornecido para filtrar suas pastas ou arquivos de origem.
Os curingas permitidos são:
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
como escape se o nome real da pasta tiver curingas ou esse caractere de escape. Veja mais exemplos em Exemplos de filtro de pastas e arquivos. Caminho da pasta curinga: o caminho da pasta com caracteres curinga no bucket fornecido para filtrar pastas de origem.Nome do arquivo do curinga: o nome do arquivo com caracteres curinga sob o bucket e caminho da pasta fornecidos (ou o caminho da pasta curinga) para filtrar os arquivos de origem.
Lista de arquivos: se você escolher esse tipo, especifique o Caminho da pasta e Caminho para a lista de arquivos para indicar a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclui a lista de arquivos que você deseja copiar com um arquivo por linha, que é o caminho relativo para o caminho configurado no conjunto de dados. Para mais exemplos, vá para Exemplos de lista de arquivos.
- Caminho da pasta: especifique o caminho para a pasta no bucket fornecido. É obrigatório.
- Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.
Recursivamente: especifique se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Quando Recursivamente está marcado e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade é selecionada por padrão e não se aplica ao configurar o Caminho para a lista de arquivos.
Em Avançado, você pode especificar os seguintes campos:
Filtrar pela última modificação: Os arquivos são filtrados com base nas datas da última modificação que você especificou. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.
- Hora de início (UTC): Os arquivos serão selecionados se a hora da última modificação for maior ou igual à hora configurada.
- Hora de término (UCT): Os arquivos serão selecionados se a hora da última modificação for menor que a hora configurada.
Quando a Hora de início (UTC) tem valor de data e hora, mas a Hora de término (UTC) é NULA, isso significa que os arquivos cujo atributo de última modificação é maior ou igual ao valor de data e hora serão selecionados. Quando a Hora de término (UTC) tem valor de data e hora, mas a Hora de início (UTC) é NULA, isso significa que os arquivos cujo atributo de última modificação é menor que o valor de data e hora serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.
Ativar descoberta de partição: Especifique se você deve analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele não é selecionado por padrão e não tem suporte quando você usa o formato de arquivo binário.
Caminho da raiz da partição: quando a descoberta da partição estiver habilitada, especifique o caminho da raiz absoluta para ler as pastas particionadas como colunas de dados.
Se ele não for especificado, por padrão ocorrerá o seguinte:
- Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição é o caminho que você configurou.
- Quando você usa o filtro de pasta curinga, o caminho raiz da partição é o subcaminho antes do primeiro curinga.
- Quando você usa o prefixo, o caminho raiz da partição é o subcaminho antes do último "/".
Por exemplo, supondo que você configure o caminho como
root/folder/year=2020/month=08/day=27
:- Se você especificar o caminho da raiz da partição como
root/folder/year=2020
, a atividade de cópia gerará mais duas colunas de mês e dia com os valores "08" e "27", respectivamente, além das colunas dentro dos arquivos. - Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.
Conexão simultânea máxima: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.
Destino
As seguintes propriedades são aceitas para o Amazon S3 Compatible na guia Destino de uma atividade Copy.
As seguintes propriedades são necessárias:
- Tipo de armazenamento de dados: selecione Externo.
- Conexão: selecione uma conexão do Amazon S3 Compatible na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Amazon S3 Compatible selecionando Novo.
- Tipo de conexão: selecione Amazon S3 Compatible como o tipo de conexão.
- Caminho do arquivo: os dados poderão ser copiados para o bucket especificado ou para o bucket e caminho de pasta especificados.
- Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento da cópia: define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. Escolha um comportamento na lista suspensa.
- Flatten hierarchy: todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
- MergeFiles: Mescla todos os arquivos da pasta de origem em um único arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
- Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
Máximo de conexões simultâneas: essa propriedade indica o limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
Mapeamento
Para configuração da guia Mapeamento, vá para Configurar seus mapeamentos na guia mapeamento. Se você escolher Binário como formato de arquivo, não haverá suporte para mapeamento.
Configurações
Para configuração da guia Configurações, acesse Definir suas outras configurações na guia configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre a atividade Copy no Amazon S3 Compatible.
Informações de origem
Nome | Descrição | Valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externo | Yes | / |
Conexão | Sua conexão com o armazenamento de dados de origem. | <Sua conexão com o Amazon S3 Compatible> | Sim | connection |
Tipo de conexão | Selecione um tipo para sua conexão. | Amazon S3 Compatible | Sim | / |
Tipo de caminho de arquivo | O tipo de caminho de arquivo usado para obter dados de origem. | • Caminho do arquivo • Prefixo • Caminho do arquivo curinga • Lista de arquivos |
Sim | / |
Para caminho do arquivo | ||||
Bucket | O nome do bucket do Armazenamento Compatível do S3. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da pasta> | Não | folderpath |
Nome do arquivo | O nome do arquivo no bucket e no caminho da pasta especificados. | <o nome do arquivo> | Não | fileName |
Para prefixo | ||||
Bucket | O nome do bucket do Armazenamento Compatível do S3. | <o nome do bucket> | Sim | bucketName |
Prefix | Prefixo para o nome da chave de Armazenamento do S3 Compatible sob o bucket especificado para filtrar os arquivos de origem do Armazenamento do S3 Compatible. | <o prefixo> | Não | prefixo |
Para caminho do arquivo curinga | ||||
Bucket | O nome do bucket do Armazenamento Compatível do S3. | <o nome do bucket> | Sim | bucketName |
Caminho da pasta curinga | O caminho da pasta com caracteres curinga no bucket especificado para filtrar as pastas de origem. | <o caminho da pasta com caracteres curinga> | Não | wildcardFolderPath |
Nome de arquivo curinga | O nome do arquivo com caracteres curinga sob o bucket e caminho da pasta especificados (ou o caminho da pasta curinga) para filtrar os arquivos de origem. | <seu nome de arquivo com caracteres curinga> | Sim | wildcardFileName |
Para lista de arquivos | ||||
Bucket | O nome do bucket do Armazenamento Compatível do S3. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da pasta> | Não | folderpath |
Caminho para a lista de arquivos | Indica a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha. | < caminho da lista de arquivos > | Não | fileListPath |
Formato de arquivo | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim | / |
Recursivamente | Indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Observe que quando Recursivamente está marcado e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade não se aplica ao configurar o Caminho para a lista de arquivos. | selecionado (padrão) ou não selecionado | Não | recursiva |
Filtrar pela última modificação | Os arquivos com a última hora de modificação no intervalo [Hora de início, Hora de término] serão filtrados para processamento posterior. A hora será aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ . Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos. |
datetime | Não | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar descoberta de partição | Indica se você deve analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. | selecionado ou não selecionado (padrão) | Não | enablePartitionDiscovery: true ou false (padrão) |
Caminho raiz da partição | Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler as pastas particionadas como colunas de dados. | < seu caminho raiz da partição > | Não | partitionRootPath |
Conexão simultânea máxima | O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Colunas adicionais | Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último. | • Nome • Valor |
Não | additionalColumns: • nome • valor |
Informações de destino
Nome | Descrição | Valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externo | Yes | / |
Conexão | Sua conexão com o armazenamento de dados de destino. | <Sua conexão com o Amazon S3 Compatible> | Sim | connection |
Tipo de conexão | Selecione um tipo para sua conexão. | Amazon S3 Compatible | Sim | / |
Caminho do arquivo | O caminho da pasta/arquivo para o arquivo de destino. | <caminho da pasta/arquivo> | Sim | / |
Bucket | O nome do bucket do Armazenamento Compatível do S3. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da pasta> | Não | folderpath |
Nome do arquivo | O nome do arquivo no bucket e no caminho da pasta especificados. | <o nome do arquivo> | Não | fileName |
Comportamento da cópia | Define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. | • Nivelar hierarquia • Mesclar arquivos • Preservar hierarquia |
Não | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |