Como configurar Armazenamento de Blobs do Azure em uma atividade de cópia
Esse artigo descreve como usar a atividade de cópia no pipeline de dados para copiar dados de e para o Armazenamento de Blobs do Azure.
Formato compatível
Armazenamento de Blobs do Azure dá suporte aos seguintes formatos de arquivo. Confira cada artigo para obter configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato do Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração com suporte
Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.
Geral
Consulte as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.
Fonte
As propriedades a seguir têm suporte para Armazenamento de Blobs do Azure na guia Origem de uma atividade Copy.
As seguintes propriedades são necessárias:
- Tipo de armazenamento de dados: selecione Externo.
- Conexão: selecione uma conexão Armazenamento de Blobs do Azure na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Armazenamento de Blobs do Azure selecionando Novo.
- Caminho do arquivo: selecione Procurar para escolher o arquivo que você deseja copiar ou preencha o caminho manualmente.
- Configurações de arquivo: selecione Configurações de arquivo para definir o formato do arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Tipo de caminho de arquivo: você pode escolher Caminho do arquivo, Prefixo, Caminho de arquivo curinga, Lista de arquivos como o tipo de caminho do arquivo. A configuração de cada configuração é:
Caminho do arquivo: se você escolher esse tipo, os dados poderão ser copiados do contêiner ou caminho de pasta/arquivo especificado anteriormente.
Prefixo: prefixo do nome do blob no contêiner fornecido configurado para filtrar os blobs de origem. Os blobs cujos nomes começam com
container/this_prefix
são selecionados. Ele utiliza o filtro do lado do serviço para o armazenamento de blobs.Quando você usa Prefixo e escolhe copiar para um destino baseado em arquivo com preservação de hierarquia, o subcaminho após o último "/" no prefixo é preservado. Por exemplo, você tem a origem
container/folder/subfolder/file.txt
e configura o prefixo comofolder/sub
, então o caminho do arquivo preservado ésubfolder/file.txt
.Caminho do arquivo curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga no contêiner de blob fornecido para filtrar suas pastas ou arquivos de origem.
Os curingas permitidos são
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
como escape se o nome real da pasta tiver curingas ou esse caractere de escape. Para mais exemplos, vá para Exemplos de filtro de pastas e arquivos.Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga no contêiner fornecido para filtrar pastas de origem.
Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga no caminho do contêiner e da pasta (ou caminho da pasta curinga) indicados para filtrar os arquivos de origem.
Lista de arquivos: indica um determinado conjunto de arquivos para o qual copiar. Em Caminho para a lista de arquivos, insira ou navegue até um arquivo de texto que inclui uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para cada arquivo.
Quando você estiver usando essa opção, não especifique um nome de arquivo. Para mais exemplos, vá para Exemplos de lista de arquivos.
Recursivamente: se essa caixa de seleção estiver selecionada, todos os arquivos na pasta de entrada e suas subpastas serão processados recursivamente. Se você desmarcar a caixa de seleção, apenas as da pasta selecionada serão processadas. Essa configuração é desabilitada quando um único arquivo é selecionado.
Excluir arquivos após a conclusão: se essa caixa de seleção estiver selecionada, os arquivos binários serão excluídos do repositório de origem após a migração com êxito para o repositório de destino. A exclusão do arquivo é feita por arquivo, portanto, quando a atividade Copy falhar, você notará que alguns arquivos já foram copiados para o destino e excluídos da origem, enquanto outros ainda permanecem no repositório de origem.
Observação
Essa propriedade só é válida no cenário de cópia de arquivos binários.
Máximo de conexões simultâneas: essa propriedade indica o limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
Destino
As propriedades a seguir têm suporte para o Armazenamento de Blobs do Azure na guia Destino de uma atividade Copy.
As seguintes propriedades são necessárias:
- Tipo de armazenamento de dados: selecione Externo.
- Conexão: selecione uma conexão do Armazenamento de Blobs do Azure na lista de conexões. Se a conexão não existir, crie uma nova conexão do Armazenamento de Blobs do Azure selecionando Novo.
- Caminho do arquivo: selecione Procurar para escolher o arquivo que você deseja copiar ou preencha o caminho manualmente.
- Configurações de arquivo: selecione Configurações de arquivo para definir o formato do arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento de cópia: define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. Você pode escolher Adicionar conteúdo dinâmico, Nenhum, FlattenHierarchy ou Preservar hierarquia na lista suspensa.
Adicionar conteúdo dinâmico: para especificar uma expressão para um valor de propriedade, selecione Adicionar conteúdo dinâmico. Essa seleção abre o construtor de expressões, em que você pode criar expressões de variáveis de sistema com suporte, saída de atividade, funções e variáveis ou parâmetros especificados pelo usuário. Para obter informações sobre a linguagem das expressões, confira Expressões e funções.
Nenhum: escolha esta seleção para não usar nenhum comportamento de cópia.
Flatten hierarchy: todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
Tamanho do bloco (MB): especifique, em megabytes, o tamanho do bloco usado para gravar dados nos blobs de blocos. Para obter mais informações, acesse Sobre blobs de blocos.
Metadados: defina metadados personalizados ao copiar para um destino. Cada objeto sob a matriz
metadata
representa uma coluna extra. Oname
define o nome chave dos metadados evalue
indica o valor de dados dessa chave. Se o recurso preservar atributos for usado, os metadados especificados serão unificados/substituídos pelos metadados do arquivo de origem.Os valores de dados permitidos são:
$$LASTMODIFIED
: uma variável reservada indica armazenar a hora da última modificação dos arquivos de origem. Aplicar à fonte baseada em arquivo somente com formato binário.Expression
Valor estático
Mapeamento
Para Configuração da guia Mapeamento, acesseConfigurar seus mapeamentos na guia mapeamento. Se você escolher Binário como o formato de arquivo, não há suporte para o mapeamento.
Configurações
Para a configuração da guia Configurações, confira Definir suas outras configurações na guia configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre a atividade Copy no Armazenamento de Blobs do Azure.
Informações de origem
Nome | Descrição | Valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externo | Yes | / |
Conexão | Sua conexão com o armazenamento de dados de origem. | <sua conexão> | Yes | connection |
Caminho do arquivo | O caminho do arquivo dos dados de origem. | <caminho do arquivo da origem> | Sim | contêiner fileName |
Tipo de caminho de arquivo | O tipo de caminho de arquivo que você deseja usar. | • Caminho do arquivo • Prefixo • Caminho da pasta curinga, nome do arquivo curinga • Lista de arquivos |
Não | • prefixo • wildcardFolderPath, wildcardFileName • fileListPath |
Recursivamente | Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. | Selecionado ou desmarcado | Não | recursiva |
Excluir arquivos após a conclusão | Os arquivos no armazenamento de dados de origem serão excluídos logo após serem movidos para o repositório de destino. A exclusão do arquivo é feita por arquivo, portanto, quando a atividade de cópia falhar, você verá que alguns arquivos já foram copiados para o destino e excluídos da origem, enquanto outros ainda permanecem no repositório de origem. | Selecionado ou desmarcado | Não | deleteFilesAfterCompletion |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Informações de destino
Nome | Descrição | Valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externo | Yes | / |
Conexão | Sua conexão com o armazenamento de dados de destino. | <sua conexão> | Yes | connection |
Caminho do arquivo | O caminho do arquivo dos dados de destino. | Caminho do arquivo da origem | Sim | contêiner fileName |
Comportamento da cópia | Define o comportamento ao copiar arquivos de um sistema de arquivos, como armazenamento, para o outro (por exemplo, de um armazenamento de blobs para outro). | • None • Adicionar conteúdo dinâmico • Nivelar hierarquia • Preservar hierarquia |
Não | copyBehavior |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Tamanho do bloco (MB) | Especifique o tamanho do bloco em MB ao gravar dados no Armazenamento de Blobs do Azure. O valor permitido é entre 4 MB e 100 MB. | <tamanho do bloco> | Não | blockSizeInMB |
Metadados | Defina os metadados personalizados ao copiar para o destino. | • $$LASTMODIFIED • Expressão • Valor estático |
Não | metadata |