Configurar os Arquivos do Azure em uma atividade de cópia

Este artigo descreve como usar a atividade de cópia no pipeline de dados para copiar dados de e para os Arquivos do Azure.

Formato compatível

Os Arquivos do Azure oferecem suporte aos seguintes formatos de arquivo: Confira cada artigo para obter configurações baseadas em formato.

Configuração com suporte

Para a configuração de cada guia em atividade Copy, vá para as seções a seguir, respectivamente.

Geral

Consulte as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.

Origem

As propriedades a seguir são compatíveis com os Arquivos do Azure na guia Origem de uma atividade de cópia.

Captura de tela mostrando a guia de origem e a lista de propriedades.

As seguintes propriedades são necessárias:

  • Tipo de armazenamento de dados: selecione Externo.

  • Conexão: selecione uma conexão dos Arquivos do Azure na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão dos Arquivos do Azure selecionando Nova.

  • Tipo de caminho de arquivo: você pode escolher Caminho do arquivo, Prefixo, Caminho de arquivo curinga, Lista de arquivos como o tipo de caminho do arquivo. A configuração de cada configuração é:

    • Caminho de arquivo: caso escolha esse tipo, os dados poderão ser copiados da pasta/caminho do arquivo especificado.

    • Prefixo: prefixo para o nome de arquivo sob o compartilhamento de arquivo especificado para filtrar arquivos de origem. Arquivos com nome começando com o fileshare_in_connection/this_prefix são selecionados. Ele utiliza o filtro do lado do serviço para os Arquivos do Azure, que fornece melhor desempenho do que um filtro curinga.

      Captura de tela mostrando o tipo de caminho de arquivo de prefixo.

    • Caminho do arquivo curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga para filtrar pastas ou arquivos de origem.

      Os curingas permitidos são * (corresponde a zero ou mais caracteres) e ? (corresponde a zero ou caractere único). Use ^ como escape se o nome real da pasta tiver curingas ou esse caractere de escape. Para mais exemplos, vá para Exemplos de filtro de pastas e arquivos.

      Captura de tela mostrando o caminho do arquivo curinga.

      Caminho da pasta curinga: Especifique o caminho da pasta com caracteres curinga para filtrar as pastas de origem.

      Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga no caminho da pasta fornecido/caminho da pasta configurada/curinga para filtrar os arquivos de origem.

    • Lista de arquivos: indica um determinado conjunto de arquivos para o qual copiar. Em Caminho para a lista de arquivos, insira ou navegue até um arquivo de texto que inclui uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para cada arquivo.

      Quando você estiver usando essa opção, não especifique um nome de arquivo. Para mais exemplos, vá para Exemplos de lista de arquivos.

      Captura de tela mostrando o caminho para a lista de arquivos.

      • Caminho da pasta: especifique o caminho para uma pasta. É obrigatório.

      • Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.

  • Recursivamente: especifique se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Observe que quando Recursivamente está marcado e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade é selecionada por padrão e não se aplica ao configurar o Caminho para a lista de arquivos.

  • Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.

Em Avançado, você pode especificar os seguintes campos:

  • Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.

    • Hora de início (UTC): Os arquivos serão selecionados se a hora da última modificação for maior ou igual à hora configurada.

    • Hora de término (UCT): Os arquivos serão selecionados se a hora da última modificação for menor que a hora configurada.

      Quando a Hora de início (UTC) tem valor de data e hora, mas a Hora de término (UTC) é NULA, isso significa que os arquivos cujo atributo de última modificação é maior ou igual ao valor de data e hora serão selecionados. Quando a Hora de término (UTC) tem valor de data e hora, mas a Hora de início (UTC) é NULA, isso significa que os arquivos cujo atributo de última modificação é menor que o valor de data e hora serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.

  • Ativar descoberta de partição: Especifique se você deve analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele não é selecionado por padrão e não tem suporte quando você usa o formato de arquivo binário.

    • Caminho da raiz da partição: quando a descoberta da partição estiver habilitada, especifique o caminho da raiz absoluta para ler as pastas particionadas como colunas de dados.

      Se ele não for especificado, por padrão ocorrerá o seguinte:

      • Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição é o caminho que você configurou.
      • Quando você usa o filtro de pasta curinga, o caminho raiz da partição é o subcaminho antes do primeiro curinga.

      Por exemplo, supondo que você configure o caminho como root/folder/year=2020/month=08/day=27:

      • Se você especificar o caminho da raiz da partição como root/folder/year=2020, a atividade de cópia gerará mais duas colunas de mês e dia com os valores "08" e "27", respectivamente, além das colunas dentro dos arquivos.
      • Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.

    Captura de tela que mostra a descoberta de partições.

  • Máximo de conexões simultâneas: essa propriedade indica o limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.

  • Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.

Destino

As seguintes propriedades são compatíveis com os Arquivos do Azure na guia Destino de uma atividade de cópia.

Captura de tela mostrando a guia Destino.

As seguintes propriedades são necessárias:

  • Tipo de armazenamento de dados: selecione Externo.
  • Conexão: selecione uma conexão dos Arquivos do Azure na lista de conexões. Se a conexão não existir, crie uma nova conexão dos Arquivos do Azure selecionando Nova.
  • Caminho do arquivo: Selecione Procurar para escolher o arquivo que deseja copiar ou preencha o caminho manualmente.
  • Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.

Em Avançado, você pode especificar os seguintes campos:

  • Comportamento da cópia: define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. Escolha um comportamento na lista suspensa.

    Captura de tela mostrando o comportamento da cópia.

    • Flatten hierarchy: todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
    • MergeFiles: Mescla todos os arquivos da pasta de origem em um único arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
    • Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
  • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.

  • Máximo de linhas por arquivo: ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique as linhas máximas que você deseja gravar por arquivo.

Mapeamento

Para Configuração da guia Mapeamento, acesseConfigurar seus mapeamentos na guia mapeamento. Se você escolher Binário como o formato de arquivo, não há suporte para o mapeamento.

Configurações

Para a configuração da guia Configurações, confira Definir suas outras configurações na guia configurações.

Resumo da tabela

As tabelas a seguir contêm mais informações sobre a atividade de cópia nos Arquivos do Azure.

Informações de origem

Nome Descrição Valor Obrigatório Propriedade de script JSON
Tipo de armazenamento de dados Seu tipo de armazenamento de dados. Externo Yes /
Conexão Sua conexão com o armazenamento de dados de origem. <sua conexão dos Arquivos do Azure> Yes connection
Tipo de caminho de arquivo O tipo de caminho de arquivo usado para obter dados de origem. • Caminho do arquivo
• Prefixo
• Caminho do arquivo curinga
• Lista de arquivos
Yes /
Para caminho do arquivo
Diretório O caminho para a pasta. <o nome da pasta> Não folderPath
Nome do arquivo O nome do arquivo sob o caminho de pasta especificado. <o nome do arquivo> Não fileName
Para prefixo
Prefix O prefixo para o nome de arquivo sob o compartilhamento de arquivo especificado para filtrar arquivos de origem. <o prefixo> Não prefixo
Para caminho do arquivo curinga
Caminho da pasta curinga O caminho da pasta com caracteres curinga para filtrar as pastas de origem. <o caminho da pasta com caracteres curinga> Não wildcardFolderPath
Nome do arquivo curinga O nome de arquivo com caracteres curinga sob o caminho de pasta/pasta curinga especificado para filtrar os arquivos de origem. <Seu nome de arquivo com caracteres curinga> Yes wildcardFileName
Para lista de arquivos
Caminho da pasta O caminho para a pasta. <o nome da pasta> Não folderpath
Caminho para a lista de arquivos Indica a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha. < caminho da lista de arquivos > Não fileListPath
Recursivamente Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. Selecionado ou desmarcado Não recursiva
Formato de arquivo O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. / Sim /
Filtrar pela última modificação Os arquivos com a última hora de modificação no intervalo [Hora de início, Hora de término] serão filtrados para processamento posterior. A hora será aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ. Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos. datetime Não modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar descoberta de partição Indica se você deve analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. selecionado ou não selecionado (padrão) Não enablePartitionDiscovery:
true ou false (padrão)
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections
Colunas adicionais Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último. • Nome
• Valor
Não additionalColumns:
• nome
• valor

Informações de destino

Nome Descrição Valor Obrigatório Propriedade de script JSON
Tipo de armazenamento de dados Seu tipo de armazenamento de dados. Externo Yes /
Conexão Sua conexão com o armazenamento de dados de destino. <sua conexão> Sim connection
Caminho do arquivo O caminho da pasta/arquivo para o arquivo de destino. < caminho de pasta/arquivo > Yes /
Diretório O caminho para a pasta sob o bucket especificado. <o nome da pasta> Não folderpath
Nome do arquivo O nome do arquivo no bucket e no caminho da pasta especificados. <o nome do arquivo> Não fileName
Comportamento da cópia Define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. • Nivelar hierarquia
• Mesclar arquivos
• Preservar hierarquia
Não copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections
Máximo de linhas por arquivo Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique as linhas máximas que você deseja gravar por arquivo. < suas linhas máximas por arquivo > Não maxRowsPerFile