Configurar o Lakehouse em uma atividade de cópia

Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados de e para o Fabric Lakehouse. Por padrão, os dados são gravados na tabela Lakehouse em V-Order, e você pode ir para Otimização de tabela Delta Lake e V-Order para obter mais informações.

Formato compatível

O Lakehouse tem suporte para os seguintes formatos de arquivo. Confira cada artigo para obter configurações baseadas em formato.

Configuração com suporte

Para a configuração de cada guia em atividade Copy, vá para as seções a seguir, respectivamente.

Geral

Para a configuração da guia Geral, vá para Geral.

Fonte

As seguintes propriedades têm suporte ao Lakehouse na guia Origem de uma atividade de cópia.

Captura de tela mostrando a guia de origem e a lista de propriedades.

As seguintes propriedades são necessárias:

  • Conexão: selecione uma conexão com o Lakehouse na lista de conexões. Se não existir uma conexão, crie uma conexão com o Lakehouse selecionando Mais na parte inferior da lista de conexões. Se você aplicar Usar conteúdo dinâmico para especificar o Lakehouse, adicione um parâmetro e especifique a ID de objeto do Lakehouse como o valor do parâmetro. Para obter sua ID de objeto do Lakehouse, abra seu Lakehouse no seu espaço de trabalho e a ID será exibida /lakehouses/na sua URL.

    Captura de tela que mostra o ID de objeto do Lakehouse.

  • Pasta raiz: selecione Tabelas ou Arquivos, o que indica a exibição virtual da área gerenciada ou não gerenciada em seu lake. Para obter mais informações, consulte a introdução ao Lakehouse.

    • Se você selecionar Tabelas:

      • Nome da tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como origem. Como alternativa, selecione Novo para criar uma nova tabela.

        Captura de tela mostrando o nome da tabela.

      • Tabela: ao aplicar o Lakehouse com esquemas na conexão, escolha uma tabela existente com um esquema na lista de tabelas ou especifique uma tabela com um esquema como origem. Como alternativa, selecione Novo para criar uma nova tabela com um esquema. Quando você não especifica um nome de esquema, o serviço usa dbo como o esquema padrão.

        Captura de tela que mostra o nome da tabela com esquema.

      • Em Avançado, você pode especificar os seguintes campos:

        • Carimbo de data/hora: especifique para consultar um instantâneo mais antigo por carimbo de data/hora.
        • Versão: especifique para consultar um instantâneo mais antigo por versão.
        • Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.

      O leitor versão 1 é compatível. Encontre os recursos correspondentes do Delta Lake com suporte neste artigo.

    • Se você selecionar Arquivos:

      • Tipo de caminho do arquivo: escolha Caminho de arquivo, Caminho de arquivo curinga ou Lista de arquivos como tipo de caminho do arquivo. A lista a seguir descreve a configuração de cada definição:

        Captura de tela mostrando o caminho do arquivo.

        • Caminho do arquivo: selecione Procurar para escolher o arquivo que você deseja copiar ou preencha o caminho manualmente.

        • Caminho do arquivo curinga: especifique o caminho da pasta ou do arquivo com caracteres curinga na área não gerenciada do Lakehouse (em Arquivos) para filtrar as pastas ou os arquivos de origem. Os curingas permitidos são: * (corresponde a zero ou mais caracteres) e ? (corresponde a zero ou caractere único). Use ^ como escape se o nome real da pasta ou do arquivo tiver curingas ou esse caractere de escape.

          • Caminho da pasta curinga: o caminho para a pasta no contêiner fornecido. Se quiser usar um curinga para filtrar a pasta, ignore essa configuração e especifique essas informações nas configurações de origem da atividade.

          • Nome do arquivo curinga: o nome do arquivo na área não gerenciada do Lakehouse (em Arquivos) e o caminho da pasta.

            Captura de tela mostrando o caminho do arquivo curinga.

        • Lista de arquivos: indica um determinado conjunto de arquivos para o qual copiar.

          • Caminho da pasta: aponta para uma pasta que inclui arquivos que você deseja copiar.
          • Caminho para a lista de arquivos: aponta para um arquivo de texto que inclui uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo ao caminho do arquivo configurado.

          Captura de tela mostrando o caminho para a lista de arquivos.

      • Recursivamente: indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Se habilitado, todos os arquivos na pasta de entrada e suas subpastas são processados recursivamente. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.

      • Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione o botão Configurações para configurar o formato do arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.

      • Em Avançado, você pode especificar os seguintes campos:

        • Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.
          • Hora de início: os arquivos serão selecionados se a hora da última modificação for maior ou igual à hora configurada.
          • Hora de término: os arquivos serão selecionados se a hora da última modificação for menor que a hora configurada.
        • Habilitar descoberta de partição: para arquivos particionados, especifique se as partições devem ser analisadas a partir do caminho do arquivo e adicionadas como colunas de origem adicionais.
          • Caminho da raiz da partição: quando a descoberta da partição estiver habilitada, especifique o caminho da raiz absoluta para ler as pastas particionadas como colunas de dados.
        • Máximo de conexões simultâneas: indica o limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.

Destino

As seguintes propriedades têm suporte ao Lakehouse na guia Destino de uma atividade de cópia.

Captura de tela mostrando a guia de destino.

As seguintes propriedades são necessárias:

  • Conexão: selecione uma conexão com o Lakehouse na lista de conexões. Se não existir uma conexão, crie uma conexão com o Lakehouse selecionando Mais na parte inferior da lista de conexões. Se você aplicar Usar conteúdo dinâmico para especificar o Lakehouse, adicione um parâmetro e especifique a ID de objeto do Lakehouse como o valor do parâmetro. Para obter sua ID de objeto do Lakehouse, abra seu Lakehouse no seu espaço de trabalho e a ID será exibida /lakehouses/na sua URL.

    Captura de tela que mostra o ID de objeto do Lakehouse.

  • Pasta raiz: selecione Tabelas ou Arquivos, o que indica a exibição virtual da área gerenciada ou não gerenciada em seu lake. Para obter mais informações, consulte a introdução ao Lakehouse.

    • Se você selecionar Tabelas:

      • Nome da tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como destino. Como alternativa, selecione Novo para criar uma nova tabela.

        Captura de tela mostrando o nome da tabela.

      • Tabela: ao aplicar o Lakehouse com esquemas na conexão, escolha uma tabela existente com um esquema na lista de tabelas ou especifique uma tabela com um esquema como destino. Como alternativa, selecione Novo para criar uma nova tabela com um esquema. Quando você não especifica um nome de esquema, o serviço usa dbo como o esquema padrão.

        Captura de tela que mostra o nome da tabela com esquema.

      • Em Avançado, você pode especificar os seguintes campos:

        • Ações de tabela: especifique a operação na tabela selecionada.

          • Acrescentar: acrescente novos valores à tabela existente.

            • Habilitar Partição: essa seleção permite que você crie partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
              • Nome da coluna de partição: selecione entre as colunas de destino no mapeamento de esquemas ao acrescentar dados a uma nova tabela. Quando você acrescenta dados a uma tabela existente que já contém partições, as colunas de partição são derivadas automaticamente da tabela existente. Os tipos de dados com suporte são cadeia de caracteres, inteiro, booliano e datetime. O formato respeita as configurações de conversão de tipo na guia Mapeamento.
          • Substituir: substitua os dados e o esquema existentes na tabela usando os novos valores. Se essa operação estiver selecionada, você poderá habilitar a partição na tabela de destino:

            • Habilitar Partição: essa seleção permite que você crie partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
              • Nome da coluna de partição: selecione entre as colunas de destino no mapeamento de esquemas. Os tipos de dados com suporte são cadeia de caracteres, inteiro, booliano e datetime. O formato respeita as configurações de conversão de tipo na guia Mapeamento.

            Ele é compatível com viagem no tempo do Delta Lake. A tabela substituída tem logs delta para as versões anteriores e você pode acessá-los em seu Lakehouse. Você também pode copiar a tabela de versão anterior do Lakehouse ao especificar Version (Versão) na origem da atividade Copy.

        • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.

      O Gravador versão 2 é compatível. Encontre os recursos correspondentes do Delta Lake com suporte neste artigo.

    • Se você selecionar Arquivos:

      • Caminho do arquivo: selecione Procurar para escolher o arquivo que você deseja copiar ou preencha o caminho manualmente.

        Captura de tela mostrando o caminho dos arquivos no destino.

      • Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.

      • Em Avançado, você pode especificar os seguintes campos:

        • Comportamento da cópia: define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. É possível escolher Nivelar hierarquia, Mesclar arquivos, Preservar hierarquia ou Adicionar conteúdo dinâmico como seu comportamento de cópia. A configuração de cada configuração é:

          • Flatten hierarchy: todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.

          • MergeFiles: Mescla todos os arquivos da pasta de origem em um único arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.

          • Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo de um arquivo de origem para a pasta de origem é idêntico ao caminho relativo de um arquivo de destino para a pasta de destino.

          • Adicionar conteúdo dinâmico: para especificar uma expressão para um valor de propriedade, selecione Adicionar conteúdo dinâmico. Esse campo abre o construtor de expressões, onde é possível criar expressões a partir de variáveis de sistema com suporte, saída de atividade, funções e variáveis ou parâmetros especificados pelo usuário. Para obter informações sobre a linguagem das expressões, acesse Expressões e funções.

            Captura de tela mostrando o comportamento da cópia.

        • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.

        • Tamanho do bloco (MB): especifique o tamanho do bloco em MB ao gravar dados no Lakehouse. O valor permitido é entre 4 MB e 100 MB.

        • Metadados: defina metadados personalizados ao copiar para o armazenamento de dados de destino. Cada objeto sob a matriz metadata representa uma coluna extra. O name define o nome chave dos metadados e value indica o valor de dados dessa chave. Se o recurso preservar atributos for usado, os metadados especificados serão unificados/substituídos pelos metadados do arquivo de origem. Os valores de dados permitidos são:

          • $$LASTMODIFIED: uma variável reservada indica armazenar a hora da última modificação dos arquivos de origem. Aplicar a uma fonte baseada em arquivo somente com formato binário.

          • Expression

          • Valor estático

            Captura de tela mostrando metadados.

Mapeamento

Para a configuração da guia Mapeamento, se você não aplicar a tabela do Lakehouse como seu repositório de dados de destino, vá para Mapeamento.

Se você aplicar a tabela do Lakehouse como seu armazenamento de dados de destino, exceto pela configuração no Mapeamento, você poderá editar o tipo para suas colunas de destino. Depois de selecionar Esquemas de importação, você pode especificar o tipo de coluna em seu destino.

Por exemplo, o tipo da coluna PersonID na origem é int e você pode alterá-lo para o tipo de cadeia de caracteres ao mapear para a coluna de destino.

Captura de tela do tipo de coluna de destino de mapeamento.

Observação

A edição do tipo de destino atualmente não é compatível quando sua origem é do tipo decimal.

Se você escolher Binário como o formato de arquivo, não há suporte para o mapeamento.

Configurações

Para a configuração da guia Configurações, vá para Configurações.

Resumo da tabela

As tabelas a seguir contêm mais informações sobre uma atividade de cópia em um Lakehouse.

Informações de origem

Nome Descrição Valor Obrigatório Propriedade do script JSON
Conexão A seção para selecionar a conexão. < sua conexão com o Lakehouse> Sim workspaceId
artifactId
Pasta raiz O tipo da pasta raiz. Tabelas
Arquivos
Não rootFolder:
Tabela ou Arquivos
Nome da tabela O nome da tabela para verificar. <nome da sua tabela> Sim, ao selecionar Tabelas em Pasta raiz tabela
Tabela O nome da tabela com um esquema para ler os dados ao aplicar o Lakehouse com esquemas como conexão. <sua tabela com um esquema> Sim, ao selecionar Tabelas em Pasta raiz /
Em Tabela
nome do esquema O nome do esquema. <o nome do esquema>
(O padrão é dbo)
Não (em source ->datasetSettings ->typeProperties)
esquema
nome da tabela O nome da tabela. <o nome da sua tabela> Sim tabela
Timestamp O carimbo de data/hora para consultar um instantâneo mais antigo. <timestamp> Não timestampAsOf
Versão A versão para consultar um instantâneo mais antigo. <version> Não versionAsOf
Colunas adicionais Colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último. • Nome
• Valor
Não additionalColumns:
• nome
• valor
Tipo de caminho do arquivo O tipo do caminho do arquivo que você usa. Caminho do arquivo
Caminho do arquivo curinga
Lista de arquivos
Sim, ao selecionar Arquivos na Pasta raiz /
Caminho do arquivo Copie do caminho para uma pasta/arquivo no armazenamento de dados de origem. <caminho do arquivo> Sim, ao escolher Caminho do arquivo • folderPath
• fileName
Caminhos curinga O caminho da pasta com caracteres curinga no armazenamento de dados de origem configurado para filtrar as pastas de origem. <caminhos curinga> Sim, ao escolher o caminho do arquivo curinga • wildcardFolderPath
• wildcardFileName
Caminho da pasta Aponta para uma pasta que inclui arquivos que você deseja copiar. >caminho da pasta< Não folderPath
Caminho para a lista de arquivos Indica a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclui a lista de arquivos que você deseja copiar com um arquivo por linha, que é o caminho relativo para o caminho configurado no conjunto de dados. <Caminho para a lista de arquivos> Não fileListPath
Recursivamente Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. selecionar ou desmarcar Não recursivo:
true ou false
Formato de arquivo O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. / Sim, ao selecionar Arquivos na Pasta raiz /
Filtrar pela última modificação Os arquivos com a última hora de modificação no intervalo [Hora de início, Hora de término] serão filtrados para processamento posterior.

A hora é aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ.

Essa propriedade pode ser ignorada, o que significa que nenhum filtro de atributo de arquivo é aplicado. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.
Hora de início
Hora de término
Não modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar descoberta de partição Caso precise analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Selecionado ou desmarcado Não enablePartitionDiscovery:
true ou false (padrão)
Caminho raiz da partição O caminho raiz da partição absoluta para ler pastas particionadas como colunas de dados. <seu caminho raiz da partição> Não partitionRootPath
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Um valor é necessário somente quando quiser limitar as conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections

Informações de destino

Nome Descrição Valor Obrigatório Propriedade do script JSON
Conexão A seção para selecionar a conexão. < sua conexão com o Lakehouse> Sim workspaceId
artifactId
Pasta raiz O tipo da pasta raiz. Tabelas
Arquivos
Sim rootFolder:
Tabela ou Arquivos
Nome da tabela O nome da tabela na qual gravar dados. <nome da sua tabela> Sim, ao selecionar Tabelas em Pasta raiz tabela
Tabela O nome da tabela com um esquema para gravar os dados ao aplicar o Lakehouse com esquemas como conexão. <sua tabela com um esquema> Sim, ao selecionar Tabelas em Pasta raiz /
Em Tabela
nome do esquema O nome do esquema. <o nome do esquema>
(O padrão é dbo)
Não (em sink ->datasetSettings ->typeProperties)
esquema
nome da tabela O nome da tabela. <o nome da sua tabela> Sim tabela
Ação de tabela Acrescente novos valores a uma tabela existente ou substitua os dados e o esquema existentes na tabela usando os novos valores. Acrescentar
Substituir
Não tableActionOption:
Acrescentar ou substituir esquema
Habilitar partições Essa seleção permite a criação de partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file". Selecionado ou desmarcado Não partitionOption:
PartitionByKey ou Nenhum
Colunas de partição As colunas de destino no mapeamento de esquemas. <suas colunas da partição> Não partitionNameList
Caminho do arquivo Gravar dados no caminho para uma pasta/arquivo no armazenamento de dados de destino. <caminho do arquivo> Não • folderPath
• fileName
Formato de arquivo O formato de arquivo dos dados de destino. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. / Sim, ao selecionar Arquivos na Pasta raiz /
Comportamento da cópia O comportamento de cópia definido quando a origem for de arquivos de um armazenamento de dados baseado em arquivos. Nivelar hierarquia
Mesclar arquivos
Preservar hierarquia
Adicionar conteúdo dinâmico
Não copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections
Tamanho do bloco (MB) O tamanho do bloco em MB usado para gravar dados no Lakehouse. O valor permitido é entre 4 MB e 100 MB. <tamanho do bloco> Não blockSizeInMB
Metadados Os metadados personalizados definidos ao copiar para um destino. $$LASTMODIFIED
• Expressão
• Valor estático
Não metadata