Configurar o Lakehouse em uma atividade de cópia

Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados de e para o Fabric Lakehouse. Por padrão, os dados são gravados na Lakehouse Table em V-Order, e você pode ir para Delta Lake table optimization e V-Order para obter mais informações.

Formato suportado

Lakehouse suporta os seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.

Configuração suportada

Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.

Geral

Para a configuração da guia Geral , vá para Geral.

Origem

As propriedades a seguir são suportadas para Lakehouse na guia Origem de uma atividade de cópia.

Captura de ecrã a mostrar o separador origem e a lista de propriedades.

As seguintes propriedades são necessárias:

  • Conexão: Selecione uma conexão Lakehouse na lista de conexões. Se não houver conexão, crie uma nova conexão Lakehouse selecionando Mais na parte inferior da lista de conexões. Se você aplicar Usar conteúdo dinâmico para especificar seu Lakehouse, adicione um parâmetro e especifique o ID do objeto Lakehouse como o valor do parâmetro. Para obter seu ID de objeto Lakehouse, abra seu Lakehouse em seu espaço de trabalho e o ID estará depois /lakehouses/em seu URL.

    Captura de tela mostrando o ID do objeto Lakehouse.

  • Pasta raiz: Selecione Tabelas ou Arquivos, que indica a visualização virtual da área gerenciada ou não gerenciada em seu lago. Para obter mais informações, consulte a introdução do Lakehouse.

    • Se você selecionar Tabelas:

      • Nome da tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como origem. Ou você pode selecionar Novo para criar uma nova tabela.

        Captura de ecrã a mostrar o nome da tabela.

      • Tabela: Ao aplicar o Lakehouse com esquemas na conexão, escolha uma tabela existente com um esquema na lista de tabelas ou especifique uma tabela com um esquema como origem. Ou você pode selecionar Novo para criar uma nova tabela com um esquema. Se você não especificar um nome de esquema, o serviço usará dbo como o esquema padrão.

        Captura de tela mostrando o nome da tabela com esquema.

      • Em Avançado, você pode especificar os seguintes campos:

        • Carimbo de data/hora: especifique para consultar um instantâneo mais antigo por carimbo de data/hora.
        • Versão: especifique para consultar um instantâneo mais antigo por versão.
        • Colunas adicionais: adicione colunas de dados adicionais ao caminho relativo ou ao valor estático dos arquivos de origem de armazenamento. A expressão é suportada para este último.

      A versão 1 do Reader é suportada. Você pode encontrar os recursos Delta Lake suportados correspondentes neste artigo.

    • Se você selecionar Arquivos:

      • Tipo de caminho de arquivo: você pode escolher Caminho de arquivo, Caminho de arquivo curinga ou Lista de arquivos como seu tipo de caminho de arquivo. A lista a seguir descreve a configuração de cada configuração:

        Captura de tela mostrando o caminho do arquivo.

        • Caminho do arquivo: selecione Procurar para escolher o arquivo que deseja copiar ou preencha o caminho manualmente.

        • Caminho do arquivo curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga em sua determinada área não gerenciada do Lakehouse (em Arquivos) para filtrar suas pastas ou arquivos de origem. Os curingas permitidos são: * (corresponde a zero ou mais caracteres) e ? (corresponde a zero ou caractere único). Use ^ para escapar se o nome da pasta ou do arquivo tiver um curinga ou esse caractere de escape dentro.

          • Caminho da pasta curinga: o caminho para a pasta sob o contêiner fornecido. Se você quiser usar um curinga para filtrar a pasta, ignore essa configuração e especifique essas informações nas configurações da fonte de atividade.

          • Nome do arquivo curinga: o nome do arquivo sob a área não gerenciada do Lakehouse (em Arquivos) e o caminho da pasta.

            Captura de tela mostrando o caminho do arquivo curinga.

        • Lista de arquivos: indica copiar um determinado conjunto de arquivos.

          • Caminho da pasta: aponta para uma pasta que inclui os ficheiros que pretende copiar.
          • Caminho para a lista de arquivos: aponta para um arquivo de texto que inclui uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho do arquivo configurado.

          Captura de ecrã a mostrar o caminho para a lista de ficheiros.

      • Recursivamente: Indica se os dados são lidos recursivamente a partir das subpastas ou apenas a partir da pasta especificada. Se habilitado, todos os arquivos na pasta de entrada e suas subpastas são processados recursivamente. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.

      • Formato de arquivo: selecione seu formato de arquivo na lista suspensa. Selecione o botão Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.

      • Em Avançado, você pode especificar os seguintes campos:

        • Filtrar por última modificação: Os ficheiros são filtrados com base nas datas da última modificação. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
          • Hora de início: Os arquivos são selecionados se o tempo da última modificação for maior ou igual ao tempo configurado.
          • Hora de término: Os arquivos são selecionados se o tempo da última modificação for menor que o tempo configurado.
        • Habilitar descoberta de partição: para arquivos particionados, especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como colunas de origem extras.
          • Caminho da raiz da partição: Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.
        • Máximo de conexões simultâneas: indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.

Destino

As propriedades a seguir são suportadas para Lakehouse na guia Destino de uma atividade de cópia.

Captura de ecrã a mostrar o separador de destino.

As seguintes propriedades são necessárias:

  • Conexão: Selecione uma conexão Lakehouse na lista de conexões. Se não houver conexão, crie uma nova conexão Lakehouse selecionando Mais na parte inferior da lista de conexões. Se você aplicar Usar conteúdo dinâmico para especificar seu Lakehouse, adicione um parâmetro e especifique o ID do objeto Lakehouse como o valor do parâmetro. Para obter seu ID de objeto Lakehouse, abra seu Lakehouse em seu espaço de trabalho e o ID estará depois /lakehouses/em seu URL.

    Captura de tela mostrando o ID do objeto Lakehouse.

  • Pasta raiz: Selecione Tabelas ou Arquivos, que indica a visualização virtual da área gerenciada ou não gerenciada em seu lago. Para obter mais informações, consulte a introdução do Lakehouse.

    • Se você selecionar Tabelas:

      • Nome da tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como destino. Ou você pode selecionar Novo para criar uma nova tabela.

        Captura de ecrã a mostrar o nome da tabela.

      • Tabela: Ao aplicar Lakehouse com esquemas na conexão, escolha uma tabela existente com um esquema na lista de tabelas ou especifique uma tabela com um esquema como destino. Ou você pode selecionar Novo para criar uma nova tabela com um esquema. Se você não especificar um nome de esquema, o serviço usará dbo como o esquema padrão.

        Captura de tela mostrando o nome da tabela com esquema.

      • Em Avançado, você pode especificar os seguintes campos:

        • Ações da tabela: especifique a operação em relação à tabela selecionada.

          • Acrescentar: Acrescentar novos valores à tabela existente.

            • Ativar partição: Esta seleção permite criar partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
              • Nome da coluna da partição: selecione entre as colunas de destino no mapeamento de esquemas ao acrescentar dados a uma nova tabela. Quando você acrescenta dados a uma tabela existente que já tem partições, as colunas de partição são derivadas da tabela existente automaticamente. Os tipos de dados suportados são string, integer, booleano e datetime. Format respeita as configurações de conversão de tipo na guia Mapeamento .
          • Substituir: substitua os dados e o esquema existentes na tabela usando os novos valores. Se esta operação estiver selecionada, você pode ativar a partição na tabela de destino:

            • Ativar partição: Esta seleção permite criar partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
              • Nome da coluna da partição: selecione entre as colunas de destino no mapeamento de esquemas. Os tipos de dados suportados são string, integer, booleano e datetime. Format respeita as configurações de conversão de tipo na guia Mapeamento .

            Ele suporta a viagem no tempo Delta Lake. A tabela substituída tem logs delta para as versões anteriores, que você pode acessar em sua Lakehouse. Você também pode copiar a tabela de versão anterior do Lakehouse, especificando Version na fonte de atividade de cópia.

        • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.

      A versão 2 do Writer é suportada. Você pode encontrar os recursos Delta Lake suportados correspondentes neste artigo.

    • Se você selecionar Arquivos:

      • Caminho do arquivo: selecione Procurar para escolher o arquivo que deseja copiar ou preencha o caminho manualmente.

        Captura de tela mostrando o caminho dos arquivos no destino.

      • Formato de arquivo: selecione seu formato de arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.

      • Em Avançado, você pode especificar os seguintes campos:

        • Comportamento de cópia: define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. Você pode escolher Nivelar hierarquia, Mesclar arquivos, Preservar hierarquia ou Adicionar conteúdo dinâmico como seu comportamento de cópia. A configuração de cada configuração é:

          • Nivelar a hierarquia: Todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.

          • Mesclar arquivos: mescla todos os arquivos da pasta de origem em um arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.

          • Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo de um arquivo de origem para a pasta de origem é idêntico ao caminho relativo de um arquivo de destino para a pasta de destino.

          • Adicionar conteúdo dinâmico: para especificar uma expressão para um valor de propriedade, selecione Adicionar conteúdo dinâmico. Este campo abre o construtor de expressões onde você pode criar expressões a partir de variáveis de sistema suportadas, saída de atividade, funções e variáveis ou parâmetros especificados pelo usuário. Para obter mais informações sobre a linguagem de expressão, vá para Expressões e funções.

            Captura de tela mostrando o comportamento da cópia.

        • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.

        • Tamanho do bloco (MB): especifique o tamanho do bloco em MB ao gravar dados no Lakehouse. O valor permitido está entre 4 MB e 100 MB.

        • Metadados: defina metadados personalizados ao copiar para o armazenamento de dados de destino. Cada objeto sob a metadata matriz representa uma coluna extra. O name define o nome da chave de metadados e indica o value valor de dados dessa chave. Se o recurso preservar atributos for usado, os metadados especificados serão unidos/substituídos pelos metadados do arquivo de origem. Os valores de dados permitidos são:

          • $$LASTMODIFIED: uma variável reservada indica para armazenar a hora da última modificação dos arquivos de origem. Aplique apenas a uma fonte baseada em arquivo com formato binário.

          • Expression

          • Valor estático

            Captura de ecrã a mostrar metadados.

Mapeamento

Para a configuração da guia Mapeamento, se você não aplicar a tabela Lakehouse como seu armazenamento de dados de destino, vá para Mapeamento.

Se você aplicar a tabela Lakehouse como seu armazenamento de dados de destino, exceto a configuração em Mapeamento, poderá editar o tipo para suas colunas de destino. Depois de selecionar Importar esquemas, você pode especificar o tipo de coluna no seu destino.

Por exemplo, o tipo da coluna PersonID na origem é int, e você pode alterá-la para o tipo de cadeia de caracteres ao mapear para a coluna de destino.

Captura de ecrã do tipo de coluna de destino do mapeamento.

Nota

Não há suporte para a edição do tipo de destino atualmente quando a origem é decimal.

Se você escolher Binário como formato de arquivo, o mapeamento não será suportado.

Definições

Para a configuração da guia Configurações, vá para Configurações.

Resumo da tabela

As tabelas a seguir contêm mais informações sobre uma atividade de cópia no Lakehouse.

Fonte da informação

Nome Descrição valor Necessário Propriedade de script JSON
Ligação A seção para selecionar sua conexão. < sua conexão Lakehouse> Sim workspaceId
artifactId
Pasta raiz O tipo da pasta raiz. • Mesas
• Ficheiros
Não rootFolder:
Tabela ou Arquivos
Nome da tabela O nome da tabela que você deseja ler dados. <o nome da sua tabela> Sim quando você seleciona Tabelas na pasta raiz tabela
Tabela O nome da tabela com um esquema que você deseja ler dados ao aplicar Lakehouse com esquemas como a conexão. <sua tabela com um esquema> Sim quando você seleciona Tabelas na pasta raiz /
Para a tabela
nome do esquema O nome do esquema. <o nome do seu esquema>
(o padrão é dbo)
Não (em source ->datasetSettings ->typeProperties)
esquema
nome da tabela O nome da tabela. <o nome da sua tabela> Sim tabela
Carimbo de data/hora O carimbo de data/hora para consultar um instantâneo mais antigo. <Carimbo de data/hora> Não carimbo de data/horaAsOf
Versão A versão para consultar um instantâneo mais antigo. <Versão> Não versãoAsOf
Colunas adicionais Colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. • Nome
• Valor
Não adicionaisColunas:
• nome
• valor
Tipo de caminho de arquivo O tipo de caminho de arquivo que você usa. • Caminho do arquivo
• Caminho do arquivo curinga
• Lista de ficheiros
Sim quando você seleciona Arquivos na pasta raiz /
Caminho do ficheiro Copie do caminho para uma pasta/arquivo em armazenamento de dados de origem. <caminho do arquivo> Sim ao escolher o caminho do arquivo • folderPath
• Nome do ficheiro
Caminhos curinga O caminho da pasta com caracteres curinga sob o armazenamento de dados de origem configurado para filtrar pastas de origem. <caminhos curinga> Sim ao escolher o caminho do arquivo curinga • wildcardFolderPath
• wildcardFileName
Folder path Aponta para uma pasta que inclui ficheiros que pretende copiar. <caminho da pasta> Não folderPath
Caminho para a lista de arquivos Indica para copiar um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho configurado. <caminho para a lista de arquivos> Não fileListPath
Recursivamente Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. Selecionar ou desmarcar Não recursivo:
verdadeiro ou falso
Formato do ficheiro O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. / Sim quando você seleciona Arquivos na pasta raiz /
Filtrar por última modificação Os ficheiros com a hora da última modificação no intervalo [Hora de início, Hora de fim) serão filtrados para processamento posterior.

A hora é aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ.

Essa propriedade pode ser ignorada, o que significa que nenhum filtro de atributo de arquivo é aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
• Hora de início
• Hora de fim
Não modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar a descoberta de partições Se as partições devem ser analisadas a partir do caminho do arquivo e adicioná-las como colunas de origem extras. Selecionado ou não selecionado Não enablePartitionDiscovery:
true ou false (padrão)
Caminho da raiz da partição O caminho raiz da partição absoluta para ler pastas particionadas como colunas de dados. <o caminho raiz da partição> Não partitionRootPath
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Um valor é necessário somente quando você deseja limitar conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections

Informações sobre o destino

Nome Descrição valor Necessário Propriedade de script JSON
Ligação A seção para selecionar sua conexão. < sua conexão Lakehouse> Sim workspaceId
artifactId
Pasta raiz O tipo da pasta raiz. • Mesas
• Ficheiros
Sim rootFolder:
Tabela ou Arquivos
Nome da tabela O nome da tabela na qual você deseja gravar dados. <o nome da sua tabela> Sim quando você seleciona Tabelas na pasta raiz tabela
Tabela O nome da tabela com um esquema no qual você deseja gravar dados ao aplicar Lakehouse com esquemas como conexão. <sua tabela com um esquema> Sim quando você seleciona Tabelas na pasta raiz /
Para a tabela
nome do esquema O nome do esquema. <o nome do seu esquema>
(o padrão é dbo)
Não (em sink ->datasetSettings ->typeProperties)
esquema
nome da tabela O nome da tabela. <o nome da sua tabela> Sim tabela
Ação da tabela Acrescente novos valores a uma tabela existente ou substitua os dados e o esquema existentes na tabela usando os novos valores. • Anexar
• Substituir
Não tableActionOption:
Acrescentar ou SubstituirEsquema
Ativar partições Esta seleção permite criar partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file". Selecionado ou não selecionado Não partitionOption:
PartitionByKey ou Nenhum
Colunas de partição As colunas de destino no mapeamento de esquemas. <suas colunas de partição> Não partitionNameList
Caminho do ficheiro Grave dados no caminho para uma pasta/arquivo em armazenamento de dados de destino. <caminho do arquivo> Não • folderPath
• Nome do ficheiro
Formato do ficheiro O formato de arquivo para seus dados de destino. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. / Sim quando você seleciona Arquivos na pasta raiz /
Comportamento de cópia O comportamento de cópia definido quando a origem são arquivos de um armazenamento de dados baseado em arquivo. • Achatar a hierarquia
• Mesclar arquivos
• Preservar a hierarquia
• Adicione conteúdo dinâmico
Não copyComportamento:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections
Tamanho do bloco (MB) O tamanho do bloco em MB usado para gravar dados no Lakehouse. O valor permitido está entre 4 MB e 100 MB. <tamanho do bloco> Não blockSizeInMB
Metadados O conjunto de metadados personalizados ao copiar para um destino. $$LASTMODIFIED
• Expressão
• Valor estático
Não do IdP