Configurar o Lakehouse em uma atividade de cópia
Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados de e para o Fabric Lakehouse. Por padrão, os dados são gravados na Lakehouse Table em V-Order, e você pode ir para Delta Lake table optimization e V-Order para obter mais informações.
Formato suportado
Lakehouse suporta os seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração suportada
Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.
- General (Geral)
- Source
- Destino
- Mapeamento
- Definições
Geral
Para a configuração da guia Geral , vá para Geral.
Origem
As propriedades a seguir são suportadas para Lakehouse na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
Conexão: Selecione uma conexão Lakehouse na lista de conexões. Se não houver conexão, crie uma nova conexão Lakehouse selecionando Mais na parte inferior da lista de conexões. Se você aplicar Usar conteúdo dinâmico para especificar seu Lakehouse, adicione um parâmetro e especifique o ID do objeto Lakehouse como o valor do parâmetro. Para obter seu ID de objeto Lakehouse, abra seu Lakehouse em seu espaço de trabalho e o ID estará depois
/lakehouses/
em seu URL.Pasta raiz: Selecione Tabelas ou Arquivos, que indica a visualização virtual da área gerenciada ou não gerenciada em seu lago. Para obter mais informações, consulte a introdução do Lakehouse.
Se você selecionar Tabelas:
Nome da tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como origem. Ou você pode selecionar Novo para criar uma nova tabela.
Tabela: Ao aplicar o Lakehouse com esquemas na conexão, escolha uma tabela existente com um esquema na lista de tabelas ou especifique uma tabela com um esquema como origem. Ou você pode selecionar Novo para criar uma nova tabela com um esquema. Se você não especificar um nome de esquema, o serviço usará dbo como o esquema padrão.
Em Avançado, você pode especificar os seguintes campos:
- Carimbo de data/hora: especifique para consultar um instantâneo mais antigo por carimbo de data/hora.
- Versão: especifique para consultar um instantâneo mais antigo por versão.
- Colunas adicionais: adicione colunas de dados adicionais ao caminho relativo ou ao valor estático dos arquivos de origem de armazenamento. A expressão é suportada para este último.
A versão 1 do Reader é suportada. Você pode encontrar os recursos Delta Lake suportados correspondentes neste artigo.
Se você selecionar Arquivos:
Tipo de caminho de arquivo: você pode escolher Caminho de arquivo, Caminho de arquivo curinga ou Lista de arquivos como seu tipo de caminho de arquivo. A lista a seguir descreve a configuração de cada configuração:
Caminho do arquivo: selecione Procurar para escolher o arquivo que deseja copiar ou preencha o caminho manualmente.
Caminho do arquivo curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga em sua determinada área não gerenciada do Lakehouse (em Arquivos) para filtrar suas pastas ou arquivos de origem. Os curingas permitidos são:
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
para escapar se o nome da pasta ou do arquivo tiver um curinga ou esse caractere de escape dentro.Caminho da pasta curinga: o caminho para a pasta sob o contêiner fornecido. Se você quiser usar um curinga para filtrar a pasta, ignore essa configuração e especifique essas informações nas configurações da fonte de atividade.
Nome do arquivo curinga: o nome do arquivo sob a área não gerenciada do Lakehouse (em Arquivos) e o caminho da pasta.
Lista de arquivos: indica copiar um determinado conjunto de arquivos.
- Caminho da pasta: aponta para uma pasta que inclui os ficheiros que pretende copiar.
- Caminho para a lista de arquivos: aponta para um arquivo de texto que inclui uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho do arquivo configurado.
Recursivamente: Indica se os dados são lidos recursivamente a partir das subpastas ou apenas a partir da pasta especificada. Se habilitado, todos os arquivos na pasta de entrada e suas subpastas são processados recursivamente. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
Formato de arquivo: selecione seu formato de arquivo na lista suspensa. Selecione o botão Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
- Filtrar por última modificação: Os ficheiros são filtrados com base nas datas da última modificação. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
- Hora de início: Os arquivos são selecionados se o tempo da última modificação for maior ou igual ao tempo configurado.
- Hora de término: Os arquivos são selecionados se o tempo da última modificação for menor que o tempo configurado.
- Habilitar descoberta de partição: para arquivos particionados, especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como colunas de origem extras.
- Caminho da raiz da partição: Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.
- Máximo de conexões simultâneas: indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
- Filtrar por última modificação: Os ficheiros são filtrados com base nas datas da última modificação. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
Destino
As propriedades a seguir são suportadas para Lakehouse na guia Destino de uma atividade de cópia.
As seguintes propriedades são necessárias:
Conexão: Selecione uma conexão Lakehouse na lista de conexões. Se não houver conexão, crie uma nova conexão Lakehouse selecionando Mais na parte inferior da lista de conexões. Se você aplicar Usar conteúdo dinâmico para especificar seu Lakehouse, adicione um parâmetro e especifique o ID do objeto Lakehouse como o valor do parâmetro. Para obter seu ID de objeto Lakehouse, abra seu Lakehouse em seu espaço de trabalho e o ID estará depois
/lakehouses/
em seu URL.Pasta raiz: Selecione Tabelas ou Arquivos, que indica a visualização virtual da área gerenciada ou não gerenciada em seu lago. Para obter mais informações, consulte a introdução do Lakehouse.
Se você selecionar Tabelas:
Nome da tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como destino. Ou você pode selecionar Novo para criar uma nova tabela.
Tabela: Ao aplicar Lakehouse com esquemas na conexão, escolha uma tabela existente com um esquema na lista de tabelas ou especifique uma tabela com um esquema como destino. Ou você pode selecionar Novo para criar uma nova tabela com um esquema. Se você não especificar um nome de esquema, o serviço usará dbo como o esquema padrão.
Em Avançado, você pode especificar os seguintes campos:
Ações da tabela: especifique a operação em relação à tabela selecionada.
Acrescentar: Acrescentar novos valores à tabela existente.
- Ativar partição: Esta seleção permite criar partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
- Nome da coluna da partição: selecione entre as colunas de destino no mapeamento de esquemas ao acrescentar dados a uma nova tabela. Quando você acrescenta dados a uma tabela existente que já tem partições, as colunas de partição são derivadas da tabela existente automaticamente. Os tipos de dados suportados são string, integer, booleano e datetime. Format respeita as configurações de conversão de tipo na guia Mapeamento .
- Ativar partição: Esta seleção permite criar partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
Substituir: substitua os dados e o esquema existentes na tabela usando os novos valores. Se esta operação estiver selecionada, você pode ativar a partição na tabela de destino:
- Ativar partição: Esta seleção permite criar partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
- Nome da coluna da partição: selecione entre as colunas de destino no mapeamento de esquemas. Os tipos de dados suportados são string, integer, booleano e datetime. Format respeita as configurações de conversão de tipo na guia Mapeamento .
Ele suporta a viagem no tempo Delta Lake. A tabela substituída tem logs delta para as versões anteriores, que você pode acessar em sua Lakehouse. Você também pode copiar a tabela de versão anterior do Lakehouse, especificando Version na fonte de atividade de cópia.
- Ativar partição: Esta seleção permite criar partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
A versão 2 do Writer é suportada. Você pode encontrar os recursos Delta Lake suportados correspondentes neste artigo.
Se você selecionar Arquivos:
Caminho do arquivo: selecione Procurar para escolher o arquivo que deseja copiar ou preencha o caminho manualmente.
Formato de arquivo: selecione seu formato de arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento de cópia: define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. Você pode escolher Nivelar hierarquia, Mesclar arquivos, Preservar hierarquia ou Adicionar conteúdo dinâmico como seu comportamento de cópia. A configuração de cada configuração é:
Nivelar a hierarquia: Todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
Mesclar arquivos: mescla todos os arquivos da pasta de origem em um arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo de um arquivo de origem para a pasta de origem é idêntico ao caminho relativo de um arquivo de destino para a pasta de destino.
Adicionar conteúdo dinâmico: para especificar uma expressão para um valor de propriedade, selecione Adicionar conteúdo dinâmico. Este campo abre o construtor de expressões onde você pode criar expressões a partir de variáveis de sistema suportadas, saída de atividade, funções e variáveis ou parâmetros especificados pelo usuário. Para obter mais informações sobre a linguagem de expressão, vá para Expressões e funções.
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Tamanho do bloco (MB): especifique o tamanho do bloco em MB ao gravar dados no Lakehouse. O valor permitido está entre 4 MB e 100 MB.
Metadados: defina metadados personalizados ao copiar para o armazenamento de dados de destino. Cada objeto sob a
metadata
matriz representa uma coluna extra. Oname
define o nome da chave de metadados e indica ovalue
valor de dados dessa chave. Se o recurso preservar atributos for usado, os metadados especificados serão unidos/substituídos pelos metadados do arquivo de origem. Os valores de dados permitidos são:
Mapeamento
Para a configuração da guia Mapeamento, se você não aplicar a tabela Lakehouse como seu armazenamento de dados de destino, vá para Mapeamento.
Se você aplicar a tabela Lakehouse como seu armazenamento de dados de destino, exceto a configuração em Mapeamento, poderá editar o tipo para suas colunas de destino. Depois de selecionar Importar esquemas, você pode especificar o tipo de coluna no seu destino.
Por exemplo, o tipo da coluna PersonID na origem é int, e você pode alterá-la para o tipo de cadeia de caracteres ao mapear para a coluna de destino.
Nota
Não há suporte para a edição do tipo de destino atualmente quando a origem é decimal.
Se você escolher Binário como formato de arquivo, o mapeamento não será suportado.
Definições
Para a configuração da guia Configurações, vá para Configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre uma atividade de cópia no Lakehouse.
Fonte da informação
Nome | Descrição | valor | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Ligação | A seção para selecionar sua conexão. | < sua conexão Lakehouse> | Sim | workspaceId artifactId |
Pasta raiz | O tipo da pasta raiz. | • Mesas • Ficheiros |
Não | rootFolder: Tabela ou Arquivos |
Nome da tabela | O nome da tabela que você deseja ler dados. | <o nome da sua tabela> | Sim quando você seleciona Tabelas na pasta raiz | tabela |
Tabela | O nome da tabela com um esquema que você deseja ler dados ao aplicar Lakehouse com esquemas como a conexão. | <sua tabela com um esquema> | Sim quando você seleciona Tabelas na pasta raiz | / |
Para a tabela | ||||
nome do esquema | O nome do esquema. | <o nome do seu esquema> (o padrão é dbo) |
Não | (em source ->datasetSettings ->typeProperties )esquema |
nome da tabela | O nome da tabela. | <o nome da sua tabela> | Sim | tabela |
Carimbo de data/hora | O carimbo de data/hora para consultar um instantâneo mais antigo. | <Carimbo de data/hora> | Não | carimbo de data/horaAsOf |
Versão | A versão para consultar um instantâneo mais antigo. | <Versão> | Não | versãoAsOf |
Colunas adicionais | Colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. | • Nome • Valor |
Não | adicionaisColunas: • nome • valor |
Tipo de caminho de arquivo | O tipo de caminho de arquivo que você usa. | • Caminho do arquivo • Caminho do arquivo curinga • Lista de ficheiros |
Sim quando você seleciona Arquivos na pasta raiz | / |
Caminho do ficheiro | Copie do caminho para uma pasta/arquivo em armazenamento de dados de origem. | <caminho do arquivo> | Sim ao escolher o caminho do arquivo | • folderPath • Nome do ficheiro |
Caminhos curinga | O caminho da pasta com caracteres curinga sob o armazenamento de dados de origem configurado para filtrar pastas de origem. | <caminhos curinga> | Sim ao escolher o caminho do arquivo curinga | • wildcardFolderPath • wildcardFileName |
Folder path | Aponta para uma pasta que inclui ficheiros que pretende copiar. | <caminho da pasta> | Não | folderPath |
Caminho para a lista de arquivos | Indica para copiar um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho configurado. | <caminho para a lista de arquivos> | Não | fileListPath |
Recursivamente | Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. | Selecionar ou desmarcar | Não | recursivo: verdadeiro ou falso |
Formato do ficheiro | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim quando você seleciona Arquivos na pasta raiz | / |
Filtrar por última modificação | Os ficheiros com a hora da última modificação no intervalo [Hora de início, Hora de fim) serão filtrados para processamento posterior. A hora é aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ .Essa propriedade pode ser ignorada, o que significa que nenhum filtro de atributo de arquivo é aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos. |
• Hora de início • Hora de fim |
Não | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar a descoberta de partições | Se as partições devem ser analisadas a partir do caminho do arquivo e adicioná-las como colunas de origem extras. | Selecionado ou não selecionado | Não | enablePartitionDiscovery: true ou false (padrão) |
Caminho da raiz da partição | O caminho raiz da partição absoluta para ler pastas particionadas como colunas de dados. | <o caminho raiz da partição> | Não | partitionRootPath |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Um valor é necessário somente quando você deseja limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Informações sobre o destino
Nome | Descrição | valor | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Ligação | A seção para selecionar sua conexão. | < sua conexão Lakehouse> | Sim | workspaceId artifactId |
Pasta raiz | O tipo da pasta raiz. | • Mesas • Ficheiros |
Sim | rootFolder: Tabela ou Arquivos |
Nome da tabela | O nome da tabela na qual você deseja gravar dados. | <o nome da sua tabela> | Sim quando você seleciona Tabelas na pasta raiz | tabela |
Tabela | O nome da tabela com um esquema no qual você deseja gravar dados ao aplicar Lakehouse com esquemas como conexão. | <sua tabela com um esquema> | Sim quando você seleciona Tabelas na pasta raiz | / |
Para a tabela | ||||
nome do esquema | O nome do esquema. | <o nome do seu esquema> (o padrão é dbo) |
Não | (em sink ->datasetSettings ->typeProperties )esquema |
nome da tabela | O nome da tabela. | <o nome da sua tabela> | Sim | tabela |
Ação da tabela | Acrescente novos valores a uma tabela existente ou substitua os dados e o esquema existentes na tabela usando os novos valores. | • Anexar • Substituir |
Não | tableActionOption: Acrescentar ou SubstituirEsquema |
Ativar partições | Esta seleção permite criar partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file". | Selecionado ou não selecionado | Não | partitionOption: PartitionByKey ou Nenhum |
Colunas de partição | As colunas de destino no mapeamento de esquemas. | <suas colunas de partição> | Não | partitionNameList |
Caminho do ficheiro | Grave dados no caminho para uma pasta/arquivo em armazenamento de dados de destino. | <caminho do arquivo> | Não | • folderPath • Nome do ficheiro |
Formato do ficheiro | O formato de arquivo para seus dados de destino. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim quando você seleciona Arquivos na pasta raiz | / |
Comportamento de cópia | O comportamento de cópia definido quando a origem são arquivos de um armazenamento de dados baseado em arquivo. | • Achatar a hierarquia • Mesclar arquivos • Preservar a hierarquia • Adicione conteúdo dinâmico |
Não | copyComportamento: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Tamanho do bloco (MB) | O tamanho do bloco em MB usado para gravar dados no Lakehouse. O valor permitido está entre 4 MB e 100 MB. | <tamanho do bloco> | Não | blockSizeInMB |
Metadados | O conjunto de metadados personalizados ao copiar para um destino. | • $$LASTMODIFIED • Expressão • Valor estático |
Não | do IdP |