Configurar o Lakehouse em uma atividade de cópia
Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados de e para o Fabric Lakehouse. Por padrão, os dados são gravados na tabela Lakehouse em V-Order, e você pode ir para Otimização de tabela Delta Lake e V-Order para obter mais informações.
Formato compatível
O Lakehouse tem suporte para os seguintes formatos de arquivo. Confira cada artigo para obter configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato do Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração com suporte
Para a configuração de cada guia em atividade Copy, vá para as seções a seguir, respectivamente.
Geral
Para a configuração da guia Geral, vá para Geral.
Fonte
As seguintes propriedades têm suporte ao Lakehouse na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
Conexão: selecione uma conexão com o Lakehouse na lista de conexões. Se não existir uma conexão, crie uma conexão com o Lakehouse selecionando Mais na parte inferior da lista de conexões. Se você aplicar Usar conteúdo dinâmico para especificar o Lakehouse, adicione um parâmetro e especifique a ID de objeto do Lakehouse como o valor do parâmetro. Para obter sua ID de objeto do Lakehouse, abra seu Lakehouse no seu espaço de trabalho e a ID será exibida
/lakehouses/
na sua URL.Pasta raiz: selecione Tabelas ou Arquivos, o que indica a exibição virtual da área gerenciada ou não gerenciada em seu lake. Para obter mais informações, consulte a introdução ao Lakehouse.
Se você selecionar Tabelas:
Nome da tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como origem. Como alternativa, selecione Novo para criar uma nova tabela.
Tabela: ao aplicar o Lakehouse com esquemas na conexão, escolha uma tabela existente com um esquema na lista de tabelas ou especifique uma tabela com um esquema como origem. Como alternativa, selecione Novo para criar uma nova tabela com um esquema. Quando você não especifica um nome de esquema, o serviço usa dbo como o esquema padrão.
Em Avançado, você pode especificar os seguintes campos:
- Carimbo de data/hora: especifique para consultar um instantâneo mais antigo por carimbo de data/hora.
- Versão: especifique para consultar um instantâneo mais antigo por versão.
- Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.
O leitor versão 1 é compatível. Encontre os recursos correspondentes do Delta Lake com suporte neste artigo.
Se você selecionar Arquivos:
Tipo de caminho do arquivo: escolha Caminho de arquivo, Caminho de arquivo curinga ou Lista de arquivos como tipo de caminho do arquivo. A lista a seguir descreve a configuração de cada definição:
Caminho do arquivo: selecione Procurar para escolher o arquivo que você deseja copiar ou preencha o caminho manualmente.
Caminho do arquivo curinga: especifique o caminho da pasta ou do arquivo com caracteres curinga na área não gerenciada do Lakehouse (em Arquivos) para filtrar as pastas ou os arquivos de origem. Os curingas permitidos são:
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
como escape se o nome real da pasta ou do arquivo tiver curingas ou esse caractere de escape.Caminho da pasta curinga: o caminho para a pasta no contêiner fornecido. Se quiser usar um curinga para filtrar a pasta, ignore essa configuração e especifique essas informações nas configurações de origem da atividade.
Nome do arquivo curinga: o nome do arquivo na área não gerenciada do Lakehouse (em Arquivos) e o caminho da pasta.
Lista de arquivos: indica um determinado conjunto de arquivos para o qual copiar.
- Caminho da pasta: aponta para uma pasta que inclui arquivos que você deseja copiar.
- Caminho para a lista de arquivos: aponta para um arquivo de texto que inclui uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo ao caminho do arquivo configurado.
Recursivamente: indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Se habilitado, todos os arquivos na pasta de entrada e suas subpastas são processados recursivamente. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.
Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione o botão Configurações para configurar o formato do arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
- Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.
- Hora de início: os arquivos serão selecionados se a hora da última modificação for maior ou igual à hora configurada.
- Hora de término: os arquivos serão selecionados se a hora da última modificação for menor que a hora configurada.
- Habilitar descoberta de partição: para arquivos particionados, especifique se as partições devem ser analisadas a partir do caminho do arquivo e adicionadas como colunas de origem adicionais.
- Caminho da raiz da partição: quando a descoberta da partição estiver habilitada, especifique o caminho da raiz absoluta para ler as pastas particionadas como colunas de dados.
- Máximo de conexões simultâneas: indica o limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
- Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.
Destino
As seguintes propriedades têm suporte ao Lakehouse na guia Destino de uma atividade de cópia.
As seguintes propriedades são necessárias:
Conexão: selecione uma conexão com o Lakehouse na lista de conexões. Se não existir uma conexão, crie uma conexão com o Lakehouse selecionando Mais na parte inferior da lista de conexões. Se você aplicar Usar conteúdo dinâmico para especificar o Lakehouse, adicione um parâmetro e especifique a ID de objeto do Lakehouse como o valor do parâmetro. Para obter sua ID de objeto do Lakehouse, abra seu Lakehouse no seu espaço de trabalho e a ID será exibida
/lakehouses/
na sua URL.Pasta raiz: selecione Tabelas ou Arquivos, o que indica a exibição virtual da área gerenciada ou não gerenciada em seu lake. Para obter mais informações, consulte a introdução ao Lakehouse.
Se você selecionar Tabelas:
Nome da tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como destino. Como alternativa, selecione Novo para criar uma nova tabela.
Tabela: ao aplicar o Lakehouse com esquemas na conexão, escolha uma tabela existente com um esquema na lista de tabelas ou especifique uma tabela com um esquema como destino. Como alternativa, selecione Novo para criar uma nova tabela com um esquema. Quando você não especifica um nome de esquema, o serviço usa dbo como o esquema padrão.
Em Avançado, você pode especificar os seguintes campos:
Ações de tabela: especifique a operação na tabela selecionada.
Acrescentar: acrescente novos valores à tabela existente.
- Habilitar Partição: essa seleção permite que você crie partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
- Nome da coluna de partição: selecione entre as colunas de destino no mapeamento de esquemas ao acrescentar dados a uma nova tabela. Quando você acrescenta dados a uma tabela existente que já contém partições, as colunas de partição são derivadas automaticamente da tabela existente. Os tipos de dados com suporte são cadeia de caracteres, inteiro, booliano e datetime. O formato respeita as configurações de conversão de tipo na guia Mapeamento.
- Habilitar Partição: essa seleção permite que você crie partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
Substituir: substitua os dados e o esquema existentes na tabela usando os novos valores. Se essa operação estiver selecionada, você poderá habilitar a partição na tabela de destino:
- Habilitar Partição: essa seleção permite que você crie partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
- Nome da coluna de partição: selecione entre as colunas de destino no mapeamento de esquemas. Os tipos de dados com suporte são cadeia de caracteres, inteiro, booliano e datetime. O formato respeita as configurações de conversão de tipo na guia Mapeamento.
Ele é compatível com viagem no tempo do Delta Lake. A tabela substituída tem logs delta para as versões anteriores e você pode acessá-los em seu Lakehouse. Você também pode copiar a tabela de versão anterior do Lakehouse ao especificar Version (Versão) na origem da atividade Copy.
- Habilitar Partição: essa seleção permite que você crie partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file".
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
O Gravador versão 2 é compatível. Encontre os recursos correspondentes do Delta Lake com suporte neste artigo.
Se você selecionar Arquivos:
Caminho do arquivo: selecione Procurar para escolher o arquivo que você deseja copiar ou preencha o caminho manualmente.
Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento da cópia: define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. É possível escolher Nivelar hierarquia, Mesclar arquivos, Preservar hierarquia ou Adicionar conteúdo dinâmico como seu comportamento de cópia. A configuração de cada configuração é:
Flatten hierarchy: todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
MergeFiles: Mescla todos os arquivos da pasta de origem em um único arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo de um arquivo de origem para a pasta de origem é idêntico ao caminho relativo de um arquivo de destino para a pasta de destino.
Adicionar conteúdo dinâmico: para especificar uma expressão para um valor de propriedade, selecione Adicionar conteúdo dinâmico. Esse campo abre o construtor de expressões, onde é possível criar expressões a partir de variáveis de sistema com suporte, saída de atividade, funções e variáveis ou parâmetros especificados pelo usuário. Para obter informações sobre a linguagem das expressões, acesse Expressões e funções.
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
Tamanho do bloco (MB): especifique o tamanho do bloco em MB ao gravar dados no Lakehouse. O valor permitido é entre 4 MB e 100 MB.
Metadados: defina metadados personalizados ao copiar para o armazenamento de dados de destino. Cada objeto sob a matriz
metadata
representa uma coluna extra. Oname
define o nome chave dos metadados evalue
indica o valor de dados dessa chave. Se o recurso preservar atributos for usado, os metadados especificados serão unificados/substituídos pelos metadados do arquivo de origem. Os valores de dados permitidos são:
Mapeamento
Para a configuração da guia Mapeamento, se você não aplicar a tabela do Lakehouse como seu repositório de dados de destino, vá para Mapeamento.
Se você aplicar a tabela do Lakehouse como seu armazenamento de dados de destino, exceto pela configuração no Mapeamento, você poderá editar o tipo para suas colunas de destino. Depois de selecionar Esquemas de importação, você pode especificar o tipo de coluna em seu destino.
Por exemplo, o tipo da coluna PersonID na origem é int e você pode alterá-lo para o tipo de cadeia de caracteres ao mapear para a coluna de destino.
Observação
A edição do tipo de destino atualmente não é compatível quando sua origem é do tipo decimal.
Se você escolher Binário como o formato de arquivo, não há suporte para o mapeamento.
Configurações
Para a configuração da guia Configurações, vá para Configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre uma atividade de cópia em um Lakehouse.
Informações de origem
Nome | Descrição | Valor | Obrigatório | Propriedade do script JSON |
---|---|---|---|---|
Conexão | A seção para selecionar a conexão. | < sua conexão com o Lakehouse> | Sim | workspaceId artifactId |
Pasta raiz | O tipo da pasta raiz. | • Tabelas • Arquivos |
Não | rootFolder: Tabela ou Arquivos |
Nome da tabela | O nome da tabela para verificar. | <nome da sua tabela> | Sim, ao selecionar Tabelas em Pasta raiz | tabela |
Tabela | O nome da tabela com um esquema para ler os dados ao aplicar o Lakehouse com esquemas como conexão. | <sua tabela com um esquema> | Sim, ao selecionar Tabelas em Pasta raiz | / |
Em Tabela | ||||
nome do esquema | O nome do esquema. | <o nome do esquema> (O padrão é dbo) |
Não | (em source ->datasetSettings ->typeProperties )esquema |
nome da tabela | O nome da tabela. | <o nome da sua tabela> | Sim | tabela |
Timestamp | O carimbo de data/hora para consultar um instantâneo mais antigo. | <timestamp> | Não | timestampAsOf |
Versão | A versão para consultar um instantâneo mais antigo. | <version> | Não | versionAsOf |
Colunas adicionais | Colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último. | • Nome • Valor |
Não | additionalColumns: • nome • valor |
Tipo de caminho do arquivo | O tipo do caminho do arquivo que você usa. | • Caminho do arquivo • Caminho do arquivo curinga • Lista de arquivos |
Sim, ao selecionar Arquivos na Pasta raiz | / |
Caminho do arquivo | Copie do caminho para uma pasta/arquivo no armazenamento de dados de origem. | <caminho do arquivo> | Sim, ao escolher Caminho do arquivo | • folderPath • fileName |
Caminhos curinga | O caminho da pasta com caracteres curinga no armazenamento de dados de origem configurado para filtrar as pastas de origem. | <caminhos curinga> | Sim, ao escolher o caminho do arquivo curinga | • wildcardFolderPath • wildcardFileName |
Caminho da pasta | Aponta para uma pasta que inclui arquivos que você deseja copiar. | >caminho da pasta< | Não | folderPath |
Caminho para a lista de arquivos | Indica a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclui a lista de arquivos que você deseja copiar com um arquivo por linha, que é o caminho relativo para o caminho configurado no conjunto de dados. | <Caminho para a lista de arquivos> | Não | fileListPath |
Recursivamente | Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. | selecionar ou desmarcar | Não | recursivo: true ou false |
Formato de arquivo | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim, ao selecionar Arquivos na Pasta raiz | / |
Filtrar pela última modificação | Os arquivos com a última hora de modificação no intervalo [Hora de início, Hora de término] serão filtrados para processamento posterior. A hora é aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ .Essa propriedade pode ser ignorada, o que significa que nenhum filtro de atributo de arquivo é aplicado. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos. |
• Hora de início • Hora de término |
Não | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar descoberta de partição | Caso precise analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. | Selecionado ou desmarcado | Não | enablePartitionDiscovery: true ou false (padrão) |
Caminho raiz da partição | O caminho raiz da partição absoluta para ler pastas particionadas como colunas de dados. | <seu caminho raiz da partição> | Não | partitionRootPath |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Um valor é necessário somente quando quiser limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Informações de destino
Nome | Descrição | Valor | Obrigatório | Propriedade do script JSON |
---|---|---|---|---|
Conexão | A seção para selecionar a conexão. | < sua conexão com o Lakehouse> | Sim | workspaceId artifactId |
Pasta raiz | O tipo da pasta raiz. | • Tabelas • Arquivos |
Sim | rootFolder: Tabela ou Arquivos |
Nome da tabela | O nome da tabela na qual gravar dados. | <nome da sua tabela> | Sim, ao selecionar Tabelas em Pasta raiz | tabela |
Tabela | O nome da tabela com um esquema para gravar os dados ao aplicar o Lakehouse com esquemas como conexão. | <sua tabela com um esquema> | Sim, ao selecionar Tabelas em Pasta raiz | / |
Em Tabela | ||||
nome do esquema | O nome do esquema. | <o nome do esquema> (O padrão é dbo) |
Não | (em sink ->datasetSettings ->typeProperties )esquema |
nome da tabela | O nome da tabela. | <o nome da sua tabela> | Sim | tabela |
Ação de tabela | Acrescente novos valores a uma tabela existente ou substitua os dados e o esquema existentes na tabela usando os novos valores. | • Acrescentar • Substituir |
Não | tableActionOption: Acrescentar ou substituir esquema |
Habilitar partições | Essa seleção permite a criação de partições em uma estrutura de pastas com base em uma ou várias colunas. Cada valor de coluna distinto (par) é uma nova partição. Por exemplo, "year=2000/month=01/file". | Selecionado ou desmarcado | Não | partitionOption: PartitionByKey ou Nenhum |
Colunas de partição | As colunas de destino no mapeamento de esquemas. | <suas colunas da partição> | Não | partitionNameList |
Caminho do arquivo | Gravar dados no caminho para uma pasta/arquivo no armazenamento de dados de destino. | <caminho do arquivo> | Não | • folderPath • fileName |
Formato de arquivo | O formato de arquivo dos dados de destino. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim, ao selecionar Arquivos na Pasta raiz | / |
Comportamento da cópia | O comportamento de cópia definido quando a origem for de arquivos de um armazenamento de dados baseado em arquivos. | • Nivelar hierarquia • Mesclar arquivos • Preservar hierarquia • Adicionar conteúdo dinâmico |
Não | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Tamanho do bloco (MB) | O tamanho do bloco em MB usado para gravar dados no Lakehouse. O valor permitido é entre 4 MB e 100 MB. | <tamanho do bloco> | Não | blockSizeInMB |
Metadados | Os metadados personalizados definidos ao copiar para um destino. | • $$LASTMODIFIED • Expressão • Valor estático |
Não | metadata |