Configurar o Data Warehouse em uma atividade de cópia

Artigo
05/09/2024

Este artigo descreve como usar a atividade de cópia no pipeline de dados para copiar dados de e para um Data Warehouse.

Configuração suportada

Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.

General (Geral)
Source
Destino
Mapeamento
Definições

Geral

Para a configuração da guia Geral , vá para Geral.

Origem

As propriedades a seguir são suportadas para o Data Warehouse como Origem em uma atividade de cópia.

Captura de ecrã a mostrar o separador origem e a lista de propriedades.

As seguintes propriedades são necessárias:

Tipo de armazenamento de dados: Selecione Espaço de trabalho.
Tipo de armazenamento de dados do espaço de trabalho: selecione Data Warehouse na lista de tipos de armazenamento de dados.
Data Warehouse: selecione um Data Warehouse existente no espaço de trabalho.
Usar consulta: Selecione Tabela, Consulta ou Procedimento armazenado.
- Se você selecionar Tabela, escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela manualmente selecionando a caixa Editar .
- Se você selecionar Consulta, use o editor de consultas SQL personalizado para escrever uma consulta SQL que recupere os dados de origem.
- Se você selecionar Procedimento armazenado, escolha um procedimento armazenado existente na lista suspensa ou especifique um nome de procedimento armazenado como a origem selecionando a caixa Editar .

Em Avançado, você pode especificar os seguintes campos:

Tempo limite da consulta (minutos): Tempo limite para a execução do comando de consulta, com um padrão de 120 minutos. Se essa propriedade for definida, os valores permitidos estarão no formato de um intervalo de tempo, como "02:00:00" (120 minutos).
Nível de isolamento: especifique o comportamento de bloqueio de transação para a fonte SQL.
Opção de partição: especifique as opções de particionamento de dados usadas para carregar dados do Data Warehouse. Você pode selecionar Nenhum ou Intervalo dinâmico.

Se você selecionar Intervalo dinâmico, o parâmetro de partição de intervalo (?AdfDynamicRangePartitionCondition) será necessário ao usar a consulta com paralelo habilitado. Exemplo de consulta: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.
- Nome da coluna de partição: especifique o nome da coluna de origem no tipo inteiro ou data/data/hora (int, smallint, bigint, date, datetime2smalldatetimedatetime, , ou datetimeoffset) que é usado pelo particionamento de intervalo para cópia paralela. Se não for especificado, o índice ou a chave primária da tabela é detetado automaticamente e usado como a coluna de partição.
- Limite superior da partição: O valor máximo da coluna de partição para divisão do intervalo de partições. Esse valor é usado para decidir a passada da partição, não para filtrar as linhas na tabela. Todas as linhas na tabela ou no resultado da consulta são particionadas e copiadas.
- Limite inferior da partição: O valor mínimo da coluna de partição para divisão do intervalo de partições. Esse valor é usado para decidir a passada da partição, não para filtrar as linhas na tabela. Todas as linhas na tabela ou no resultado da consulta são particionadas e copiadas.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.

Destino

As propriedades a seguir são suportadas para o Data Warehouse como Destino em uma atividade de cópia.

Captura de ecrã a mostrar o separador de destino e a lista de propriedades.

As seguintes propriedades são necessárias:

Tipo de armazenamento de dados: Selecione Espaço de trabalho.
Tipo de armazenamento de dados do espaço de trabalho: selecione Data Warehouse na lista de tipos de armazenamento de dados.
Data Warehouse: selecione um Data Warehouse existente no espaço de trabalho.
Tabela: escolha uma tabela existente na lista de tabelas ou especifique um nome de tabela como destino.

Em Avançado, você pode especificar os seguintes campos:

Copiar configurações do comando: especifique as propriedades do comando copiar.
Opções de tabela: especifique se deseja criar automaticamente a tabela de destino se nenhuma existir com base no esquema de origem. Você pode selecionar Nenhum ou Criar tabela automaticamente.
Script de pré-cópia: especifique uma consulta SQL a ser executada antes de gravar dados no Data Warehouse em cada execução. Use essa propriedade para limpar os dados pré-carregados.
Tempo limite de gravação do lote: o tempo de espera para que a operação de inserção do lote seja concluída antes que ela atinja o tempo limite. Os valores permitidos estão no formato de um período de tempo. O valor padrão é "00:30:00" (30 minutos).
Desativar análise de métricas de desempenho: o serviço coleta métricas para copiar otimização de desempenho e recomendações. Se você estiver preocupado com esse comportamento, desative esse recurso.

Cópia direta

A instrução COPY é a principal maneira de ingerir dados em tabelas de depósito. O comando COPY do Data Warehouse dá suporte direto ao Armazenamento de Blobs do Azure e ao Azure Data Lake Storage Gen2 como armazenamentos de dados de origem. Se os dados de origem atenderem aos critérios descritos nesta seção, use o comando COPY para copiar diretamente do armazenamento de dados de origem para o Data Warehouse.

Os dados de origem e o formato contêm os seguintes tipos e métodos de autenticação:

Tipo de armazenamento de dados de origem suportado	Formato suportado	Tipo de autenticação de origem suportado
Armazenamento de Blobs do Azure	Texto delimitado Parquet	Autenticação anónima Autenticação da chave de conta Autenticação de assinatura de acesso compartilhado
Azure Data Lake Storage Gen2	Texto delimitado Parquet	Autenticação da chave de conta Autenticação de assinatura de acesso compartilhado

As seguintes configurações de formato podem ser definidas:
1. Para Parquet: O tipo de compressão pode ser Nenhum, rápido ou gzip.
2. Para DelimitedText:
  1. Delimitador de linha: Ao copiar texto delimitado para o Data Warehouse por meio do comando direct COPY, especifique o delimitador de linha explicitamente (\r; \n; ou \r\n). Somente quando o delimitador de linha do arquivo de origem é \r\n, o valor padrão (\r, \n ou \r\n) funciona. Caso contrário, habilite o preparo para seu cenário.
  2. O valor nulo é deixado como padrão ou definido como string vazia ("").
  3. A codificação é deixada como padrão ou definida como UTF-8 ou UTF-16.
  4. A contagem de linhas ignoradas é deixada como padrão ou definida como 0.
  5. O tipo de compressão pode ser Nenhum ou gzip.
Se a origem for uma pasta, marque a caixa de seleção Recursivamente .
Hora de início (UTC) e Hora de término (UTC) em Filtrar pela última modificação, Prefixo, Habilitar descoberta de partição e Colunas adicionais não são especificadas.

Para saber como ingerir dados no seu Data Warehouse usando o comando COPY, consulte este artigo.

Se o armazenamento de dados e o formato de origem não forem originalmente suportados por um comando COPY, use a cópia em etapas usando o recurso de comando COPY. Ele converte automaticamente os dados em um formato compatível com o comando COPY e, em seguida, chama um comando COPY para carregar dados no Data Warehouse.

Cópia faseada

Quando os dados de origem não forem nativamente compatíveis com o comando COPY, habilite a cópia de dados por meio de um armazenamento de preparo provisório. Nesse caso, o serviço converte automaticamente os dados para atender aos requisitos de formato de dados do comando COPY. Em seguida, ele invoca o comando COPY para carregar dados no Data Warehouse. Finalmente, ele limpa seus dados temporários do armazenamento.

Para usar a cópia em estágios, vá para a guia Configurações e selecione Ativar preparação. Você pode escolher Espaço de trabalho para usar o armazenamento de preparo criado automaticamente no Fabric. Para Externo, o Armazenamento de Blobs do Azure e o Azure Data Lake Storage Gen2 têm suporte como o armazenamento de preparo externo. Você precisa criar uma conexão do Azure Blob Storage ou do Azure Data Lake Storage Gen2 primeiro e, em seguida, selecionar a conexão na lista suspensa para usar o armazenamento de preparo.

Observe que você precisa garantir que o intervalo de IP do Data Warehouse tenha sido permitido corretamente a partir do armazenamento de preparação.

Mapeamento

Para a configuração da guia Mapeamento, se você não aplicar o Data Warehouse com a tabela de criação automática como destino, vá para Mapeamento.

Se você aplicar o Data Warehouse com a tabela de criação automática como destino, exceto a configuração em Mapeamento, poderá editar o tipo para suas colunas de destino. Depois de selecionar Importar esquemas, você pode especificar o tipo de coluna no seu destino.

Por exemplo, o tipo da coluna ID na origem é int, e você pode alterá-lo para o tipo float ao mapear para a coluna de destino.

Captura de ecrã do tipo de coluna de destino do mapeamento.

Definições

Para a configuração da guia Configurações, vá para Configurações.

Resumo da tabela

As tabelas a seguir contêm mais informações sobre uma atividade de cópia no Data Warehouse.

Fonte da informação

Nome	Descrição	valor	Necessário	Propriedade de script JSON
Tipo de armazenamento de dados	Seu tipo de armazenamento de dados.	Área de trabalho	Sim	/
Tipo de armazenamento de dados do espaço de trabalho	A seção para selecionar o tipo de armazenamento de dados do espaço de trabalho.	Armazém de Dados	Sim	tipo
Armazém de Dados	O Data Warehouse que pretende utilizar.	<O seu armazém de dados>	Sim	endpoint artifactId
Utilizar consulta	A maneira de ler dados do Data Warehouse.	• Mesas • Consulta • Procedimento armazenado	Não	(em `typeProperties` ->`source`) • typeProperties: esquema tabela • sqlReaderQuery • sqlReaderStoredProcedureName
Tempo limite da consulta (minutos)	Tempo limite para execução do comando de consulta, com um padrão de 120 minutos. Se essa propriedade for definida, os valores permitidos estarão no formato de um intervalo de tempo, como "02:00:00" (120 minutos).	timespan	Não	queryTimeout
Nível de isolamento	O comportamento de bloqueio de transação para a origem.	• Nenhum • Instantâneo	Não	Nível de isolamento
Opção de partição	As opções de particionamento de dados usadas para carregar dados do Data Warehouse.	• Nenhum • Alcance dinâmico	Não	partitionOption
Nome da coluna da partição	O nome da coluna de origem no número inteiro ou no tipo data/data/hora (`int`, `smallint`, `bigint`, `date`, `datetimesmalldatetimedatetime2`, , ou `datetimeoffset`) que é usado pelo particionamento de intervalo para cópia paralela. Se não for especificado, o índice ou a chave primária da tabela é detetado automaticamente e usado como a coluna de partição.	<nome da coluna da partição>	Não	partitionColumnName
Limite superior da partição	O valor máximo da coluna de partição para divisão do intervalo de partições. Esse valor é usado para decidir a passada da partição, não para filtrar as linhas na tabela. Todas as linhas na tabela ou no resultado da consulta são particionadas e copiadas.	<limite superior da partição>	Não	partiçãoUpperBound
Limite inferior da partição	O valor mínimo da coluna de partição para divisão do intervalo de partições. Esse valor é usado para decidir a passada da partição, não para filtrar as linhas na tabela. Todas as linhas na tabela ou no resultado da consulta são particionadas e copiadas.	<limite inferior da partição>	Não	partiçãoLowerBound
Colunas adicionais	Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem.	• Nome • Valor	Não	adicionaisColunas: • nome • valor

Informações sobre o destino

Nome	Descrição	valor	Necessário	Propriedade de script JSON
Tipo de armazenamento de dados	Seu tipo de armazenamento de dados.	Área de trabalho	Sim	/
Tipo de armazenamento de dados do espaço de trabalho	A seção para selecionar o tipo de armazenamento de dados do espaço de trabalho.	Armazém de Dados	Sim	tipo
Armazém de Dados	O Data Warehouse que pretende utilizar.	<O seu armazém de dados>	Sim	endpoint artifactId
Tabela	A tabela de destino para gravar dados.	<Nome da tabela de destino>	Sim	Esquema tabela
Copiar configurações do comando	As configurações da propriedade copy command. Contém as configurações de valor padrão.	Valor predefinido: • Coluna • Valor	Não	copyCommandSettings: defaultValues: • nome_coluna • defaultValue
Opção de tabela	Se a tabela de destino deve ser criada automaticamente se nenhuma existir com base no esquema de origem.	• Nenhum • Criação automática de tabelas	Não	tableOption: • Criação automática
Script de pré-cópia	Uma consulta SQL a ser executada antes de gravar dados no Data Warehouse em cada execução. Use essa propriedade para limpar os dados pré-carregados.	<script de pré-cópia>	Não	pré-CopyScript
Tempo limite de gravação em lote	O tempo de espera para que a operação de inserção de lote termine antes que ela atinja o tempo limite. Os valores permitidos estão no formato de um período de tempo. O valor padrão é "00:30:00" (30 minutos).	timespan	Não	writeBatchTimeout
Desative a análise de métricas de desempenho	O serviço coleta métricas para otimização de desempenho de cópia e recomendações, que introduzem acesso adicional ao banco de dados mestre.	Selecionar ou desmarcar	Não	disableMetricsCollection: verdadeiro ou falso

Visão geral do conector do Data Warehouse

Partilhar via

Configurar o Data Warehouse em uma atividade de cópia

Configuração suportada

Geral

Origem

Destino

Cópia direta

Cópia faseada

Mapeamento

Definições

Resumo da tabela

Fonte da informação

Informações sobre o destino

Comentários

Recursos adicionais

Partilhar via

Configurar o Data Warehouse em uma atividade de cópia

Configuração suportada

Geral

Origem

Destino

Cópia direta

Cópia faseada

Mapeamento

Definições

Resumo da tabela

Fonte da informação

Informações sobre o destino

Conteúdos relacionados

Comentários

Recursos adicionais