Opções de configuração avançada no Azure Synapse Link
O Azure Synapse Link oferece várias maneiras de escrever e ler seus dados para se adequar a diversos cenários analíticos. Dependendo do seu cenário analítico, você pode escolher uma configuração específica entre as opções abaixo.
Cenário | Aplica-se a | Opções de configuração disponíveis |
---|---|---|
Relatórios operacionais | Tabelas, tabelas e entidades de finanças e operações do Dataverse | A opção Synapse Analytics com Delta lake fornece melhores tempos de resposta de consulta, principalmente aplicáveis para consultar grandes quantidades de dados. Mais informações: Link do Synapse com opção do Delta lake |
Relatórios operacionais | Somente tabelas do Dataverse | O Link do Synapse com opção de configuração "Atualização no local" fornece arquivos CSV em seu data lake que são atualizados quase em tempo real Esta é uma opção herdada disponível para tabelas do Dataverse. Essa opção não tem suporte para tabelas de aplicativos de finanças e operações |
Integração de dados | Tabelas, tabelas e entidades de finanças e operações do Dataverse | A opção "Somente acrescentar fornece arquivos CSV que contêm dados incrementais. Você pode criar pipelines que consomem dados incrementais e preenchem sistemas downstream O recurso Partição de dados especificada pelo usuário permite escolher uma estratégia de particionamento de dados personalizada para tabelas do Dataverse. Os dados da tabela de finanças e operações são particionados pelo sistema com base na estratégia de partição apropriada. Essa opção não está disponível para aplicativos de finanças e operações |
Observação
O Azure Synapse Link for Dataverse era conhecido anteriormente como Exportar para o Data Lake. O serviço foi renomeado em maio de 2021 e continuará a exportar dados para o Azure Data Lake Storage, assim como o Azure Synapse Analytics. A partir de setembro de 2023, o Azure Synapse Link também permite que você escolha dados de aplicativos de finanças e operações do Dynamics 365. Nem todos os padrões de integração são compatíveis com aplicativos de finanças e operações. Para obter orientação sobre a transição do recurso de exportação para data lake em aplicativos de finanças e operações para o Link do Synapse, acesse o Guia de transição.
Este artigo aborda as definições de configuração avançadas disponíveis para tabelas do Dataverse. Estas opções não estão disponíveis para aplicativos de finanças e operações.
- Atualizações no local x gravações somente de acréscimo.
- Particionamento de dados especificado pelo usuário.
Atualizações no local x gravações somente de acréscimo
Ao gravar dados de tabela do Dataverse no Azure Data Lake, com base no valor createdOn
, que é a data e a hora em que o registro foi criado, há duas opções de configurações diferentes. São elas: Atualização no local e Somente acrescentar.
A configuração padrão (para tabelas em que createdOn
está disponível) é fazer uma atualização no local ou executar upsert (atualizar ou inserir) dos dados incrementais no destino. Se a alteração for nova e uma linha correspondente não existir no lake, no caso de uma criação, os arquivos de destino serão verificados e as alterações serão inseridas na partição de arquivo correspondente no lake. Se a alteração for uma atualização e existir uma linha no lake, o arquivo correspondente no lake será atualizado, e não inserido, com os dados incrementais. Em outras palavras, a configuração padrão para todas as alterações CUD (criar, atualizar, excluir) em tabelas do Dataverse, em que createdOn
está disponível, é fazer uma atualização no local no destino, no data lake do Azure.
Você pode mudar o comportamento padrão de uma atualização local usando uma configuração opcional chamada Somente acrescentar. Em vez de uma Atualização no local, no modo Somente acrescentar, dados incrementais de tabelas do Dataverse são acrescentados à partição de arquivo correspondente no lake. Esta é uma configuração por tabela e está disponível como uma caixa de seleção em Avançado>Mostrar configurações avançadas. Para tabelas do Dataverse com Somente acrescentar ativado, todas as alterações CUD são acrescentadas aos arquivos de destino correspondentes no lake de forma incremental. Quando você escolhe esta opção, a estratégia de partição assume o padrão Ano e quando os dados são gravados no data lake, eles são particionados anualmente. Somente acrescentar também é a configuração padrão para tabelas do Dataverse que não têm o valor createdOn
.
Esta tabela descreve como as linhas são tratadas no lake em relação a eventos CUD para cada um das opções de gravação de dados.
Evento | Atualização no local | Somente acrescentar |
---|---|---|
Criar | A linha é inserida no arquivo de partição e se baseia no valor createdOn na linha. |
A linha é adicionada ao final do arquivo de partição e se baseia no valor createdOn do registro. |
Atualizar | Se a linha existir no arquivo de partição, ela será substituída ou atualizada com dados atualizados. Se ela não existir, será inserida no arquivo. | A linha, junto com a versão atualizada, é adicionada ao final do arquivo de partição. |
Excluir | Se a linha existir no arquivo de partição, ela será removida do arquivo. | A linha é adicionada ao final do arquivo de partição com IsDelete column = True . |
Observação
Para tabelas do Dataverse onde Somente acrescentar estiver habilitado, a exclusão de uma linha na origem não excluirá ou removerá a linha do lake. Em vez disso, a linha excluída é acrescentada como uma nova linha no lake e a coluna isDeleted
é definida como Verdadeiro.
A leitura suja (ALLOW_INCONSISTENT_READS) para sem servidor está habilitada para o modo somente anexar. ALLOW_INCONSISTENT_READSsignifica que o usuário é capaz de ler os arquivos que podem ser modificados constantemente enquanto a consulta SELECT
está sendo executada. Os resultados serão consistentes e equivalentes à leitura de um instantâneo do arquivo. (Não é equivalente ao isolamento de instantâneo do banco de dados devido ao tempo de geração de instantâneo diferente.)
Nem todas as alterações CUD serão capturadas em somente anexar: o Synapse Link processa alterações nos dados em grupos ou em "lotes" antes de publicá-los no data lake. Como resultado, se o usuário fizer alterações em um curto intervalo de tempo, nem todas as alterações CUD serão capturadas no data lake.
Veja a seguir mais alguns detalhes sobre quando usar qualquer uma das opções.
- Atualização no local: esta opção é a configuração padrão e recomendada apenas se você quiser se conectar diretamente aos dados no lake e precisa do estado atual (não histórico ou alterações incrementais). O arquivo contém o conjunto de dados completo e pode ser utilizado via Power BI ou copiando todo o conjunto de dados para os pipelines ETL (Extrair, Transferir, Carregar).
- Somente acrescentar: Selecione esta opção se você não estiver se conectando diretamente a dados no lake e desejar copiar dados de forma incremental para outro destino usando pipelines ETL. Esta opção fornece um histórico de alterações para habilitar cenários de IA e ML.
Você pode alternar Mostrar configurações avançadas em Avançado no Azure Synapse Link for Dataverse para personalizar sua estratégia de partição de dados e selecionar opções para gravar no Azure Data Lake.
Particionamento de dados
Quando você grava dados de tabela do Dataverse no Azure Data Lake Storage usando o Azure Synapse Link, as tabelas são particionadas (em vez de um único arquivo) no lake com base no valor createdOn
em cada linha na fonte. A estratégia de partição padrão é por mês e os dados são particionados no Azure Data Lake mensalmente.
Com base na distribuição de dados e volumes de tabelas do Dataverse, você pode optar por particionar seus dados por ano. Com essa opção, quando os dados de tabelas do Dataverse forem gravados no Azure Data Lake, eles serão particionados anualmente com base no valor createdOn
em cada linha na fonte. Para tabelas sem a coluna createdOn
, as linhas de dados serão particionadas em um novo arquivo a cada cinco milhões de registros. Esta é uma configuração por tabela e está disponível como uma caixa de seleção em Avançado>Mostrar configurações avançadas.
Mais detalhes com exemplos de como os dados são tratados no lake com estratégia de partição anual ou mensal: