Usar o recurso de manutenção de tabela para gerenciar tabelas delta no Fabric

O Lakehouse no Microsoft Fabric fornece o recurso de manutenção de tabela para gerenciar tabelas delta com eficiência e mantê-las sempre prontas para análises. Este guia descreve o recurso de manutenção de tabela no Lakehouse e seus recursos.

Principais recursos do recurso de manutenção de mesa lakehouse:

  • Execute a manutenção de tabela ad-hoc usando ações contextuais de clique com o botão direito do mouse em uma tabela delta dentro do Lakehouse explorer.
  • Aplique compactação de bin, V-Order e limpeza de arquivos antigos não referenciados.

Nota

Para tarefas de manutenção avançadas, como agrupar vários comandos de manutenção de tabela, orquestrar com base em uma programação, uma abordagem centrada em código é a escolha recomendada. Para saber mais, consulte Otimização da tabela Delta Lake e artigo V-Order . Também é possível usar a API do Lakehouse para automatizar as operações de manutenção de tabelas, para saber mais, consulte Manage the Lakehouse with Microsoft Fabric REST API.

Tipos de ficheiro suportados

A manutenção da mesa Lakehouse aplica-se apenas às mesas delta Lake. As tabelas Hive herdadas que usam PARQUET, ORC, AVRO, CSV e outros formatos não são suportadas.

Operações de manutenção de tabelas

O recurso de manutenção de mesa oferece três operações.

  • Otimizar: Consolida vários arquivos pequenos do Parquet em arquivos grandes. Os mecanismos de processamento de Big Data e todos os mecanismos de malha se beneficiam de ter arquivos maiores. Ter arquivos de tamanho acima de 128 MB e idealmente próximo de 1 GB melhora a compactação e a distribuição de dados entre os nós do cluster. Ele reduz a necessidade de digitalizar vários arquivos pequenos para operações de leitura eficientes. É uma prática recomendada geral executar estratégias de otimização depois de carregar tabelas grandes.
  • V-Order: Aplica classificação, codificação e compactação otimizadas a arquivos de parquet Delta para permitir operações de leitura rápida em todos os mecanismos de malha. V-Order acontece durante o comando otimize e é apresentado como uma opção para o grupo de comandos na experiência do usuário. Para saber mais sobre V-Order, consulte Otimização da tabela Delta Lake e V-Order.
  • Vácuo: Remove arquivos antigos que não são mais referenciados por um log de tabela Delta. Os arquivos precisam ser mais antigos do que o limite de retenção, e o limite de retenção de arquivos padrão é de sete dias. Todas as tabelas delta no OneLake têm o mesmo período de retenção. O período de retenção de arquivos é o mesmo, independentemente do mecanismo de computação Fabric que você está usando. Essa manutenção é importante para otimizar o custo de armazenamento. A definição de um período de retenção mais curto afeta os recursos de viagem no tempo da Delta. É uma prática recomendada geral definir um intervalo de retenção para pelo menos sete dias, porque instantâneos antigos e arquivos não confirmados ainda podem estar em uso pelos leitores e gravadores de tabelas simultâneos. A limpeza de arquivos ativos com o comando VACUUM pode levar a falhas no leitor ou até mesmo corrupção de tabela se os arquivos não confirmados forem removidos.

Execute a manutenção ad-hoc da tabela em uma mesa Delta usando o Lakehouse

Como usar o recurso:

  1. Na sua conta do Microsoft Fabric, navegue até o Lakehouse desejado.

  2. Na seção Tabelas do Lakehouse explorer, clique com o botão direito do mouse na tabela ou use as reticências para acessar o menu contextual.

  3. Selecione a entrada do menu Manutenção .

  4. Verifique as opções de manutenção na caixa de diálogo de acordo com sua necessidade. Para obter mais informações, consulte a seção Operações de manutenção de tabela deste artigo.

  5. Selecione Executar agora para executar o trabalho de manutenção da tabela.

  6. Acompanhe a execução do trabalho de manutenção pelo painel de notificações ou pelo Hub de Monitoramento.

    Captura de ecrã a mostrar a caixa de diálogo carregar para tabelas com o nome da tabela preenchida.

Como funciona a manutenção de mesas?

Depois que Executar agora for selecionado, um trabalho de manutenção do Spark será enviado para execução.

  1. O trabalho do Spark é enviado usando a identidade do usuário e os privilégios de tabela.
  2. O trabalho do Spark consome a capacidade de malha do espaço de trabalho/usuário que enviou o trabalho.
  3. Se houver outro trabalho de manutenção em execução em uma tabela, um novo será rejeitado.
  4. Trabalhos em tabelas diferentes podem ser executados em paralelo.
  5. Os trabalhos de manutenção de tabela podem ser facilmente rastreados no Hub de Monitoramento. Procure o texto "TableMaintenance" na coluna de nome da atividade na página principal do hub de monitoramento.