Использование функции обслуживания таблиц для управления разностными таблицами в Fabric

Lakehouse в Microsoft Fabric предоставляет функцию обслуживания таблиц для эффективного управления разностными таблицами и обеспечения их постоянной готовности к аналитике. В этом руководстве описывается функция обслуживания таблиц в Lakehouse и ее возможности.

Ключевые возможности функции обслуживания таблиц Lakehouse:

  • Выполнение обслуживания нерегламентированной таблицы с помощью контекстных действий правой кнопкой мыши в разностной таблице в обозревателе Lakehouse.
  • Применение очистки старых файлов с помощью bin-compaction, V-Order и отмены ссылок на старые файлы.

Примечание.

Для задач расширенного обслуживания, таких как группирование нескольких команд обслуживания таблиц, оркестрация ее на основе расписания, рекомендуется использовать подход, ориентированный на код. Дополнительные сведения см. в статье "Оптимизация таблиц Delta Lake" и статья "V-Order ". Кроме того, можно использовать API Lakehouse для автоматизации операций обслуживания таблиц, чтобы узнать больше об управлении Lakehouse с помощью REST API Microsoft Fabric.

Поддерживаемые типы файлов

Обслуживание таблиц Lakehouse применяется только к таблицам delta Lake. Устаревшие таблицы Hive, использующие PARQUET, ORC, AVRO, CSV и другие форматы, не поддерживаются.

Операции обслуживания таблиц

Функция обслуживания таблиц предлагает три операции.

  • Оптимизация: объединяет несколько небольших файлов Parquet в большой файл. Подсистемы обработки больших данных и все подсистемы Fabric получают преимущества от более крупных размеров файлов. Наличие файлов размером более 128 МБ и оптимально близко к 1 ГБ улучшает распределение сжатия и данных между узлами кластера. Это снижает потребность в сканировании многочисленных небольших файлов для эффективных операций чтения. Это общая рекомендация по выполнению стратегий оптимизации после загрузки больших таблиц.
  • V-Order: применяет оптимизированную сортировку, кодировку и сжатие к файлам Delta Parquet, чтобы обеспечить быстрые операции чтения во всех ядрах Fabric. V-Order происходит во время команды оптимизации и представляется в качестве параметра для группы команд в пользовательском интерфейсе. Дополнительные сведения о V-Order см. в статье "Оптимизация таблицы Delta Lake" и "V-Order".
  • Вакуум: удаляет старые файлы, на которые больше не ссылается журнал разностной таблицы. Файлы должны быть старше порога хранения, а порог хранения по умолчанию — семь дней. Все разностные таблицы в OneLake имеют одинаковый период хранения. Срок хранения файлов одинаков независимо от используемой вычислительной подсистемы Fabric. Это обслуживание важно для оптимизации затрат на хранение. Установка более короткого периода хранения влияет на возможности перемещения по времени Delta. Рекомендуется установить интервал хранения не менее семи дней, так как старые моментальные снимки и незафиксированные файлы по-прежнему могут использоваться параллельными средствами чтения и записи таблиц. Очистка активных файлов с помощью команды VACUUM может привести к сбоям чтения или даже повреждению таблицы, если незафиксированные файлы удалены.

Выполнение нерегламентированного обслуживания таблиц в таблице Delta с помощью Lakehouse

Как использовать эту функцию:

  1. В учетной записи Microsoft Fabric перейдите к нужному Lakehouse.

  2. В разделе "Таблицы обозревателя Lakehouse" щелкните таблицу правой кнопкой мыши или используйте многоточие для доступа к контекстном меню.

  3. Выберите запись меню обслуживания.

  4. Проверьте параметры обслуживания в диалоговом окне для каждого требования. Дополнительные сведения см. в разделе "Операции обслуживания таблиц" этой статьи.

  5. Выберите "Выполнить сейчас ", чтобы выполнить задание обслуживания таблицы.

  6. Отслеживайте выполнение задания обслуживания на панели уведомлений или в Центре мониторинга.

    Снимок экрана: диалоговое окно загрузки таблиц с заполненным именем таблицы.

Как работает обслуживание таблиц?

После выбора запуска задание обслуживания Spark отправляется для выполнения.

  1. Задание Spark отправляется с помощью удостоверений пользователя и привилегий таблицы.
  2. Задание Spark использует емкость Fabric рабочей области или пользователя, отправляющего задание.
  3. Если в таблице выполняется другое задание обслуживания, новое отклонено.
  4. Задания в разных таблицах могут выполняться параллельно.
  5. Задания обслуживания таблиц можно легко отслеживать в Центре мониторинга. Найдите текст TableMaintenance в столбце имени действия на главной странице концентратора мониторинга.