Лучше вместе: озеро и склад

Область применения:✅ конечная точка аналитики SQL и хранилище в Microsoft Fabric

В этой статье объясняется рабочая нагрузка хранения данных с конечной точкой аналитики SQL Lakehouse и сценариями использования Lakehouse в хранилище данных. Руководство по принятию решений по разработке данных хранилища см . в руководстве по принятию решений Microsoft Fabric: выбор между хранилищем и Lakehouse.

Что такое конечная точка аналитики SQL Lakehouse?

При создании lakehouse в Fabric автоматически создается хранилище.

Конечная точка аналитики SQL позволяет запрашивать данные в Lakehouse с помощью языка T-SQL и протокола TDS. Каждый Lakehouse имеет одну конечную точку аналитики SQL, и каждая рабочая область может иметь более одного Lakehouse. Количество конечных точек аналитики SQL в рабочей области соответствует количеству элементов Lakehouse.

  • Конечная точка аналитики SQL автоматически создается для каждого Lakehouse и предоставляет таблицы Delta из Lakehouse в виде таблиц SQL, которые можно запрашивать с помощью языка T-SQL.
  • Каждая разностная таблица из Lakehouse представлена в виде одной таблицы. Данные должны быть в разностном формате.
  • Семантическая модель Power BI по умолчанию создается для каждой конечной точки аналитики SQL и соответствует соглашению об именовании объектов Lakehouse.

Нет необходимости создавать конечную точку аналитики SQL в Microsoft Fabric. Пользователи Microsoft Fabric не могут создавать конечную точку аналитики SQL в рабочей области. Конечная точка аналитики SQL автоматически создается для каждого Lakehouse. Чтобы получить конечную точку аналитики SQL, создайте lakehouse и конечную точку аналитики SQL автоматически создается для Lakehouse.

Примечание.

За кулисами конечная точка аналитики SQL использует тот же механизм, что и хранилище для обслуживания высокопроизводительных запросов SQL с низкой задержкой.

Автоматическое обнаружение метаданных

Простой процесс считывает разностные журналы и из папки файлов и гарантирует актуальность метаданных SQL для таблиц, таких как статистика. Не требуется никаких действий пользователя, а также не требуется импортировать, копировать данные или настраивать инфраструктуру. Дополнительные сведения см. в статье "Автоматически созданная схема" в конечной точке аналитики SQL.

Сценарии, которые позволяют Lakehouse для хранения данных

В Fabric мы предлагаем один склад.

Lakehouse, с конечной точкой аналитики SQL, на базе хранилища, может упростить традиционное дерево принятия решений пакетной, потоковой передачи или лямбда-архитектуры. Вместе с складом lakehouse обеспечивает множество сценариев аддитивной аналитики. В этом разделе описывается, как использовать Lakehouse вместе с хранилищем для лучшей стратегии аналитики породы.

Аналитика с помощью золотого слоя Fabric Lakehouse

Одна из известных стратегий для организации данных озера — это архитектура медальона, в которой файлы организованы в необработанных (бронзовых), консолидированных (серебряных) и рафинированных (золотых) слоях. Конечная точка аналитики SQL может использоваться для анализа данных в золотом слое архитектуры медальона, если файлы хранятся в Delta Lake формате, даже если они хранятся вне Microsoft Fabric OneLake.

Сочетания клавиш OneLake можно использовать для ссылки на золотые папки во внешних учетных записях хранения Azure Data Lake, управляемых обработчиками Synapse Spark или Azure Databricks.

Хранилища также могут быть добавлены в качестве предметной области или доменных ориентированных решений для конкретных предметных вопросов, которые могут иметь требования к аналитике.

Если вы решили сохранить данные в Fabric, он всегда будет открыт и доступен через API, разностный формат и, конечно, T-SQL.

Запрос в качестве службы по разностным таблицам из Lakehouse и других элементов из концентратора данных OneLake

Существуют случаи использования, когда аналитику, специалисту по обработке и анализу данных может потребоваться запрашивать данные в озере данных. В Fabric это завершение работы полностью SaaSified.

OneLake — это единое, единое, логическое озеро данных для всей организации. OneLake — OneDrive для данных. OneLake может содержать несколько рабочих областей, например, по подразделениям организации. Каждый элемент в Fabric делает данные доступными через OneLake.

Данные в Microsoft Fabric Lakehouse физически хранятся в OneLake со следующей структурой папок:

  • Папка /Files содержит необработанные и неконсолидированные (бронзовые) файлы, которые должны обрабатываться инженерами данных перед их анализом. Файлы могут находиться в различных форматах, таких как CSV, Parquet, различные типы изображений и т. д.
  • Папка /Tables содержит уточненные и консолидированные (золотые) данные, готовые к бизнес-анализу. Консолидированные данные приведены в формате Delta Lake.

Конечная точка аналитики SQL может считывать данные в папке /tables в OneLake. Анализ так же прост, как запрос конечной точки аналитики SQL в Lakehouse. Вместе с хранилищем вы также получаете запросы между базами данных и возможность простого перехода от запросов только для чтения к созданию дополнительной бизнес-логики на основе данных OneLake с помощью хранилища данных Synapse.

Инжиниринг данных с Spark и обслуживанием с помощью SQL

Предприятия, управляемые данными, должны поддерживать внутренние и аналитические системы в практически реальном времени синхронизации с клиентскими приложениями. Влияние транзакций должно точно отражаться в комплексных процессах, связанных приложениях и системах обработки транзакций в сети (OLTP).

В Fabric можно использовать потоковую передачу Spark или Инжиниринг данных для обработки данных. Для проверки качества данных и существующих процессов T-SQL можно использовать конечную точку аналитики SQL Lakehouse. Это можно сделать в архитектуре медальона или в нескольких слоях вашего Lakehouse, обслуживая бронзу, серебро, золото или промежуточные, курированные и уточненные данные. Вы можете настроить папки и таблицы, созданные с помощью Spark, в соответствии с требованиями к проектированию данных и бизнес-требованиям. При готовности хранилище может обслуживать все подчиненные приложения бизнес-аналитики и другие варианты использования аналитики, не копируя данные, используя представления или уточнения данных с помощью CREATE TABLE AS SELECT (CTAS), хранимых процедур и других команд DML или DDL.

Интеграция с золотым слоем Open Lakehouse

Конечная точка аналитики SQL не распространяется на аналитику данных только в Fabric Lakehouse. Конечная точка аналитики SQL позволяет анализировать данные озера в любом озерном доме с помощью Synapse Spark, Azure Databricks или любого другого механизма проектирования данных, ориентированного на озеро. Эти данные можно хранить в Azure Data Lake Storage или Amazon S3.

Эта жесткая двунаправленная интеграция с Fabric Lakehouse всегда доступна через любой механизм с открытыми API, разностным форматом и, конечно, T-SQL.

Виртуализация данных внешних озер данных с сочетаниями клавиш

Сочетания клавиш OneLake можно использовать для ссылки на золотые папки во внешних учетных записях хранения Azure Data Lake, управляемых подсистемами Synapse Spark или Azure Databricks, а также любой разностной таблицей, хранящейся в Amazon S3.

Любая папка, на которую ссылается ярлык, можно проанализировать из конечной точки аналитики SQL, а таблица SQL создается для ссылочных данных. Таблицу SQL можно использовать для предоставления данных во внешних управляемых озерах данных и включения аналитики.

Этот ярлык выступает в качестве виртуального хранилища, который может использовать из хранилища для дополнительных требований нижестоящей аналитики или напрямую запрашивается.

Чтобы проанализировать данные во внешних учетных записях хранения озера данных, выполните следующие действия.

  1. Создайте ярлык, ссылающийся на папку в хранилище Azure Data Lake или учетной записи Amazon S3. После ввода сведений о подключении и учетных данных ярлык отображается в Lakehouse.
  2. Перейдите в конечную точку аналитики SQL в Lakehouse и найдите таблицу SQL с именем, соответствующим ярлыку. Эта таблица SQL ссылается на папку в папке ADLS/S3.
  3. Запросите таблицу SQL, которая ссылается на данные в ADLS/S3. Таблицу можно использовать как любую другую таблицу в конечной точке аналитики SQL. Вы можете присоединить таблицы, ссылающиеся на данные в разных учетных записях хранения.

Примечание.

Если таблица SQL не сразу отображается в конечной точке аналитики SQL, может потребоваться ждать несколько минут. Таблица SQL, ссылающаяся на данные во внешней учетной записи хранения, создается с задержкой.

Анализ архивированных или исторических данных в озере данных

Секционирование данных — это хорошо известный метод оптимизации доступа к данным в озерах данных. Секционированные наборы данных хранятся в иерархических структурах папок в формате/year=<year>/month=<month>/day=<day>, где yearmonthи day являются столбцами секционирования. Это позволяет хранить исторические данные логически разделенными в формате, который позволяет вычислительным модулям считывать данные по мере необходимости с помощью фильтрации, а также считывать весь каталог и все папки и файлы, содержащиеся в нем.

Секционированные данные обеспечивают быстрый доступ, если запросы фильтруются по предикатам, которые сравнивают столбцы предиката со значением.

Конечная точка аналитики SQL может легко считывать этот тип данных без необходимости настройки. Например, можно использовать любое приложение для архивации данных в озеро данных, включая SQL Server 2022 или Управляемый экземпляр SQL Azure. После секционирования данных и приземления его в озере для архивации с внешними таблицами конечная точка аналитики SQL может считывать секционированные таблицы Delta Lake в виде таблиц SQL и позволить организации анализировать их. Это снижает общую стоимость владения, уменьшает дублирование данных и осветит большие данные, ИИ, другие сценарии аналитики.

Виртуализация данных Fabric с сочетаниями клавиш

В Структуре рабочие области позволяют разделить данные на основе сложных бизнес-, географических или нормативных требований.

Конечная точка аналитики SQL позволяет оставить данные на месте и по-прежнему анализировать данные в хранилище или Lakehouse, даже в других рабочих областях Microsoft Fabric с помощью простой виртуализации. Каждый Microsoft Fabric Lakehouse хранит данные в OneLake.

Сочетания клавиш позволяют ссылаться на папки в любом расположении OneLake.

Каждое хранилище Microsoft Fabric хранит данные таблицы в OneLake. Если таблица доступна только для добавления, данные таблицы предоставляются как данные Delta Lake в OneLake. Сочетания клавиш позволяют ссылаться на папки в любом OneLake, где предоставляются таблицы хранилища.

Совместное использование рабочей области и запросы

Хотя рабочие области позволяют разделить данные на основе сложных бизнес-, географических или нормативных требований, иногда необходимо упростить совместное использование в этих строках для конкретных потребностей аналитики.

Конечная точка аналитики SQL Lakehouse позволяет легко обмениваться данными между отделами и пользователями, где пользователь может принести собственную емкость и хранилище. Рабочие области упорядочивают отделы, бизнес-подразделения или аналитические домены. С помощью сочетаний клавиш пользователи могут найти любые данные хранилища или Lakehouse. Пользователи могут мгновенно выполнять собственную настраиваемую аналитику из одних общих данных. Помимо помощи в распределении расходов и распределении расходов отделов, это также версия с нулевым копированием данных.

Конечная точка аналитики SQL позволяет запрашивать любую таблицу и простой общий доступ. Добавленные элементы управления ролями рабочей области и ролями безопасности, которые можно дополнительно сложить в соответствии с дополнительными бизнес-требованиями.

Чтобы включить аналитику данных между рабочими областями, выполните следующие действия.

  1. Создайте ярлык OneLake, ссылающийся на таблицу или папку в рабочей области, к которым можно получить доступ.
  2. Выберите Lakehouse или Warehouse, содержащий таблицу или папку Delta Lake, которую необходимо проанализировать. Выбрав таблицу или папку, в Lakehouse отображается ярлык.
  3. Перейдите в конечную точку аналитики SQL Lakehouse и найдите таблицу SQL, которая имеет имя, соответствующее ярлыку. Эта таблица SQL ссылается на папку в другой рабочей области.
  4. Запросите таблицу SQL, которая ссылается на данные в другой рабочей области. Таблицу можно использовать как любую другую таблицу в конечной точке аналитики SQL. Таблицы, ссылающиеся на данные в разных рабочих областях, можно присоединить.

Примечание.

Если таблица SQL не сразу отображается в конечной точке аналитики SQL, может потребоваться ждать несколько минут. Таблица SQL, которая ссылается на данные в другой рабочей области, создается с задержкой.

Анализ секционированных данных

Секционирование данных — это хорошо известный метод оптимизации доступа к данным в озерах данных. Секционированные наборы данных хранятся в иерархических структурах папок в формате/year=<year>/month=<month>/day=<day>, где yearmonthи day являются столбцами секционирования. Секционированные наборы данных обеспечивают быстрый доступ к данным, если запросы фильтруют данные с помощью предикатов, которые фильтруют данные, сравнивая столбцы предиката со значением.

Конечная точка аналитики SQL может представлять секционированные наборы данных Delta Lake в виде таблиц SQL и позволяют анализировать их.