Руководство по принятию решений Microsoft Fabric: выбор хранилища данных

Используйте это справочное руководство и примеры сценариев, которые помогут вам выбрать хранилище данных для рабочих нагрузок Microsoft Fabric.

Свойства хранилища данных

В этой таблице сравниваются хранилища данных, такие как хранилище, lakehouse, datamart и eventhouse на основе тома данных, типа, пользователя разработчика, набора навыков, операций. и другие возможности.

Склад Lakehouse Power BI Datamart Eventhouse
Том данных Не ограничено Не ограничено До 100 ГБ Не ограничено
Тип данных структурированные Неструктурированные, полуструктурированные, структурированные структурированные Неструктурированные, полуструктурированные, структурированные
Основной пользователь разработчика Разработчик хранилища данных, инженер SQL Инженер данных, специалист по обработке и анализу данных Разработчик гражданина Специалист по обработке и анализу данных гражданина, инженер по обработке и анализу данных, специалист по обработке и анализу данных
Основной набор навыков разработчика SQL Spark(Scala, PySpark, Spark SQL, R) Нет кода, SQL Нет кода, KQL, SQL
Данные, упорядоченные по Базы данных, схемы и таблицы Папки и файлы, базы данных и таблицы База данных, таблицы, запросы Базы данных, схемы и таблицы
Операции чтения T-SQL, Spark (поддерживает чтение из таблиц с помощью сочетаний клавиш, пока не поддерживает доступ к представлениям, хранимым процедурам, функциям и т. д.). Spark, T-SQL Spark, T-SQL, Power BI KQL, T-SQL, Spark, Power BI
Операции записи T-SQL Spark(Scala, PySpark, Spark SQL, R) Потоки данных, T-SQL KQL, Spark, экосистема соединителей
Транзакции с несколькими таблицами Да No No Да, для приема нескольких таблиц. См . политику обновления.
Основной интерфейс разработки Скрипты SQL Записные книжки Spark, определения заданий Spark Power BI Набор запросов KQL, база данных KQL
Безопасность Уровень объекта (таблица, представление, функция, хранимая процедура и т. д.), уровень столбца, уровень строки, DDL/DML, динамическое маскирование данных Уровень строк, уровень столбца (для озера, доступ к который выполняется через конечную точку аналитики SQL), уровень таблицы (при использовании T-SQL), ни один из них для Spark Встроенный редактор RLS Безопасность на уровне строк
Доступ к данным с помощью сочетаний клавиш Да, через лейкхаус с помощью трех частей имен Да No Да
Может быть источником для сочетаний клавиш Да (таблицы) Да (файлы и таблицы) No Да
Запрос между элементами Да, запрос между таблицами lakehouse и склада Да, запрос между таблицами lakehouse и склада; запрос между lakehouses (включая сочетания клавиш с помощью Spark) No Да, запрос между базами данных KQL, lakehouses и хранилищами с сочетаниями клавиш

Сценарии

Ознакомьтесь с этими сценариями, чтобы помочь в выборе хранилища данных в Fabric.

Сценарий 1

Сьюзан, профессиональный разработчик, является новым для Microsoft Fabric. Они готовы приступить к очистке, моделированию и анализу данных, но необходимо решить создать хранилище данных или озеро. После просмотра сведений в предыдущей таблице основные точки принятия решений являются доступным набором навыков и потребностью в много табличных транзакциях.

Сьюзан провел много лет в создании хранилищ данных на реляционных ядрах СУБД и знаком с синтаксисом и функциональностью SQL. Думая о более крупной команде, основные потребители этих данных также квалифицированы с помощью аналитических средств SQL и SQL. Сьюзан решает использовать хранилище данных, что позволяет команде взаимодействовать в основном с T-SQL, а также разрешать пользователям Spark в организации получать доступ к данным.

Susan создает новое озеро и обращается к возможностям хранилища данных с помощью конечной точки аналитики SQL Lakehouse. С помощью портала Fabric создаются ярлыки для внешних таблиц данных и их помещают в папку /Tables . Сьюзан теперь может записывать запросы T-SQL, ссылающиеся на сочетания клавиш для запроса данных Delta Lake в lakehouse. Ярлыки автоматически отображаются в виде таблиц в конечной точке аналитики SQL и могут запрашиваться с помощью T-SQL с помощью трех частей.

Сценарий 2

Роб, инженер данных, должен хранить и моделировать несколько терабайт данных в Fabric. Команда имеет сочетание навыков PySpark и T-SQL. Большинство команд, выполняющих запросы T-SQL, являются потребителями, поэтому не требуется записывать инструкции INSERT, UPDATE или DELETE. Остальные разработчики комфортно работают в записных книжках, и так как данные хранятся в Delta, они могут взаимодействовать с аналогичным синтаксисом SQL.

Роб решает использовать lakehouse, который позволяет команде разработчиков данных использовать свои разнообразные навыки против данных, позволяя членам группы, которые высоко квалифицированы в T-SQL использовать данные.

Сценарий 3

Эш, разработчик гражданина, является разработчиком Power BI. Они знакомы с Excel, Power BI и Office. Им необходимо создать продукт данных для бизнес-подразделения. Они знают, что у них нет навыков для создания хранилища данных или озера, и они выглядят слишком много для своих потребностей и объемов данных. Они просматривают сведения в предыдущей таблице и видят, что основные точки принятия решений являются их собственными навыками и их потребность в самообслуживании, отсутствие возможностей кода и объем данных в размере 100 ГБ.

Эш работает с бизнес-аналитиками, знакомыми с Power BI и Microsoft Office, и знает, что у них уже есть подписка на емкость Premium. По мере того как они думают о своей более крупной команде, они понимают, что основные потребители этих данных могут быть аналитиками, знакомыми с безкода и аналитическими инструментами SQL. Эш решает использовать datamart Power BI, который позволяет команде быстро создавать возможности, используя интерфейс без кода. Запросы можно выполнять с помощью Power BI и T-SQL, а также разрешать пользователям Spark в организации также получать доступ к данным.

Сценарий 4

Daisy является бизнес-аналитиком, опытным с помощью Power BI для анализа узких мест цепочки поставок для крупной глобальной розничной сети. Им необходимо создать масштабируемое решение данных, которое может обрабатывать миллиарды строк данных и использовать для создания панелей мониторинга и отчетов, которые можно использовать для принятия бизнес-решений. Данные поступают из растений, поставщиков, грузоотправителей и других источников в различных структурированных, полуструктурированных и неструктурированных форматах.

Daisy решает использовать хранилище событий из-за масштабируемости, времени быстрого отклика, расширенных возможностей аналитики, включая анализ временных рядов, геопространственные функции и режим быстрого прямого запроса в Power BI. Запросы можно выполнять с помощью Power BI и KQL для сравнения текущих и предыдущих периодов, быстрого определения возникающих проблем или обеспечения геопространственного анализа наземных и морских маршрутов.