Что такое хранение данных в Microsoft Fabric?

Область применения:✅ конечная точка аналитики SQL и хранилище в Microsoft Fabric

Microsoft Fabric — это решение для хранения данных следующего поколения в Microsoft Fabric.

Хранилище, ориентированное на озера, основано на распределенном обработчике распределенной обработки корпоративного класса, который обеспечивает существующую в отрасли производительность в масштабе, минимизируя потребность в настройке и управлении. Жизнь в озере данных и предназначенная для поддержки открытых форматов данных, хранилище данных Fabric позволяет легко работать между инженерами данных и бизнес-пользователями без ущерба для безопасности или управления.

Простой интерфейс SaaS также тесно интегрирован с Power BI для простого анализа и создания отчетов, конвергентного мира озер данных и складов и значительно упрощает инвестиции организаций в их аналитику. 

Клиенты хранилища данных получают следующие преимущества:

  • Данные, хранящиеся в формате Delta-parquet, позволяют транзакциям ACID и взаимодействию с другими рабочими нагрузками Fabric означает, что вам не требуется несколько копий данных.
  • Межбазовые запросы могут использовать несколько источников данных для быстрого анализа с нулевым дублированием данных.
  • Легко прием, загрузка и преобразование данных в масштабе с помощью конвейеров, потоков данных , межбазовых запросов или команды COPY INTO.
  • Управление автономными рабочими нагрузками с помощью подсистемы обработки распределенных запросов в отрасли означает отсутствие ручки для достижения оптимальной производительности класса.
  • Масштабируйте практически мгновенно для удовлетворения потребностей бизнеса. Хранилище и вычислительные ресурсы разделены.
  • Сокращение времени для аналитики с помощью удобной и постоянно подключенной семантической модели, интегрированной с Power BI в режиме Direct Lake. Отчеты всегда имеют последние данные для анализа и отчетности.
  • Создан для любого уровня навыков от разработчика граждан до DBA или инженера данных.

Элементы хранения данных

Хранилище Fabric не является традиционным корпоративным хранилищем данных, это хранилище озера, которое поддерживает два отдельных элемента хранения: хранилище данных Fabric и конечную точку аналитики SQL. Оба предназначены для удовлетворения потребностей клиентов в бизнесе, обеспечивая лучшую производительность класса, минимизируя затраты и сокращая административные расходы.

Synapse Data Warehouse

В рабочей области Microsoft Fabric хранилище данных Synapse или хранилище помечены как "Хранилище" в столбце "Тип ". Если вам нужны полные возможности питания и транзакций (поддержка запросов DDL и DML) хранилища данных, это быстрое и простое решение.

Снимок экрана: тип хранилища в рабочей области.

Хранилище можно заполнить любым из поддерживаемых методов приема данных, таких как COPY INTO, Pipelines, Dataflows или cross database ingestion, например CREATE TABLE AS SELECT (CTAS), INSERT.. SELECT или SELECT INTO.

Сведения о начале работы с хранилищем см. в следующих статье:

Создание хранилища в Microsoft Fabric

Конечная точка аналитики SQL в Lakehouse

В рабочей области Microsoft Fabric каждый Lakehouse имеет автоматически созданную конечную точку аналитики SQL, которая может использоваться для перехода с представления Lakehouse (который поддерживает проектирование данных и Apache Spark) в представление "SQL" для создания представлений, функций, хранимых процедур и применения безопасности SQL.

Снимок экрана: тип конечной точки аналитики SQL в рабочей области.

С помощью конечной точки аналитики SQL в Lakehouse команды T-SQL могут определять и запрашивать объекты данных, но не управлять ими или изменять данные. В конечной точке аналитики SQL можно выполнить следующие действия:

  • Запросите таблицы, ссылающиеся на данные в папках Delta Lake в озере.
  • Создайте представления, встроенные tvfs и процедуры для инкапсулировать семантику и бизнес-логику в T-SQL.
  • Управление разрешениями для объектов.

Сведения о начале работы с конечной точкой аналитики SQL см. в следующих статье:

Склад или озеро

При выборе между использованием хранилища или озера важно учитывать конкретные потребности и контексты управления данными и аналитических требований. В равной степени важно, это не один способ решения!

Вы всегда можете добавить одну или другую в более позднюю точку, если бизнес-потребности изменяются и независимо от того, где вы начинаете, как склад, так и lakehouse используют один и тот же мощный обработчик SQL для всех запросов T-SQL.

Ниже приведены некоторые общие рекомендации, которые помогут вам принять решение:

  • Выберите хранилище данных, если требуется решение корпоративного масштаба с открытым стандартным форматом, производительность нобок и минимальная настройка.  Лучше всего подходит для полуструктурированных и структурированных форматов данных, хранилище данных подходит как для начинающих, так и для опытных специалистов по данным, предлагая простой и интуитивно понятный интерфейс.

  • Выберите lakehouse, если требуется большой репозиторий высокоструктурированных данных из разнородных источников, используя хранилище объектов с низкой стоимостью и хотите использовать SPARK в качестве основного средства разработки. Выступая в качестве "упрощенного" хранилища данных, вы всегда можете использовать конечную точку SQL и средства T-SQL для доставки отчетов и сценариев аналитики данных в lakehouse.

Более подробное руководство по принятию решений см . в руководстве по принятию решений Microsoft Fabric: выбор между хранилищем и Lakehouse.