OneLake, OneDrive для данных
OneLake — это единое, единое, логическое озеро данных для всей организации. Озеро данных обрабатывает большие объемы данных из различных источников. Как и OneDrive, OneLake автоматически поставляется с каждым клиентом Microsoft Fabric и предназначен для единого места для всех данных аналитики. OneLake приносит клиентам:
- Одно озеро данных для всей организации
- Одна копия данных для использования с несколькими аналитическими подсистемами
Прежде чем OneLake, клиентам было проще создавать несколько озер для разных бизнес-групп, а не сотрудничать в одном озере, даже с дополнительными затратами на управление несколькими ресурсами. OneLake фокусируется на удалении этих проблем путем улучшения совместной работы. Каждый клиент клиента имеет ровно один OneLake. Там никогда не может быть несколько, и если у вас есть Fabric, никогда не может быть нуля. Каждый клиент Fabric автоматически подготавливает OneLake без дополнительных ресурсов для настройки или управления ими.
Концепция клиента — это уникальное преимущество службы SaaS. Зная, где начинается и заканчивается организация клиента, обеспечивает естественную границу управления и соответствия требованиям, которая находится под контролем администратора клиента. Все данные, которые приземляется в OneLake, регулируются по умолчанию. Хотя все данные находится в пределах границ, установленных администратором клиента, важно, чтобы этот администратор не стал центральным вратарем, предотвращая участие других частей организации в OneLake.
В клиенте можно создать любое количество рабочих областей. Рабочие области позволяют различным частям организации распространять политики владения и доступа. Каждая рабочая область является частью емкости, привязанной к конкретному региону и выставляется отдельно.
В рабочей области можно создавать элементы данных и получать доступ ко всем данным в OneLake с помощью элементов данных. Аналогично тому, как Office хранит файлы Word, Excel и PowerPoint в OneDrive, Fabric хранит озера, склады и другие элементы в OneLake. Элементы могут предоставлять специализированные возможности для каждого человека, например опыт разработчика Apache Spark в lakehouse.
Дополнительные сведения о начале работы с OneLake см. в статье "Создание озера с помощью OneLake".
OneLake открыт на каждом уровне. OneLake построен на основе Azure Data Lake Storage (ADLS) 2-го поколения и может поддерживать любой тип файла, структурированного или неструктурированного. Все элементы данных Fabric, такие как хранилища данных и озера, автоматически хранят данные в OneLake в формате Delta Parquet. Если инженер данных загружает данные в lakehouse с помощью Apache Spark, а затем разработчик SQL использует T-SQL для загрузки данных в полностью транзакционный хранилище данных, оба способствуют тому же озеру данных. OneLake сохраняет все табличные данные в формате Delta Parquet.
OneLake поддерживает те же API-интерфейсы ADLS 2-го поколения и пакеты SDK для совместимости с существующими приложениями ADLS 2-го поколения, включая Azure Databricks. Вы можете обращаться к данным в OneLake, как если бы это одна большая учетная запись хранения ADLS для всей организации. Каждая рабочая область отображается как контейнер в этой учетной записи хранения, а различные элементы данных отображаются как папки в этих контейнерах.
Дополнительные сведения об API и конечных точках см. в статье OneLake access and API. Примеры интеграции OneLake с Azure см . в статьях Azure Synapse Analytics, обозревателя службы хранилища Azure, Azure Databricks и Azure HDInsight .
OneLake — это OneDrive для данных. Как и в OneDrive, вы можете легко просматривать данные OneLake из Windows с помощью проводника OneLake для Windows. Вы можете перемещаться по всем рабочим областям и элементам данных, легко загружать, загружать или изменять файлы так же, как и в Office. Обозреватель файлов OneLake упрощает работу с озерами данных, позволяя даже нетехническим бизнес-пользователям использовать их.
Дополнительные сведения см . в проводнике OneLake.
OneLake стремится предоставить максимальное значение из одной копии данных без перемещения или дублирования данных. Вам больше не нужно копировать данные только для использования с другим механизмом или для разбиения силосов, чтобы можно было анализировать данные с данными из других источников.
Сочетания клавиш позволяют вашей организации легко обмениваться данными между пользователями и приложениями без необходимости перемещать и дублировать информацию. Если команды работают независимо в отдельных рабочих областях, сочетания клавиш позволяют объединять данные между различными бизнес-группами и доменами в продукт виртуальных данных в соответствии с конкретными потребностями пользователя.
Ярлык — это ссылка на данные, хранящиеся в других расположениях файлов. Эти расположения файлов могут находиться в одной рабочей области или в разных рабочих областях, внутри OneLake или вне OneLake в ADLS, S3 или Dataverse— с большим числом целевых расположений в ближайшее время. Независимо от расположения ярлыки делают файлы и папки похожими на то, что они хранятся локально.
Дополнительные сведения об использовании сочетаний клавиш см . в разделе "Сочетания клавиш OneLake".
Хотя приложения могут иметь разделение хранилища и вычислений, данные часто оптимизированы для одного ядра, что затрудняет повторное использование одних и того же данных для нескольких приложений. С помощью Fabric различные аналитические подсистемы (T-SQL, Apache Spark, Analysis Services и т. д.) хранят данные в открытом формате Delta Parquet, чтобы позволить использовать одни и те же данные в нескольких ядрах.
Больше нет необходимости копировать данные только для использования с другим механизмом. Вы всегда можете выбрать лучший механизм для работы, которую вы пытаетесь сделать. Например, представьте, что у вас есть команда инженеров SQL, создающего полностью транзакционный хранилище данных. Они могут использовать подсистему T-SQL и все возможности T-SQL для создания таблиц, преобразования данных и загрузки данных в таблицы. Если специалист по обработке и анализу данных хочет использовать эти данные, им больше не нужно пройти специальный драйвер Spark/SQL. OneLake сохраняет все данные в формате Delta Parquet. Специалисты по обработке и анализу данных могут использовать полную мощность подсистемы Spark и ее библиотек с открытым кодом непосредственно по данным.
Бизнес-пользователи могут создавать отчеты Power BI непосредственно на основе OneLake с помощью нового режима Direct Lake в подсистеме Служб Analysis Services. Подсистема служб Analysis Services — это функции семантических моделей Power BI, и она всегда предлагает два режима доступа к данным: импорт и прямой запрос. Режим Direct Lake предоставляет пользователям все скорости импорта, не требуя копирования данных, сочетая лучший вариант импорта и прямого запроса. Дополнительные сведения см. в разделе Direct Lake.
Пример схемы загрузки данных с помощью Spark, запроса с помощью T-SQL и просмотра данных в отчете Power BI.