OneLake、データ用の OneDrive

OneLake は、組織全体で 1 つに統合された論理データ レイクです。 データ レイクは、さまざまなソースからの大量のデータを処理します。 OneDrive と同様、OneLake はすべての Microsoft Fabric テナントに付属し、すべての分析データの単一の場所になるように設計されています。 OneLake が顧客に提供する内容は次のとおりです。

  • 組織全体に対する 1 つのデータ レイク
  • 複数の分析エンジンで使用するデータの 1 つのコピー

組織全体に対する 1 つのデータ レイク

OneLake より前は、複数のリソースを管理する追加のオーバーヘッドがあっても、1 つのレイクで共同作業するより、さまざまなビジネス グループに複数のレイクを作成するほうが簡単でした。 OneLake では、コラボレーション機能を向上させることで、これらの課題を取り除くことに重点を置いています。 すべての顧客テナントには、OneLake が 1 つだけ含まれます。 複数はあり得ず、Fabric を使用している場合は、ゼロになることもありません。 すべての Fabric テナントは、設定または管理する追加のリソースなしで、自動的に OneLake をプロビジョニングします。

コラボレーションのために既定で分散所有権で管理

テナントという概念は、SaaS サービスの固有の利点です。 顧客の組織がどこからどこまでかを把握して、自然なガバナンスとコンプライアンスの境界を提供し、テナント管理者の管理下に置きます。OneLake に格納されるすべてのデータは既定で管理されます。 すべてのデータはテナント管理者によって設定された境界内に配置されますが、この管理者が、組織の他の部門による OneLake への寄与を妨げるような中央ゲートキーパーにはならない点が重要です。

テナント内に、任意の数のワークスペースを作成できます。 ワークスペースを使用すると、組織のさまざまな部門が所有権とアクセス ポリシーを配布できます。 各ワークスペースは、特定のリージョンに関連付けられている容量の一部であり、個別に課金されます。

OneLake の機能と構造を示す図。

ワークスペース内でデータ項目を作成できます。OneLake 内のすべてのデータには、データ項目経由でアクセスできます。 Office が OneDrive に Word、Excel、PowerPoint の各ファイルを格納するのと同様に、Fabric はレイクハウス、ウェアハウス、およびその他のアイテムを OneLake に格納します。 項目は、レイクハウスでの Apache Spark 開発者エクスペリエンスなどの、各ペルソナに合わせて調整されたエクスペリエンスを提供できます。

OneLake の使用を開始する方法の詳細については、「OneLake を使用してレイクハウスを作成する」を参照してください。

すべてのレベルで利用可能

OneLake は、すべてのレベルで利用できます。 OneLake は、Azure Data Lake (ADLS) Gen2 の上に構築されており、構造化されているかいないかに関係なく、任意の種類のファイルをサポートできます。 データ ウェアハウスやレイクハウスなどのファブリック データ項目はすべて、データを Delta Parquet 形式で OneLake に自動的に格納します。 データ エンジニアが Apache Spark を使用してレイクハウスにデータを読み込み、SQL 開発者が T-SQL を使用して完全にトランザクション データ ウェアハウスでデータに読み込んでいる場合は、どちらも同じデータ レイクの構築に貢献しています。 OneLake は、すべての表形式データを Delta Parquet 形式で格納します。

OneLake は、Azure Databricks を含む既存の ADLS Gen2 アプリケーションとの互換性を維持するため、同じ ADLS Gen2 API と SDK をサポートします。 OneLake のデータは、組織全体に対する 1 つの大きな ADLS ストレージ アカウントであるかのようにアドレス指定できます。 すべてのワークスペースは、そのストレージ アカウント内のコンテナーとして表示され、それらのコンテナー内で、さまざまなデータ項目がフォルダーとして表示されます。

API と SDK を使用して OneLake データにアクセスできるしくみを示す図。

API とエンドポイントの詳細については、OneLake へのアクセスと API に関する記事を参照してください。 OneLake の Azure との統合の例については、Azure Synapse AnalyticsAzure Storage ExplorerAzure DatabricksAzure HDInsight に関する記事を参照してください。

Windows 用 OneLake ファイル エクスプローラー

OneLake はデータ用の OneDrive です。 OneDrive と同様に、Windows 用 OneLake ファイル エクスプローラーを使用して、Windows の OneLake データを簡単に探索することができます。 Office で行う場合と同様に、すべてのワークスペース、データ項目にアクセスして、ファイルを簡単にアップロード、ダウンロード、または変更できます。 OneLake ファイル エクスプローラーを使用すると、データ レイクでの操作が簡素化され、技術者以外のビジネス ユーザーでも使用できるようになります。

詳しくは、「OneLake ファイル エクスプローラー」を参照してください。

データの 1 つのコピー

OneLake は、データの移動や複製をせずに、データの単一コピーから可能な限り最高の価値を提供することをめざしています。 データを別のエンジンで使用したり、サイロを分割して他のソースのデータを使用して分析したりするために、データをコピーする必要はもうありません。

ショートカットを使用すると、データを移動せずにドメインにまたがってデータを接続

ショートカットを使用すると、組織は不要に情報を移動したり複製したりすることなく、ユーザーとアプリケーション間でデータを簡単に共有できます。 チームが別個のワークスペースで独立して作業するとき、ショートカットを使用すると、さまざまなビジネス グループやドメインのデータを仮想データ製品に結合して、ユーザーの特定のニーズに合わせることができます。

ショートカットは、他のファイルの場所に格納されているデータへの参照です。 これらのファイルの場所は、同じワークスペース内または異なるワークスペース間、ADLS、S3、または Dataverse の OneLake 内または OneLake の外部に置くことができます。ターゲットの場所は近々追加される予定です。 ショートカットを使用すると、場所に関係なく、ファイルとフォルダーが、場所に関係なくローカルに格納されているかのように表示されます。

ワークスペースとアイテムにまたがるデータをショートカットが接続するしくみを示す図。

ショートカットの使用方法の詳細については、「OneLake のショートカット」を参照してください。

複数の分析エンジンでデータの 1 つのコピー

アプリケーションではストレージとコンピューティングが分離されている場合がありますが、多くの場合、データは 1 つのエンジン用に最適化されるため、複数のアプリケーションで同じデータを再利用することが困難になります。 Fabric を使用すると、さまざまな分析エンジン (T-SQL、Apache Spark、Analysis Services など) が、オープンな Delta Parquet 形式でデータを格納するため、複数のエンジンにまたがって同じデータを使用できるようになります。

データを別のエンジンで使用するためだけにコピーする必要はもうありません。 実行しようとしているジョブに最適なエンジンを常に選択できます。 たとえば、SQL エンジニアのチームが完全なトランザクション データ ウェアハウスを構築するとします。 T-SQL エンジンと T-SQL のすべての機能を使用して、データの作成、変換、テーブルへのデータの読み込みを行うことができます。 データ サイエンティストがこのデータを利用する場合、特別な Spark/SQL ドライバーを使用する必要はもうありません。 OneLake は、すべてのデータを Delta Parquet 形式で格納します。 データ サイエンティストは、Spark エンジンとそのオープンソース ライブラリの全機能をデータに対して直接使用できます。

ビジネス ユーザーは、Analysis Services エンジンの新しい Direct Lake モードを使用して、OneLake に基づいて直接 Power BI レポートを作成できます。 Analysis Services エンジンは、Power BI セマンティック モデルが利用するもので、データにアクセスするために、常にインポートと直接クエリの 2 つのモードを提供してきました。 Direct Lake モードを使用すると、データをコピーする必要がないため、インポートそのままの速度がユーザーに提供され、インポートと DirectQuery の利点が組み合わされます。 詳細については、「Direct Lake 」を参照してください。

複数のアイテムとエンジンがデータの同じコピーを使用するしくみを示す図。

Spark を使用してデータを読み込み、T-SQL を使用してクエリを実行し、Power BI レポートでデータを表示する例を示す図。