シングルユーザーコンピューティングでのきめ細かなアクセス制御

[アーティクル]
10/19/2024

この記事では、単一ユーザーコンピューティング (汎用または単一ユーザーアクセスモードで構成されたジョブコンピューティング) で実行されるクエリに対するきめ細かいアクセス制御を可能にするデータフィルター機能について説明します。「アクセスモード」を参照してください。

このデータフィルター処理は、サーバーレスコンピューティングを使用してバックグラウンドで実行されます。

シングルユーザーコンピューティングに対する一部のクエリでデータフィルター処理が必要な理由

Unity カタログでは、次の機能を使用して、列と行レベル (詳細なアクセス制御とも呼ばれます) で表形式データへのアクセスを制御できます。

ユーザーが参照されるテーブルからデータを除外したり、フィルターやマスクを適用しているテーブルにクエリを行ったりする場合、次のコンピューティングリソースを制限なく利用できます。

SQL ウェアハウス
共有コンピューティング

ただし、シングルユーザーコンピューティングを使用してこのようなクエリを実行する場合は、コンピューティングとワークスペースが特定の要件を満たしている必要があります。

単一ユーザーのコンピューティングリソースは、Databricks Runtime 15.4 LTS 以上である必要があります。
そのワークスペースが、ジョブ、ノートブック、Delta Live テーブルのサーバーレスコンピューティングで有効である必要があります。

ワークスペースリージョンでサーバーレスコンピューティングがサポートされていることを確認するには、「リージョンで可用性が制限される機能」をご覧ください。

単一ユーザーのコンピューティングリソースとワークスペースがこれらの要件を満たしている場合、きめ細かなアクセス制御を使用するビューまたはテーブルに対してクエリを実行するたびに、データフィルター処理が自動的に実行されます。

具体化されたビュー、ストリーミングテーブル、標準ビューのサポート

動的ビュー、行フィルター、列マスクに加えて、データフィルターを使用すると、Databricks Runtime 15.3 以下を実行している単一ユーザーコンピューティングでサポートされていない次のビューとテーブルに対するクエリも有効になります。

標準ビュー

Databricks Runtime 15.3 以下を実行するシングルユーザーコンピューティングでは、ビューでクエリを実行するユーザーは、ビューによって参照されるテーブルとビューを持っている SELECT 必要があります。つまり、ビューを使用してきめ細かいアクセス制御を提供することはできません。 Databricks Runtime 15.4 とデータフィルター処理では、ビューでクエリを実行するユーザーは、参照先のテーブルとビューへのアクセス許可を必要としません。
ストリーミングテーブル
具体化されたビュー

シングルユーザーコンピューティングでのデータフィルター処理のしくみ

クエリが次のデータベースオブジェクトにアクセスするたびに、単一ユーザーのコンピューティングリソースがクエリをサーバーレスコンピューティングに渡してデータフィルター処理を実行します。

ユーザーが SELECT 権限を持っていないテーブル上に構築されたビュー
動的ビュー
行フィルターまたは列マスクが定義されているテーブル
具体化されたビューとストリーミングテーブル

次の図では、ユーザーは行フィルターが適用された table_1、view_2、table_w_rls に SELECT 権限を持っています。ユーザーは、view_2 によって参照される table_2には SELECT 権限を持っていません。

データフィルター処理のしくみを示す図

フィルター処理は必要ないため、クエリ table_1 は単一ユーザーのコンピューティングリソースによって完全に処理されます。 view_2 および table_w_rls に対するクエリでは、ユーザーがアクセスできるデータを返すにはデータフィルター処理が必要です。これらのクエリは、サーバーレスコンピューティングのデータフィルター機能によって処理されます。

どのようなコストが発生しますか?

お客様は、データフィルター処理の実行に使用するサーバーレスコンピューティングリソースに対して課金されます。価格情報については、「プラットフォームレベルとアドオンを参照してください。

システム課金の使用状況テーブルに対してクエリを実行すると、請求額を確認できます。たとえば、次のクエリでは、ユーザー別にコンピューティングコストを分類します。

SELECT usage_date,
sku_name,
 identity_metadata.run_as,
SUM(usage_quantity) AS `DBUs consumed by FGAC`
FROM system.billing.usage
WHERE usage_date BETWEEN '2024-08-01' AND '2024-09-01'
 AND billing_origin_product = 'FINE_GRAINED_ACCESS_CONTROL'
GROUP BY 1, 2, 3 ORDER BY 1;

データフィルター処理が行われるときのクエリのパフォーマンスを表示する

シングルユーザーコンピューティングの Spark UI には、クエリのパフォーマンスを理解するために使用できるメトリックが表示されます。コンピューティングリソースで実行するクエリごとに、SQL/データフレーム タブにクエリグラフの表現が表示されます。クエリがデータフィルター処理に関係していた場合、UI はグラフの下部に RemoteSparkConnectScan オペレーターノードを表示します。そのノードには、クエリのパフォーマンスを調査するために使用できるメトリックが表示されます。「Apache Spark UI でコンピューティング情報を表示する」をご覧ください。

RemoteSparkConnectScan ノードを示す SparkUI

RemoteSparkConnectScan オペレーターノードを展開すると、次のような質問に対処できるメトリックが表示されます。

データフィルター処理にかかった時間 "リモート実行時間の合計" を確認します。
データフィルター処理後に残った行の数 "行の出力" を確認します。
データフィルター処理後に返されたデータの量 (バイト単位) "行の出力サイズ" を確認します。
パーティション排除され、ストレージから読み取る必要がなかったデータファイルの数 "排除されたファイル" と "排除されたファイルのサイズ" を確認します。
排除できず、ストレージから読み取る必要があったデータファイルの数 "読み取られたファイル" と "読み取られたファイルのサイズ" を確認します。
読み取る必要があったファイルのうち、キャッシュに既にあったファイルの数 "キャッシュヒットサイズ" と "キャッシュミスサイズ" を確認します。

制限事項

行フィルターまたは列マスクが適用されているテーブルに対する書き込みまたは更新のテーブル操作はサポートされません。

具体的には、INSERT, DELETE、UPDATE、REFRESH TABLE、MERGE などの DML 操作はサポートされていません。これらのテーブルには、読み込み (SELECT) のみ可能です。
データフィルターが呼び出されると、自己結合は既定でブロックされますが、これらのコマンドを実行するコンピューティングで spark.databricks.remoteFiltering.blockSelfJoins を false に設定することで許可できます。

1 人のユーザーコンピューティングリソースで自己結合を有効にする前に、データフィルター機能によって処理される自己結合クエリが同じリモートテーブルのさまざまなスナップショットを返す可能性があることに注意してください。

次の方法で共有

シングルユーザーコンピューティングでのきめ細かなアクセス制御

シングルユーザーコンピューティングに対する一部のクエリでデータフィルター処理が必要な理由

具体化されたビュー、ストリーミングテーブル、標準ビューのサポート

シングルユーザーコンピューティングでのデータフィルター処理のしくみ

どのようなコストが発生しますか?

データフィルター処理が行われるときのクエリのパフォーマンスを表示する

制限事項

フィードバック

その他のリソース

次の方法で共有

シングル ユーザー コンピューティングでのきめ細かなアクセス制御

シングル ユーザー コンピューティングに対する一部のクエリでデータ フィルター処理が必要な理由

具体化されたビュー、ストリーミング テーブル、標準ビューのサポート

シングル ユーザー コンピューティングでのデータ フィルター処理のしくみ

どのようなコストが発生しますか?

データ フィルター処理が行われるときのクエリのパフォーマンスを表示する

制限事項

フィードバック

その他のリソース

シングルユーザーコンピューティングでのきめ細かなアクセス制御

シングルユーザーコンピューティングに対する一部のクエリでデータフィルター処理が必要な理由

具体化されたビュー、ストリーミングテーブル、標準ビューのサポート

シングルユーザーコンピューティングでのデータフィルター処理のしくみ

データフィルター処理が行われるときのクエリのパフォーマンスを表示する