Microsoft Fabric でカスタム Spark プールを作成する方法

[アーティクル]
11/14/2023

このドキュメントでは、分析ワークロード用に Microsoft Fabric でカスタム Apache Spark プールを作成する方法について説明します。 Apache Spark プールを使用すると、ユーザーは特定の要件に基づいて調整されたコンピューティング環境を作成でき、最適なパフォーマンスとリソース使用率を維持できます。

自動スケーリングの最小と最大のノード数を指定します。これらの値に基づいて、システムではジョブのコンピューティング要件の変化に応じてノードを動的に取得および廃止し、効率的なスケーリングとパフォーマンスの向上を実現します。 Spark プールでの Executor の動的割り当てにより、Executor の手動構成の必要性も軽減されます。代わりに、データボリュームとジョブレベルのコンピューティングニーズに応じて Executor の数が調整されます。このプロセスにより、ユーザーはパフォーマンスの最適化やリソース管理を気にすることなく、ワークロードに集中することができます。

Note

カスタム Spark プールを作成するには、ワークスペースへの管理者アクセス権が必要です。容量管理者は、[Capacity Admin settings](容量管理設定) の [Spark コンピューティング] セクションで [Customized workspace pools](カスタマイズされたワークスペースプール) オプションを有効にする必要があります。詳細については、Fabric 容量のための Spark コンピューティング設定に関する記事を参照してください。

カスタム Spark プールを作成する

ワークスペースに関連付けられている Spark プールを作成または管理するには:

ワークスペースに移動し、[ワークスペース設定] を選択します。
次に、[データエンジニアリング/サイエンス\] オプションを選択してメニューを展開し、[Spark Compute] を選択します。
[新しいプール] オプションを選択します。 [プールの作成] 画面で、Spark プールに名前を付けます。 [ノードファミリ] と、ワークロードのコンピューティング要件に基づいて、使用可能なサイズ ([小]、[中]、[大]、[特大]、[極大]) から [ノードサイズ] も選択します。
カスタムプールの最小ノード構成を 1 に設定することができます。 Fabric Spark では 1 つのノードを持つクラスターに対して復元可能な可用性が提供されるため、ジョブの失敗、障害時のセッションの損失、または小規模な Spark ジョブに対するコンピューティング料金の過払いについて心配する必要はありません。
カスタム Spark プールの自動スケーリングを有効または無効にすることができます。自動スケーリングが有効になっている場合、プールではユーザーが指定した最大ノード制限まで新しいノードが動的に取得され、ジョブの実行後に廃止されます。この機能により、ジョブの要件に基づいてリソースを調整することで、パフォーマンスが向上します。 Fabric の容量 SKU の一部として購入した容量ユニット内に収まるノードのサイズを設定できます。
Spark プールに対して動的な Executor 割り当てを有効にすることもできます。これにより、ユーザー指定の最大バインド内の Executor の最適な数が自動的に決定されます。この機能により、データボリュームに基づいて Executor の数が調整され、パフォーマンスとリソース使用率が向上します。