データ レイクハウスのパフォーマンス効率

この記事では、パフォーマンス効率の柱のアーキテクチャの原則について説明します。これは、負荷の変化に適応するシステムの能力を指します。

Databricks のパフォーマンス効率のレイクハウス アーキテクチャの図。

パフォーマンス効率の原則

  1. サーバーレス アーキテクチャの使用

    サーバーレス アーキテクチャでは、お客様がクラウドでコンピューティング インフラストラクチャを運用および保守する必要はありません。 これにより、クラウド インフラストラクチャを管理する運用上のオーバーヘッドがなくなり、マネージド サービスがクラウド規模で動作するため、トランザクション コストが削減されます。 また、即時の可用性、すぐに使用できるセキュリティを提供し、最小限の構成や管理しか必要としません。

  2. パフォーマンスのためのワークロードを設計する

    データ エンジニアリング パイプラインなどの繰り返し実行されるワークロードの場合、パフォーマンスを後から考慮する必要はありません。 データは次である必要があります。

    • オブジェクト メモリから効率的に読み取られる。
    • 効率的に変換される。
    • 効率的に公開され、使用される。

    さらに、ほとんどのパイプラインまたは消費パターンでは、システムのチェーンが使用されます。 可能な限り最高のパフォーマンスを実現するには、チェーン全体を考慮して、最高のパフォーマンスが得られるように選択する必要があります。

  3. 開発の範囲内でパフォーマンス テストを実行する

    すべての開発ワークロードは、継続的なパフォーマンス テストを受ける必要があります。 テストにより、コード ベースに対する変更がワークロードのパフォーマンスに悪影響を与えないことを確認します。 テストを実行するための定期的なスケジュールを設定します。 スケジュールされたイベントの一部として、または継続的インテグレーション ビルド パイプラインの一部としてテストを実行します。

    パフォーマンス基準を確立し、ワークロードとサポート インフラストラクチャの現在の効率を特定します。 基準に対してパフォーマンスを測定することで、改善のための戦略を提供でき、アプリケーションがビジネス目標を満たしているかどうかを判断できます。

    パフォーマンスに影響を与える可能性があるボトルネックを特定します。 これらのボトルネックは、コード エラーやサービスの構成ミスが原因で発生する可能性があります。 通常、負荷が増加するとボトルネックが悪化します。

  4. パフォーマンスの監視

    リソースとサービスが引き続きアクセス可能であり、パフォーマンスがユーザーの期待またはワークロードの要件を満たしていることを確認します。 監視は、ボトルネックやリソースの不足を特定し、構成を最適化し、パイプライン/ワークロード エラーを検出するのに役立ちます。

次へ: パフォーマンス効率のベスト プラクティス

パフォーマンス効率のベスト プラクティス」を参照してください。