データ レイクハウスのパフォーマンス効率
この記事では、パフォーマンス効率の柱のアーキテクチャの原則について説明します。これは、負荷の変化に適応するシステムの能力を指します。
パフォーマンス効率の原則
サーバーレス アーキテクチャの使用
サーバーレス アーキテクチャでは、お客様がクラウドでコンピューティング インフラストラクチャを運用および保守する必要はありません。 これにより、クラウド インフラストラクチャを管理する運用上のオーバーヘッドがなくなり、マネージド サービスがクラウド規模で動作するため、トランザクション コストが削減されます。 また、即時の可用性、すぐに使用できるセキュリティを提供し、最小限の構成や管理しか必要としません。
パフォーマンスのためのワークロードを設計する
データ エンジニアリング パイプラインなどの繰り返し実行されるワークロードの場合、パフォーマンスを後から考慮する必要はありません。 データは次である必要があります。
- オブジェクト メモリから効率的に読み取られる。
- 効率的に変換される。
- 効率的に公開され、使用される。
さらに、ほとんどのパイプラインまたは消費パターンでは、システムのチェーンが使用されます。 可能な限り最高のパフォーマンスを実現するには、チェーン全体を考慮して、最高のパフォーマンスが得られるように選択する必要があります。
開発の範囲内でパフォーマンス テストを実行する
すべての開発ワークロードは、継続的なパフォーマンス テストを受ける必要があります。 テストにより、コード ベースに対する変更がワークロードのパフォーマンスに悪影響を与えないことを確認します。 テストを実行するための定期的なスケジュールを設定します。 スケジュールされたイベントの一部として、または継続的インテグレーション ビルド パイプラインの一部としてテストを実行します。
パフォーマンス基準を確立し、ワークロードとサポート インフラストラクチャの現在の効率を特定します。 基準に対してパフォーマンスを測定することで、改善のための戦略を提供でき、アプリケーションがビジネス目標を満たしているかどうかを判断できます。
パフォーマンスに影響を与える可能性があるボトルネックを特定します。 これらのボトルネックは、コード エラーやサービスの構成ミスが原因で発生する可能性があります。 通常、負荷が増加するとボトルネックが悪化します。
パフォーマンスの監視
リソースとサービスが引き続きアクセス可能であり、パフォーマンスがユーザーの期待またはワークロードの要件を満たしていることを確認します。 監視は、ボトルネックやリソースの不足を特定し、構成を最適化し、パイプライン/ワークロード エラーを検出するのに役立ちます。
次へ: パフォーマンス効率のベスト プラクティス
「パフォーマンス効率のベスト プラクティス」を参照してください。