データレイクハウスのパフォーマンス効率

[アーティクル]
06/17/2024

この記事では、パフォーマンス効率の柱のアーキテクチャの原則について説明します。これは、負荷の変化に適応するシステムの能力を指します。

Databricks のパフォーマンス効率のレイクハウスアーキテクチャの図。

パフォーマンス効率の原則

サーバーレスアーキテクチャの使用

サーバーレスアーキテクチャでは、お客様がクラウドでコンピューティングインフラストラクチャを運用および保守する必要はありません。これにより、クラウドインフラストラクチャを管理する運用上のオーバーヘッドがなくなり、マネージドサービスがクラウド規模で動作するため、トランザクションコストが削減されます。また、即時の可用性、すぐに使用できるセキュリティを提供し、最小限の構成や管理しか必要としません。
パフォーマンスのためのワークロードを設計する

データエンジニアリングパイプラインなどの繰り返し実行されるワークロードの場合、パフォーマンスを後から考慮する必要はありません。データは次である必要があります。
- オブジェクトメモリから効率的に読み取られる。
- 効率的に変換される。
- 効率的に公開され、使用される。
さらに、ほとんどのパイプラインまたは消費パターンでは、システムのチェーンが使用されます。可能な限り最高のパフォーマンスを実現するには、チェーン全体を考慮して、最高のパフォーマンスが得られるように選択する必要があります。
開発の範囲内でパフォーマンステストを実行する

すべての開発ワークロードは、継続的なパフォーマンステストを受ける必要があります。テストにより、コードベースに対する変更がワークロードのパフォーマンスに悪影響を与えないことを確認します。テストを実行するための定期的なスケジュールを設定します。スケジュールされたイベントの一部として、または継続的インテグレーションビルドパイプラインの一部としてテストを実行します。

パフォーマンス基準を確立し、ワークロードとサポートインフラストラクチャの現在の効率を特定します。基準に対してパフォーマンスを測定することで、改善のための戦略を提供でき、アプリケーションがビジネス目標を満たしているかどうかを判断できます。

パフォーマンスに影響を与える可能性があるボトルネックを特定します。これらのボトルネックは、コードエラーやサービスの構成ミスが原因で発生する可能性があります。通常、負荷が増加するとボトルネックが悪化します。
パフォーマンスの監視

リソースとサービスが引き続きアクセス可能であり、パフォーマンスがユーザーの期待またはワークロードの要件を満たしていることを確認します。監視は、ボトルネックやリソースの不足を特定し、構成を最適化し、パイプライン/ワークロードエラーを検出するのに役立ちます。

次へ: パフォーマンス効率のベストプラクティス

「パフォーマンス効率のベストプラクティス」を参照してください。

次の方法で共有

データレイクハウスのパフォーマンス効率

パフォーマンス効率の原則

次へ: パフォーマンス効率のベストプラクティス

フィードバック

その他のリソース

次の方法で共有

データ レイクハウスのパフォーマンス効率

パフォーマンス効率の原則

次へ: パフォーマンス効率のベスト プラクティス

フィードバック

その他のリソース

データレイクハウスのパフォーマンス効率

次へ: パフォーマンス効率のベストプラクティス