データ品質と品質の監視

Azure Operator Insights プラットフォームで動作するすべてのデータ製品には、データ品質監視のサポートが組み込まれています。 データ品質は、意思決定のための正確で信頼性の高い信頼できる情報を保証するため、重要です。 コストのかかる間違いを防ぎ、顧客や規制機関との信頼を築き、パーソナライズされたエクスペリエンスを実現します。

Azure Operator Insights プラットフォームは、データがデータ製品の入力ストレージに取り込まれるとき (次の図のデータ製品入力ブロック)、およびデータが処理されて顧客が利用できるようになるとき (次の図のデータ製品コンピューティング ブロック) に、データ品質を監視します。

Azure Operator Insights のインジェスト エージェントとデータ製品の図

品質ディメンション

品質ディメンションは、データの品質を定義するさまざまな側面または特性です。 Azure Operator Insights では、次のディメンションがサポートされています。

  • 精度 - 正確な名前、住所、最新のデータなど、データが現実をどの程度反映しているかを示します。 データ精度が高い場合、信頼できる分析を生成し、正しいレポート作成と信頼できる意思決定につながります。
  • 完全性 - 特定の用途に必要なすべてのデータが存在し、使用できるかどうかを示します。 完全性は、データ項目レベルだけでなくレコード レベルでも適用されます。 完全性は、不足しているデータが、データからの分析情報の信頼性に影響を与えるかどうかを理解するのに役立ちます。
  • 一意性 - データセットに重複が存在しないことを意味します。
  • 整合性 - 同じデータ要素が異なるソース間または時間の経過の前後で矛盾していないかを示します。 整合性により、データが均一になり、異なるソース間で比較できるようになります。
  • 適時性 - データが最新で、必要に応じて使用できるかどうかを示します。 適時性により、データが関連性を持ち、意思決定に役立つようになります。
  • 有効性 - 定められたルールまたは制約のセットにデータが準拠しているかどうかを示します。

メトリック

すべてのデータ品質ディメンションは、Azure Operator Insights プラットフォームによって生成される品質メトリックによってカバーされます。 品質メトリックには、次の 2 種類があります。

  • 基本 - すべてのデータ製品に対する標準のチェック セット。
  • カスタム - カスタム化されたチェック セット。すべてのデータ製品が、その製品に固有のチェックを実装できます。

プラットフォームによって生成される基本的な品質メトリックを次の表に示します。

メトリック 分析コード データ ソース
取り込まれた行の数 適時性 取り込み済み
必要な列に null を含む行の数 Completeness 取り込み済み
スキーマに対する検証に失敗した行数 有効期限までの日数 取り込み済み
フィルター処理された行の数 Completeness 取り込み済み
処理された行の数 適時性 処理済
必要なデータが含まれていない不完全な行の数 Completeness 処理済
重複する行の数 一意性 処理済
レコード生成時からクエリ使用可となるまでの間の全体ラグのパーセンタイル 適時性 処理済
レコード生成時から入力ストレージへの取り込みまでの間のラグのパーセンタイル 適時性 処理済
データの取り込みから処理までの間のラグのパーセンタイル 適時性 処理済
データの処理からクエリ使用可となるまでの間のラグのパーセンタイル 適時性 処理済
具体化されたビューの経過時間 適時性 処理済

カスタム データ品質メトリックは、データ製品ごとに実装されます。 これらのメトリックは、正確性と整合性のディメンションをカバーします。 データ製品のドキュメントには、使用できるカスタム品質メトリックの説明が含まれています。

監視

すべての Azure Operator Insight データ製品は、品質メトリックを示すダッシュボードと共にデプロイされます。 ダッシュボードを使用して、データの品質を監視できます。

すべてのデータ品質メトリックは、データ製品 ADX テーブルに保存されます。 データ品質メトリックを探索するために、標準のデータ製品 KQL エンドポイントを使用し、必要に応じてダッシュボードを拡張できます。