パフォーマンス カウンターを使用した ATA のトラブルシューティング

適用対象: Advanced Threat Analytics Version 1.9

ATA パフォーマンス カウンターは、ATA の各コンポーネントのパフォーマンスに関する分析情報を提供します。 ATA のコンポーネントはデータを順番に処理するため、問題が発生すると、コンポーネントのチェーンに沿ってトラフィックが部分的に破棄される可能性があります。 問題を解決するには、どのコンポーネントがバックファイアを起こしているのかを把握し、連鎖の最初にある問題を解決する必要があります。 パフォーマンス カウンターにあるデータを使用して、各コンポーネントがどのように機能しているかを理解します。 内部 ATA コンポーネントのフローについては、ATA アーキテクチャを参照してください。

ATA コンポーネント プロセス:

  1. コンポーネントが最大サイズに達すると、前のコンポーネントがそれ以上のエンティティを送信するのをブロックします。

  2. その後、最終的に、前のコンポーネントは、その前にコンポーネントをブロックし、より多くのエンティティを送信するまで、独自のサイズを増やし始めます。

  3. これは NetworkListener コンポーネントまで戻り、エンティティを転送できなくなったときにトラフィックがドロップされます。

トラブルシューティングのためのパフォーマンス モニター ファイルの取得

さまざまな ATA コンポーネントからパフォーマンス モニター ファイル (BLG) を取得するには:

  1. perfmon を開きます。
  2. Microsoft ATA Gateway または Microsoft ATA Center という名前のデータ コレクター セットを停止します。
  3. データ コレクター セット フォルダーに移動します (デフォルトでは、これは 「C:\Program Files\Microsoft Advanced Threat Analytics\Gateway\Logs\DataCollectorSets」か「C:\Program Files\Microsoft Advanced Threat Analytics\Center\Logs\DataCollectorSets」です)。
  4. 最近変更された BLG ファイルをコピーします。
  5. Microsoft ATA Gateway または Microsoft ATA Center という名前のデータ コレクター セットを再開します。

ATA ゲートウェイのパフォーマンス カウンター

このセクションでは、ATA ゲートウェイへのすべての参照は、ATA Lightweight Gateway も参照します。

ATA ゲートウェイのパフォーマンス カウンターを追加することで、ATA ゲートウェイのリアルタイム パフォーマンス状態を確認できます。 これを行うには、パフォーマンス モニターを開き、ATA ゲートウェイのすべてのカウンターを追加します。 パフォーマンス カウンター オブジェクトの名前は、Microsoft ATA Gateway です。

注意が必要なメイン ATA ゲートウェイ カウンターの一覧を次に示します。

カウンタ 説明 しきい値 トラブルシューティング
Microsoft ATA Gateway\NetworkListener PEF Parsed Messages\Sec ATA ゲートウェイによって 1 秒ごとに処理されるトラフィックの量。 しきい値なし ATA ゲートウェイによって解析されているトラフィックの量を理解するのに役立ちます。
NetworkListener PEF Dropped Events\Sec ATA ゲートウェイによって 1 秒ごとに取り下げられるトラフィックの量。 この数は常に 0 にする必要があります (まれな短い取り下げのバーストが許容されます)。 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 上記の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。
Microsoft ATA Gateway\NetworkListener ETW Dropped Events\Sec ATA ゲートウェイによって 1 秒ごとに取り下げられるトラフィックの量。 この数は常に 0 にする必要があります (まれな短い取り下げのバーストが許容されます)。 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 上記の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。
Microsoft ATA Gateway\NetworkActivityTranslator Message Data # Block Size ネットワーク アクティビティ (NA) への変換のためにキューに入ったトラフィックの量。 最大 1 未満にする必要があります (デフォルトの最大値: 100,000) 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 上記の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。
Microsoft ATA Gateway\EntityResolver Activity Block Size 解決のためにキューに登録されたネットワーク アクティビティ (NA) の数。 最大 1 未満にする必要があります (デフォルトの最大値: 10,000) 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 上記の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。
Microsoft ATA Gateway\EntitySender Entity Batch Block Size ATA センターに送信されるキューに登録されているネットワーク アクティビティ (NA) の量。 最大 1 未満にする必要があります (デフォルトの最大値: 1,000,000) 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 上記の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。
Microsoft ATA Gateway\EntitySender Batch Send Time 最後のバッチ送信にかかった時間。 ほとんどの場合、1000 ミリ秒未満にする必要があります ATA ゲートウェイと ATA センターの間にネットワークの問題があるかどうかを確認します。

Note

  • 時間カウンターはミリ秒単位です。
  • レポートグラフの種類を使用してカウンターの完全な一覧を監視する方が便利な場合があります (例: すべてのカウンターのリアルタイム監視)

ATA Lightweight Gateway のパフォーマンス カウンター

パフォーマンス カウンターは、Lightweight Gateway のクォータ管理に使用して、ATA がインストールされているドメイン コントローラーから多くのリソースをドレインしないようにすることができます。 ATA が Lightweight Gateway に適用するリソース制限を測定するには、これらのカウンターを追加します。

これを行うには、パフォーマンス モニターを開き、ATA Lightweight Gateway のすべてのカウンターを追加します。 パフォーマンス カウンター オブジェクトの名前は、Microsoft ATA Gateway および Microsoft ATA Gateway Updater です。

カウンタ 説明 しきい値 トラブルシューティング
Microsoft ATA Gateway Updater\GatewayUpdaterResourceManager CPU Time Max % Lightweight Gateway プロセスが消費できる CPU 時間の最大量 (パーセンテージ)。 しきい値なし。 これは、ATA Lightweight Gateway がドメイン コントローラーを使い尽くさないように保護するための制限です。 プロセスが一定期間 (プロセスが制限に達し、トラフィックのドロップを開始します) に頻繁に上限に達する場合は、ドメイン コントローラーを実行しているサーバーにリソースを追加する必要があることを意味します。
Microsoft ATA Gateway Updater\GatewayUpdaterResourceManager Commit Memory Max Size Lightweight Gateway プロセスが消費できるコミット済みメモリの最大量 (バイト単位)。 しきい値なし。 これは、ATA Lightweight Gateway がドメイン コントローラーを使い尽くさないように保護するための制限です。 プロセスが一定期間 (プロセスが制限に達し、トラフィックのドロップを開始します) に頻繁に上限に達する場合は、ドメイン コントローラーを実行しているサーバーにリソースを追加する必要があることを意味します。
Microsoft ATA Gateway Updater\GatewayUpdaterResourceManager Working Set Limit Size Lightweight Gateway プロセスが消費できるコミット済み物理的なメモリの最大量 (バイト単位)。 しきい値なし。 これは、ATA Lightweight Gateway がドメイン コントローラーを使い尽くさないように保護するための制限です。 プロセスが一定期間 (プロセスが制限に達し、トラフィックのドロップを開始します) に頻繁に上限に達する場合は、ドメイン コントローラーを実行しているサーバーにリソースを追加する必要があることを意味します。

実際の消費量を確認するには、次のカウンターを参照してください。

カウンタ 説明 しきい値 トラブルシューティング
Process(Microsoft.Tri.Gateway)%Processor Time Lightweight Gateway プロセスが実際に消費している CPU 時間 (パーセンテージ)。 しきい値なし。 このカウンターの結果を GatewayUpdaterResourceManager CPU Time Max % で見つかった制限と比較します。 プロセスが一定期間 (プロセスが制限に達し、トラフィックのドロップを開始する) に頻繁に上限に達する場合は、Lightweight Gateway に専用のリソースを増やす必要があることを意味します。
Process(Microsoft.Tri.Gateway)\Private Bytes Lightweight Gateway プロセスが実際に消費するコミット済みのメモリ量 (バイト単位)。 しきい値なし。 このカウンターの結果を、GatewayUpdaterResourceManager Commit Memory Max Size で見つかった制限と比較します。 プロセスが一定期間 (プロセスが制限に達し、トラフィックのドロップを開始する) に頻繁に上限に達する場合は、Lightweight Gateway に専用のリソースを増やす必要があることを意味します。
Process(Microsoft.Tri.Gateway)\Working Set Lightweight Gateway プロセスが実際に消費する物理メモリ量 (バイト単位)。 しきい値なし。 このカウンターの結果を、GatewayUpdaterResourceManager Working Set Limit Size で見つかった制限と比較します。 プロセスが一定期間 (プロセスが制限に達し、トラフィックのドロップを開始する) に頻繁に上限に達する場合は、Lightweight Gateway に専用のリソースを増やす必要があることを意味します。

ATA センター パフォーマンス カウンター

ATA センターのパフォーマンス カウンターを追加することで、ATA センターのリアルタイム パフォーマンス状態を確認できます。

これを行うには、パフォーマンス モニターを開き、ATA センターのすべてのカウンターを追加します。 パフォーマンス カウンター オブジェクトの名前は、Microsoft ATA Center です。

注意が必要なメイン ATA センター カウンターの一覧を次に示します。

カウンタ 説明 しきい値 トラブルシューティング
Microsoft ATA Center\EntityReceiver Entity Batch Block Size ATA センターがキュー登録をしたエンティティ バッチの数。 最大 1 未満にする必要があります (デフォルトの最大値: 10,000) 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 前述の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。
Microsoft ATA Center\NetworkActivityProcessor Network Activity Block Size 処理のためにキューに登録されたネットワーク アクティビティ (NA) の数。 最大 1 未満にする必要があります (デフォルトの最大値: 50,000) 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 前述の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。
Microsoft ATA Center\EntityProfiler Network Activity Block Size プロファイルのためにキューに登録されたネットワーク アクティビティ (NA) の数。 最大 1 未満にする必要があります (デフォルトの最大値: 100,000) 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 前述の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。
Microsoft ATA Center\Database * Block Size データベースに書き込まれるキューに入った、特定の種類のネットワーク アクティビティの数。 最大 1 未満にする必要があります (デフォルトの最大値: 50,000) 最大サイズに達したコンポーネント、および NetworkListener まで前のコンポーネントをブロックしているコンポーネントがあるかどうかを確認します。 前述の「ATA コンポーネント プロセス」を参照してください。

CPU またはメモリに問題がないことを確認します。

Note

  • 時間カウンターはミリ秒単位です
  • レポートのグラフの種類を使用してカウンターの完全な一覧を監視する方が便利な場合があります (例: すべてのカウンターのリアルタイム監視)。

オペレーティング システム カウンター

次の表に、注意するメイン オペレーティング システム カウンターを示します。

カウンタ 説明 しきい値 トラブルシューティング
Processor(_Total)% Processor Time プロセッサが非アイドルのスレッドを実行するための経過時間の割合です。 平均で 80% 未満 必要以上に多くの物理メモリを消費している特定のプロセスがあるかどうかを確認します。

プロセッサを追加します。

サーバーあたりのトラフィック量を減らします。

[Processor(_Total)% Processor Time] カウンターは、仮想サーバーでは精度が低い場合があります。この場合、プロセッサーの電力不足をより精密に測定するには、[System\Processor Queue Length] カウンターを使用します。
System\Context Switches\sec すべてのプロセッサが 1 つのスレッドから別のスレッドに切り替える合計レート。 コア数が 5,000 未満* (物理コア) 必要以上に多くの物理メモリを消費している特定のプロセスがあるかどうかを確認します。

プロセッサを追加します。

サーバーあたりのトラフィック量を減らします。

[Processor(_Total)% Processor Time] カウンターは、仮想サーバーでは精度が低い場合があります。この場合、プロセッサーの電力不足をより精密に測定するには、[System\Processor Queue Length] カウンターを使用します。
System\Processor Queue Length 実行する準備が整い、スケジュールを待機しているスレッドの数。 コア数が 5 未満* (物理コア) 必要以上に多くの物理メモリを消費している特定のプロセスがあるかどうかを確認します。

プロセッサを追加します。

サーバーあたりのトラフィック量を減らします。

[Processor(_Total)% Processor Time] カウンターは、仮想サーバーでは精度が低い場合があります。この場合、プロセッサーの電力不足をより精密に測定するには、[System\Processor Queue Length] カウンターを使用します。
Memory\Available MBytes 割り当てに使用できる物理メモリ (RAM) の量。 512 異常にする必要があります 必要以上に多くの物理メモリを消費している特定のプロセスがあるかどうかを確認します。

物理メモリの容量を増やします。

サーバーあたりのトラフィック量を減らします。
LogicalDisk(*)\Avg. Disk sec\Read ディスクからデータを読み取るための平均待機時間 (インスタンスとしてデータベース ドライブを選択する必要があります)。 10 ミリ秒未満にする必要があります 必要以上に多くのデータベース ドライブを使用している特定のプロセスがあるかどうかを確認します。

このドライブが 10 ミリ秒未満の待機時間で現在のワークロードを提供できる場合は、ストレージ チーム/ベンダーにお問い合わせください。 現在のワークロードは、ディスク使用率カウンターを使用して決定できます。
LogicalDisk(*)\Avg. Disk sec\Write ディスクにデータを書き込むための平均待機時間 (インスタンスとしてデータベース ドライブを選択する必要があります)。 10 ミリ秒未満にする必要があります 必要以上に多くのデータベース ドライブを使用している特定のプロセスがあるかどうかを確認します。

このドライブが 10 ミリ秒未満の待機時間で現在のワークロードを提供できる場合は、ストレージ チーム/ベンダーにお問い合わせください。 現在のワークロードは、ディスク使用率カウンターを使用して決定できます。
\LogicalDisk(*)\Disk Reads\sec ディスクに対して読み取り操作を実行する速度。 しきい値なし ディスク使用率カウンターは、ストレージ待機時間のトラブルシューティング時に分析情報を追加できます。
\LogicalDisk(*)\Disk Read Bytes\sec ディスクから読み取りができるバイト/秒の数。 しきい値なし ディスク使用率カウンターは、ストレージ待機時間のトラブルシューティング時に分析情報を追加できます。
\LogicalDisk*\Disk Writes\sec ディスクに対して書き込み操作を実行する速度。 しきい値なし ディスク使用率カウンター (ストレージ待機時間のトラブルシューティング時に分析情報を追加できます)
\LogicalDisk(*)\Disk Write Bytes\sec ディスクに書き込みができるバイト/秒の数。 しきい値なし ディスク使用率カウンターは、ストレージ待機時間のトラブルシューティング時に分析情報を追加できます。

参照