Azure Stream Analytics からの Azure Data Explorer の出力

[アーティクル]
06/28/2023

Azure Data Explorer は、Web サイト、アプリケーション、モノのインターネット (IoT) デバイスなどのデータソースの多様な大量データの分析の出力として使用できます。 Azure Data Explorer は、ログと利用統計情報データのための高速で拡張性に優れたデータ探索サービスです。最新のソフトウェアによって生成される多数のデータストリームを処理できるため、データを収集、保存、分析できます。このデータは、診断、監視、報告、機械学習、付加的分析の各種機能に利用されます。

Azure Data Explorer では、Azure Event Hubs などの一般サービスへのコネクタ、.NET や Python など、SDK を利用したプログラミングによるインジェスト、探索目的でのエンジンへの直接アクセスなど、さまざまなインジェスト方法をサポートしています。 Azure データエクスプローラーは分析サービスやモデル化サービスと統合され、データをさらに分析したり、視覚化したりできます。

Azure Data Explorer の詳細については、「Azure Data Explorer とは」を参照してください。

Azure portal を使って Azure Data Explorer クラスターを作成する方法の詳細については、「クイックスタート: Azure Data Explorer クラスターとデータベースを作成する」をご覧ください

注意

Azure Stream Analytics からの Azure Data Explorer では、Azure Synapse Data Explorer への出力がサポートされています。 Azure Synapse Data Explorer 内のクラスターに書き込むには、Azure Stream Analytics ジョブの Azure Data Explorer 出力の構成ペインでクラスターの URL を指定します。

出力の構成

次の表に、Azure Data Explorer 出力を作成するためのプロパティの名前とその説明を示します。

プロパティ名	説明
出力エイリアス	クエリの出力をこのデータベースに出力するためにクエリで使用されるフレンドリ名。
サブスクリプション	クラスターに使用する Azure サブスクリプション。
クラスター	クラスターを識別する一意の名前。指定したクラスターに、ドメイン名 <region>.kusto.windows.net が付加されます。名前に使用できるのは、小文字と数字だけです。 4 から 22 文字にする必要があります。
データベース	出力を送信するデータベースの名前。データベース名はクラスター内で一意である必要があります。
認証	Microsoft Entra ID のマネージド ID を使用すると、クラスターが他の Microsoft Entra で保護されたリソース (Azure Key Vault など) に簡単にアクセスできます。 ID は Azure プラットフォームによって管理され、シークレットをプロビジョニングまたはローテーションする必要はありません。マネージド ID の構成は、現在、お使いのクラスターに対して、お客様が管理するキーを有効にする場合にのみサポートされています。
テーブル	出力の書き込み先のテーブル名です。テーブル名は、大文字と小文字が区別されます。このテーブルのスキーマは、ご自分のジョブの出力によって生成されるフィールドの数とその型に正確に一致する必要があります。

パーティション分割

パーティション分割は有効になっている必要があり、クエリの PARTITION BY 句に基づいています。パーティション分割の継承オプションが有効になっている場合は、完全並列化可能なクエリに対する入力のパーティション分割に従います。

Azure Stream Analytics と Azure Data Explorer を使用する状況

Azure Stream Analytics には次の特性があります。

ストリーム処理エンジン: 継続的なストリーミングリアルタイム分析
ジョブベース
メモリ内のテンポラル分析とストリーム処理のための 1 ミリ秒から 7 日間のルックバック期間
1 秒未満の待機時間で Azure Event Hubs と Azure IoT Hub からインジェスト

Azure Data Explorer には次の特性があります。

分析エンジン: オンデマンドの対話型リアルタイム分析
クエリ機能と連動する、永続的なデータストアへのストリーミングデータインジェスト
Event Hubs、IoT Hub、Azure Blob Storage、Azure Data Lake Storage、Kafka、Logstash、Spark、Azure Data Factory からのデータインジェスト
高スループットワークロードの 10 秒から 5 分の待機時間
インジェスト時に更新ポリシーを使用した単純なデータ変換

Azure Stream Analytics と Azure Data Explorer を組み合わせて使用することで、リアルタイム分析の範囲を大幅に拡大できます。いくつかのシナリオを次に示します。

Stream Analytics でリアルタイムに異常を識別し、Azure Data Explorer の対話型探索を通じて異常がなぜ、どのように発生したかを特定します。
Azure Data Explorer で使用するために受信データストリームを Stream Analytics で逆シリアル化します (例: カスタム逆シリアライザーまたはカスタムバイナリ形式を使用して Protobuff 形式を取り込む)。
Azure Data Explorer で使用するために受信データストリームの集計、フィルター処理、エンリッチ、変換を Stream Analytics で実行できます。

その他のシナリオと制限事項

列の名前とデータ型が、Azure Stream Analytics の SQL クエリと Azure Data Explorer のテーブルで一致している必要があります。比較では、大文字と小文字を区別します。
列が Azure Data Explorer クラスターに存在していても、Azure Stream Analytics に存在しない場合、その列は無視されます。 Azure Stream Analytics に存在しない列では、エラーが発生します。
Azure Stream Analytics クエリ内の列の順序は重要ではありません。 Azure Data Explorer テーブルのスキーマによって順序が決まります。
Azure Data Explorer には、インジェストプロセスを最適化することを目的とした、データインジェストの集計 (バッチ処理) ポリシーがあります。既定では、このポリシーは 5 分、1,000 項目、または 1GB のデータに構成されているため、待機時間が生じることがあります。待機時間を短縮するには、「Azure Data Explorer クラスターでのストリーミングインジェストの構成」の手順に従って、クラスターでストリーミングインジェストを有効にしてから、テーブルまたはデータベースを有効にします。集計オプションについては、「IngestionBatching ポリシー」を参照してください。

次のステップ

クイックスタート: Azure Portal を使用して Stream Analytics ジョブを作成する

次の方法で共有