Stream Analytics のノーコード エディターを使用し、データをエンリッチしてイベント ハブに取り込む

この記事では、ノーコード エディターを使用して Stream Analytics ジョブを簡単に作成する方法について説明します。 Event Hubs から継続的に読み取り、SQL 参照データで受信データをエンリッチしてから、結果をイベント ハブに継続的に書き込みます。

前提条件

  • お使いの Azure Event Hubs と SQL 参照データ リソースが、パブリックにアクセスでき、ファイアウォールの内側に配置されたり、Azure Virtual Network でセキュリティ保護されたりしていない必要があります
  • Event Hubs のデータは、JSON、CSV、または Avro 形式でシリアル化される必要があります。

イベント ハブ データをエンリッチするための Stream Analytics ジョブを開発する

  1. Azure portal で、Azure Event Hubs インスタンスを見つけて選択します。

  2. [機能]>[データの処理] を選択し、[データのエンリッチおよびイベント ハブへの取り込み] カードで [開始] を選択します。

    [開始] を選択した ADLS Gen2 カードへのフィルターと取り込みを示すスクリーンショット。

  3. Stream Analytics の名前を入力して、[作成] を選択します。

    ジョブ名の入力場所を示すスクリーンショット。

  4. [Event Hubs] ウィンドウでデータの種類として [シリアル化] を指定し、ジョブが Event Hubs に接続するのに使用する [認証方法] を指定します。 次に、 [接続](Connect) を選択します。
    Event Hubs 接続構成を示すスクリーンショット。

  5. 接続が正常に確立されて、Event Hubs のインスタンスにデータ ストリームが流れるようになると、次の 2 つのことがすぐに表示されます。

    • 入力データに存在するフィールド。 [フィールドの追加] を選択するか、フィールドの横にある 3 つのドット記号を選択して削除、名前の変更、または型の変更を行うことができます。
      フィールドの種類を削除、名前変更、または変更できる Event Hubs のフィールドの一覧を示すスクリーンショット。
    • ダイアグラム ビューの [データ プレビュー] テーブルでの受信データのライブ サンプル。 それは定期的に自動更新されます。 [ストリーミング プレビューの一時停止] を選択すると、サンプル入力データの静的ビューを見ることができます。
      [Data Preview] (データのプレビュー) の下にサンプル データが示されているスクリーンショット。
  6. [リファレンス SQL 入力] タイルを選んで、リファレンス SQL データベースに接続します。
    SQL 参照データ接続の構成を示すスクリーンショット。

  7. [結合] タイルを選びます。 右側の構成パネルで、各入力からフィールドを選んで、2 つの入力からの受信データを結合します。

    結合のオペレーター構成を示すスクリーンショット。

  8. [管理] タイルを選びます。 [フィールドの管理] 構成パネルで、イベント ハブに出力するフィールドを選択します。 すべてのフィールドを追加する場合は、[すべてのフィールドを追加] を選択します。

    フィールド管理のオペレーター構成を示すスクリーンショット。

  9. [イベント ハブ] タイルを選びます。 [イベント ハブ] 構成パネルで、入力イベント ハブの構成と同じように、必要なパラメーターを入力して接続します。

  10. 必要に応じて、[静的プレビューの取得] または [静的プレビューの更新] を選んで、イベント ハブに取り込まれるデータのプレビューを表示します。
    [静的プレビューの取得] と [静的プレビューの更新] のオプションを示すスクリーンショット。

  11. [保存] を選択してから、Stream Analytics ジョブの [開始] を選択します。
    [保存] と [開始] のオプションを示すスクリーンショット。

  12. ジョブを開始するには、次のものを指定します。

    • ジョブを実行するストリーミング ユニット (SU) の数。 SU は、ジョブに割り当てられるコンピューティングとメモリの量を表します。 3 から始めて、必要に応じて調整することをお勧めします。
    • [出力データのエラー処理] – データ エラーが原因でジョブの送信先への出力が失敗した場合に必要な動作を指定できます。 既定では、ジョブは書き込み操作が成功するまで再試行します。 出力イベントを削除することもできます。
      [Stream Analytics ジョブの開始] のオプションを示すスクリーンショット。このオプションでは、出力時刻を変更し、ストリーミング ユニットの数を設定し、[出力データのエラー処理] のオプションを選択できます。
  13. [開始] を選択すると、2 分以内にジョブの実行が開始して、下のタブ セクションでメトリックが開きます。

    ジョブの開始後のメトリック データを示すスクリーンショット。

    [Stream Analytics ジョブ] タブの [データの処理] セクションでジョブを確認することもできます。必要に応じて、[メトリックを開く] を選択して監視するか、停止して再起動します。

    実行中のジョブの状態が表示されている [Stream Analytics ジョブ] タブのスクリーンショット。

Event Hubs の geo レプリケーション機能を使用する場合の考慮事項

最近、Azure Event Hubs では geo レプリケーション機能のプレビューがローンチされました。 この機能は、Azure Event Hubs の geo ディザスター リカバリー機能とは異なります。

フェールオーバーの種類が [強制] で、レプリケーションの整合性が [非同期] の場合、Stream Analytics ジョブでは、Azure Event Hubs 出力への出力が 1 回のみ行われることは保証されません。

フェールオーバー期間中および Event Hubs によるスロットリング中に、プライマリとセカンダリの間のレプリケーションのラグが最大構成ラグに達すると、Event Hubs を出力とするプロデューサーである Azure Stream Analytics がジョブでウォーターマーク遅延を検出する場合があります。

Event Hubs を入力とするコンシューマーである Azure Stream Analytics が、フェールオーバー期間中にウォーターマーク遅延を検出し、フェールオーバーの完了後、データをスキップするか、重複データを検出する場合があります。

これらの注意事項により、Event Hubs のフェールオーバーが完了した直後に、適切な開始時刻で Stream Analytics ジョブを再起動することをお勧めします。 また、Event Hubs の geo レプリケーション機能はパブリック プレビュー段階であるため、現時点で運用環境の Stream Analytics ジョブにこのパターンを使用することはお勧めしません。 現在の Stream Analytics の動作は、Event Hubs の geo レプリケーション機能が一般公開される前に改善され、Stream Analytics の運用ジョブで使用できるようになります。

次のステップ

Azure Stream Analytics の詳細と、作成したジョブを監視する方法を理解してください。