Azure での Apache NiFi

Azure Application Gateway

Azure Log Analytics

Azure Virtual Machines

Azure Virtual Network

Azure 仮想マシンスケールセット

注意事項

この記事では、サポート終了 (EOL) となっている Linux ディストリビューションである CentOS について説明します。適宜、使用と計画を検討してください。詳細については、「CentOS のサポート終了に関するガイダンス」を参照してください。

このシナリオ例では、Azure で Apache NiFi を実行する方法を示します。 NiFi は、データを処理および配布するためのシステムを提供します。

Apache®、Apache NiFi®、NiFi® は、Apache Software Foundation の米国およびその他の国における登録商標または商標です。これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

Architecture

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

NiFi アプリケーションは、NiFi クラスターノード内の VM 上で実行されます。 VM は、構成が可用性ゾーン全体にデプロイされる仮想マシンスケールセット内にあります。
Apache ZooKeeper は、別のクラスター内の VM で実行されます。 NiFi では、次の目的で ZooKeeper クラスターが使用されます。
- クラスターコーディネーターノードを選択する
- データのフローを調整する
Azure Application Gateway は、NiFi ノードで実行されるユーザーインターフェイスにレイヤー 7 の負荷分散を提供します。
モニターとそのログ分析機能は、NiFi システムからテレメトリを収集、分析、および処理します。テレメトリには、NiFi システムログ、システム正常性メトリック、およびパフォーマンスメトリックが含まれます。
Azure Key Vault は、NiFi クラスターの証明書とキーを安全に保存します。
Microsoft Entra ID には、シングルサインオン (SSO) と多要素認証があります。

コンポーネント

NiFi は、データを処理および配布するためのシステムを提供します。
ZooKeeper は、分散システムを管理するオープンソースサーバーです。
Virtual Machines はサービスとしてのインフラストラクチャ (IaaS) オファーです。 Virtual Machines を使用して、オンデマンドのスケーラブルなコンピューティングリソースをデプロイできます。 Virtual Machines は仮想化の柔軟性を提供しながら、物理ハードウェアのメンテナンスの必要性を排除します。
Azure 仮想マシンスケールセットでは、負荷分散が行われる VM のグループを作成して管理することができます。セット内の VM インスタンスの数は、需要または定義されたスケジュールに応じて自動的に増減させることができます。
可用性ゾーンは、Azure リージョン内の一意の物理的な場所です。これらの高可用性オファリングは、データセンターの障害からアプリケーションとデータを保護します。
Azure Application Gateway は、Web アプリケーションへのトラフィックを管理するロードバランサーです。
モニターでは、環境と Azure リソースに関するデータを収集して分析します。このデータには、パフォーマンスメトリックやアクティビティログなどのアプリテレメトリが含まれます。詳細については、この記事で後述する「監視に関する考慮事項」をご覧ください。
Log Analytics は、モニターログデータに対してクエリを実行する Azure portal ツールです。 Log Analytics には、クエリ結果をグラフ化および統計分析するための機能も用意されています。
Azure DevOps Services には、コードプロジェクトとデプロイを管理するためのサービス、ツール、環境などが用意されています。
Key Vault では、API キー、パスワード、証明書、暗号化キーといったシステムのシークレットが安全に保存され、それらへのアクセスが制御されます。
Microsoft Entra ID は、Azure およびその他のクラウドアプリへのアクセスを制御するクラウドベースの ID サービスです。

代替

Azure Data Factory では、このソリューションの代替手段を提供します。
Key Vault の代わりに、同等のサービスを使用してシステムシークレットを保存できます。
Apache Airflow。詳細については、Airflow と NiFi の違いに関する記事を参照してください。
Cloudera Apache NiFi など、エンタープライズ NiFi の代替手段としてサポートされているものを使用できます。 Cloudera のオファリングは、Azure Marketplace を通じて利用できます。

シナリオの詳細

このシナリオでは、NiFi はスケールセット内の Azure Virtual Machines 全体でクラスター化された構成で実行されます。ただし、この記事に記載されている推奨事項の大部分は、単一の仮想マシン (VM) で単一インスタンスモードで NiFi を実行するシナリオにも適用されます。この記事に記載のベストプラクティスは、スケーラブルで高可用性、かつ安全なデプロイを示しています。

考えられるユースケース

NiFi は、データの移動とデータフローの管理に適しています。

分離されたシステムをクラウドで接続する
Azure Storage およびその他のデータストアとの間でデータを移動する
エッジツークラウドおよびハイブリッドクラウドアプリケーションを Azure IoT、Azure Stack、および Azure Kubernetes サービス (AKS) と統合する

その結果、このソリューションは多くの領域に適用されます。

最新のデータウェアハウス (MDW) は、大規模に構造化データと非構造化データをまとめています。さまざまなソース、シンク、および形式からデータを収集して保存します。 NiFi は、次の理由により、Azure ベース MDW へのデータ取り込みに優れています。
- データの読み取り、書き込み、および操作には、200 を超えるプロセッサを使用できます。
- このシステムは、Azure Blob Storage、Azure Data Lake Storage、Azure Event Hubs、Azure Queue Storage、Azure Cosmos DB、Azure Synapse Analytics などのストレージサービスをサポートしています。
- 堅牢なデータ来歴機能により、準拠したソリューションを実装できます。 Azure Monitor のログ分析機能でデータ来歴をキャプチャする方法については、この記事で後述する「レポートに関する考慮事項」をご覧ください。
NiFiは、フットプリントの小さいデバイスでスタンドアロンで実行できます。このような場合、NiFi を使用すると、エッジデータを処理し、そのデータをクラウド内のより大きな NiFi インスタンスまたはクラスターに移動できます。 NiFi は、移動中のエッジデータのフィルター処理、変換、優先度付けを行うのに役立ち、信頼性が高く効率的なデータフローを保証します。
産業用 IoT (IIoT) ソリューションは、エッジからデータセンターへのデータフローを管理します。そのフローは、産業用制御システムと機器からのデータ取得から始まります。その後、データはデータ管理ソリューションと MDW に移動します。 NiFi では、データの取得と移動に適した機能を提供しています。
- エッジデータ処理機能
- IoT ゲートウェイおよびデバイスで使用されるプロトコルのサポート
- Event Hubs とストレージサービスとの統合
予測メンテナンスとサプライチェーン管理の分野における IoT アプリケーションでは、この機能を利用できます。

推奨事項

このソリューションを使用する場合は、次の点に注意してください。

NiFi の推奨バージョン

Azure でこのソリューションを実行する場合は、バージョン 1.13.2 以降の NiFi を使用することをお勧めします。他のバージョンを実行することもできますが、このガイドのものとは異なる構成が必要になる場合があります。

Azure VM に NiFi をインストールするには、NiFi ダウンロードページから便利なバイナリをダウンロードすることをお勧めします。ソースコードからバイナリをビルドすることもできます。

ZooKeeper の推奨バージョン

このワークロードの例では、バージョン 3.5.5 以降または ZooKeeper 3.6.x を使用することをお勧めします。

公式の便利なバイナリまたはソースコードを使用して、Azure VM に ZooKeeper をインストールできます。どちらも Apache ZooKeeper リリースページで入手できます。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

NiFi 構成の詳細については、「Apache NiFi システム管理者ガイド」をご覧ください。このソリューションを実装する場合は、次の考慮事項にも留意してください。

コスト最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

このアーキテクチャのリソースコストを見積もるには、Azure 料金計算ツールを使用します。
このアーキテクチャのすべてのサービス (カスタム警告ソリューションを除く) を含む見積もりについては、このサンプルコストプロファイルをご覧ください。

VM に関する考慮事項

次のセクションでは、NiFi VM を構成する方法の詳細な概要について説明します。

VM サイズ

この表では、最初に推奨される VM サイズを示しています。ほとんどの汎用データフローには、Standard_D16s_v3 が最も適しています。ただし、NiFi の各データフローには異なる要件があります。フローをテストし、フローの実際の要件に基づいて必要に応じてサイズを変更します。

VM で Accelerated Networking を有効にして、ネットワークパフォーマンスを向上させることを検討してください。詳細については、「Azure 仮想マシンスケールセットのネットワーク」を参照してください。

VM サイズ	vCPU	GB 単位のメモリ	MBps* あたりの 1 秒あたりの I/O 操作 (IOPS) でのキャッシュされていないデータディスクの最大スループット	最大ネットワークインターフェイス (NIC) / 必要なネットワーク帯域幅 (Mbps)
Standard_D8s_v3	8	32	12,800/192	4/4,000
Standard_D16s_v3**	16	64	25,600/384	8/8,000
Standard_D32s_v3	32	128	51,200/768	8/16,000
Standard_M16m	16	437.5	10,000/250	8/4,000

* NiFi ノードで使用しているすべてのデータディスクのデータディスク書き込みキャッシュを無効にします。

** ほとんどの汎用データフローには、この SKU をお勧めします。 vCPU とメモリの構成が類似している Azure VM SKU も適切である必要があります。

VM のオペレーティングシステム (OS)

Azure で NiFi を実行する場合は、次のいずれかのゲストオペレーティングシステムで実行することをお勧めします。

Ubuntu 18.04 LTS 以降
CentOS 7.9

特定のデータフロー要件を満たすには、次のような OS レベルの設定をいくつか調整することが重要です。

フォークプロセスの最大数。
ファイルハンドルの最大数。
アクセス時刻: atime。

予想されるユースケースに合わせて OS を調整した後、Azure VM Image Builder を使用して、これらの調整されたイメージの生成を体系化します。 NiFi に固有のガイダンスについては、「Apache NiFi システム管理者ガイド」の「構成のベストプラクティス」をご覧ください。

ストレージ

さまざまな NiFi リポジトリを OS ディスクではなくデータディスクに保存する主な理由は次の 3 つです。

フローには、単一のディスクでは満たすことができない高いディスクスループット要件がよくあります。
NiFi ディスク操作を OS ディスク操作から分離するのが最善です。
リポジトリを一時ストレージに置くことはできません。

次のセクションでは、データディスクを構成するためのガイドラインの概要を説明します。これらのガイドラインは Azure に固有のものです。リポジトリの構成に関する詳細については、「Apache NiFi システム管理者ガイド」の状態管理をご覧ください。

データディスクの種類とサイズ

NiFi 用にデータディスクを構成する場合は、次の要素を考慮してください。

ディスクの種類
ディスクサイズ
ディスクの総数

注意

ディスクの種類、サイズ、および価格に関する最新情報については、「Azure マネージドディスクの概要」をご覧ください。

次の表は、Azure で現在使用できるマネージドディスクの種類を示しています。 NiFi では、これらのディスクの種類を使用できます。ただし、高スループットのデータフローには、Premium SSD をお勧めします。

	Ultra Disk Storage (NVM Express (NVMe))	Premium SSD	Standard SSD	Standard HDD
ディスクの種類	SSD	SSD	SSD	HDD
最大ディスクサイズ	65,536 GB	32,767 GB	32,767 GB	32,767 GB
最大スループット	2,000 MiB/秒	900 MiB/秒	750 MiB/秒	500 MiB/秒
最大 IOPS	160,000	20,000	6,000	2,000

データフローのスループットを向上させるには、少なくとも 3 つのデータディスクを使用します。ディスク上のリポジトリを構成するためのベストプラクティスについては、この記事で後述する「リポジトリの構成」をご覧ください。

次の表に、各ディスクサイズと種類に関連するサイズとスループットの数値を示します。

	Standard HDD S15	Standard HDD S20	Standard HDD S30	Standard SSD S15	Standard SSD S20	Standard SSD S30	Premium SSD P15	Premium SSD P20	Premium SSD P30
ディスクサイズ (GB 単位)	256	512	1,024	256	512	1,024	256	512	1,024
ディスクあたりの IOPS	最大 500	最大 500	最大 500	最大 500	最大 500	最大 500	1,100	2,300	5,000
ディスクあたりのスループット	最大 60 Mbps	最大 60 Mbps	最大 60 Mbps	最大 60 Mbps	最大 60 Mbps	最大 60 Mbps	125 MBps	150 MBps	200 MBps

システムが VM の制限に達した場合、ディスクを追加してもスループットが向上しない可能性があります。

IOPS とスループットの制限は、ディスクのサイズによって異なります。
選択した VM サイズにより、VM の IOPS とスループットの制限がすべてのデータディスクに設定されます。

VM レベルのディスクスループットの制限については、「Azure の Linux 仮想マシンのサイズ」をご覧ください。

VM ディスクのキャッシュ

Azure VM では、ホストキャッシュ機能によってディスクの書き込みキャッシュが管理されます。リポジトリに使用するデータディスクのスループットを向上させるには、ホストキャッシュを None に設定して、ディスクの書き込みキャッシュをオフにします。

リポジトリの構成

NiFi では、これらのリポジトリごとに個別のディスクを使用することをお勧めします。

Content
FlowFile
来歴

この方法では、最低 3 台のディスクが必要です。

NiFi は、アプリケーションレベルのストライピングもサポートしています。この機能により、データリポジトリのサイズやパフォーマンスが向上します。

次の抜粋は、nifi.properties 構成ファイルからのものです。この構成では、VM に接続されているマネージドディスク間でリポジトリを分割し、ストライピングします。

nifi.provenance.repository.directory.stripe1=/mnt/disk1/ provenance_repository
nifi.provenance.repository.directory.stripe2=/mnt/disk2/ provenance_repository
nifi.provenance.repository.directory.stripe3=/mnt/disk3/ provenance_repository
nifi.content.repository.directory.stripe1=/mnt/disk4/ content_repository
nifi.content.repository.directory.stripe2=/mnt/disk5/ content_repository
nifi.content.repository.directory.stripe3=/mnt/disk6/ content_repository
nifi.flowfile.repository.directory=/mnt/disk7/ flowfile_repository

高パフォーマンスストレージの設計の詳細については、「Azure Premium Storage: 高パフォーマンスストレージの設計」をご覧ください。

レポート

NiFiには、ログ分析機能の来歴レポートタスクが含まれています。

このレポートタスクを使用すると、来歴イベントをコスト効率が高く耐久性のある長期ストレージにオフロードできます。ログ分析機能では、個々のイベントを表示およびグラフ化するためのクエリインターフェイスを提供します。これらのクエリの詳細については、この記事で後述する「ログ分析クエリ」をご覧ください。

このタスクは、揮発性メモリ内の来歴ストレージと共に使用することもできます。多くのシナリオでは、スループットの増加を実現できます。ただし、イベントデータを保持する必要がある場合、この方法は危険です。揮発性ストレージが来歴イベントの耐久性要件を満たしていることを確認します。詳細については、「Apache NiFi システム管理者ガイド」の「来歴リポジトリ」をご覧ください。

このプロセスを使用する前に、Azure サブスクリプションで Log Analytics ワークスペースを作成します。ワークスペースは、ワークロードと同じリージョンに設定することをお勧めします。

来歴レポートタスクを構成するには、次の操作を行います。

NiFi で [コントローラーの設定] を開きます。
[レポートタスク] メニューを選択します。
[新しいレポートタスクを作成する] を選択します。
[Azure Log Analytics レポートタスク] を選択します。

次のスクリーンショットは、このレポートタスクの [プロパティ] メニューを示しています。

NiFi の [構成レポートタスク] ウィンドウのスクリーンショット。[プロパティ] メニューが表示されます。ログ分析設定の値が一覧表示されます。

2 つのプロパティが必要です。

Log Analytics ワークスペース ID
Log Analytics ワークスペースキー

これらの値は、Azure portal で [Log Analytics] ワークスペースに移動して確認できます。

その他のオプションを使用して、システムから送信されるイベントのカスタマイズやフィルター処理を行うこともできます。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。詳細については、「セキュリティの重要な要素の概要」を参照してください。

NiFi は認証と承認の観点からセキュリティ保護できます。また、次のようなすべてのネットワーク通信で NiFi を保護することもできます。

クラスター内。
クラスターと ZooKeeper の間。

次のオプションをオンにする手順については、「Apache NiFi 管理者ガイド」をご覧ください。

Kerberos
ライトウェイトディレクトリアクセスプロトコル (LDAP)
証明書ベースの認証と承認
クラスター通信用の双方向 Secure Sockets Layer (SSL)

ZooKeeper のセキュリティで保護されたクライアントアクセスを有効にする場合は、関連するプロパティを bootstrap.conf 構成ファイルに追加して NiFi を構成します。次の構成エントリに例を示します。

java.arg.18=-Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty
java.arg.19=-Dzookeeper.client.secure=true
java.arg.20=-Dzookeeper.ssl.keyStore.location=/path/to/keystore.jks
java.arg.21=-Dzookeeper.ssl.keyStore.password=[KEYSTORE PASSWORD]
java.arg.22=-Dzookeeper.ssl.trustStore.location=/path/to/truststore.jks
java.arg.23=-Dzookeeper.ssl.trustStore.password=[TRUSTSTORE PASSWORD]

一般的な推奨事項については、「Linux のセキュリティベースライン」をご覧ください。

ネットワークのセキュリティ

このソリューションを実装する場合は、ネットワークセキュリティに関する次の点に注意してください。

ネットワークセキュリティグループ

Azureでは、ネットワークセキュリティグループを使用してネットワークトラフィックを制限できます。

NiFi クラスターに接続して管理タスクを行う場合は、ジャンプボックスをお勧めします。 Just-In-Time (JIT) アクセスまたは Azure Bastion でこのセキュリティが強化された VM を使用します。ネットワークセキュリティグループを設定して、ジャンプボックスまたは Azure Bastion へのアクセスを許可する方法を制御します。アーキテクチャのさまざまなサブネットでネットワークセキュリティグループを慎重に使用することで、ネットワークの分離と制御を実現できます。

次のスクリーンショットは、一般的な仮想ネットワークのコンポーネントを示しています。これには、ジャンプボックス、仮想マシンスケールセット、および ZooKeeper VM の共通サブネットが含まれています。この簡略化されたネットワークトポロジは、コンポーネントを 1 つのサブネットにグループ化します。職務の分離とネットワーク設計については、組織のガイドラインに従ってください。

仮想ネットワークのコンポーネントのデバイス、種類、およびサブネットを一覧表示する表のスクリーンショット。

送信インターネットアクセスに関する考慮事項

Azure の NiFi では、パブリックインターネットにアクセスして実行する必要はありません。データフローがデータを取得するためにインターネットアクセスを必要としない場合は、次の手順に従って送信インターネットアクセスを無効にしてクラスターのセキュリティを強化します。

仮想ネットワーク内に追加のネットワークセキュリティグループルールを作成します。
次の設定を使用します。
- ソース: Any
- 宛先: Internet
- アクション: Deny

このルールを設定しても、仮想ネットワークでプライベートエンドポイントを構成すると、データフローから一部の Azure サービスにアクセスできます。この目的のために Azure Private Link を使用します。このサービスは、他の外部ネットワークアクセスを必要とせずに、トラフィックが Microsoft のバックボーンネットワーク上を移動する方法を提供します。 NiFi は現在、Blob Storage と Data Lake Storage プロセッサの Private Link をサポートしています。 Network Time Protocol (NTP) サーバーがプライベートネットワークで使用できない場合は、NTP への送信アクセスを許可します。詳細については、「Azure での Linux VM の時刻同期」をご覧ください。

データの保護

ワイヤ暗号化、ID およびアクセス管理 (IAM)、またはデータ暗号化を使用せずに、セキュリティで保護されていない NiFi を操作することができます。ただし、運用環境とパブリッククラウドのデプロイは次の方法で保護することをお勧めします。

トランスポート層セキュリティ (TLS) を使用した通信の暗号化
サポートされている認証および承認メカニズムの使用
保存データの暗号化

Azure Storage には、サーバー側の透過的なデータ暗号化が用意されています。ただし、1.13.2 リリース以降、NiFi は既定でワイヤ暗号化や IAM を構成しません。この動作は、将来のリリースで変更される可能性があります。

次のセクションでは、これらの方法でデプロイをセキュリティで保護する方法について説明します。

TLS でワイヤ暗号化を有効にする
証明書または Microsoft Entra ID に基づく認証を構成する
Azure で暗号化されたストレージを管理する

ディスクの暗号化

セキュリティを強化するには、Azure Disk Encryption を使用します。詳細な手順については、「Azure CLI で仮想マシンスケールセット内の OS および接続されているデータディスクを暗号化する」をご覧ください。このドキュメントには、独自の暗号化キーを提供する手順も記載されています。次の手順では、ほとんどの展開で機能する NiFi の基本的な例の概要を示します。

既存の Key Vault インスタンスでディスク暗号化を有効にするには、次の Azure CLI コマンドを使用します。
```
az keyvault create --resource-group myResourceGroup --name myKeyVaultName --enabled-for-disk-encryption
```

次のコマンドを使用して、仮想マシンスケールセットのデータディスクの暗号化を有効にします。

az vmss encryption enable --resource-group myResourceGroup --name myScaleSet --disk-encryption-keyvault myKeyVaultID --volume-type DATA

必要に応じて、キー暗号化キー (KEK) を使用することもできます。 KEK で暗号化するには、次の Azure CLI コマンドを使用します。

az vmss encryption enable --resource-group myResourceGroup --name  myScaleSet  \
--disk-encryption-keyvault myKeyVaultID \
--key-encryption-keyvault myKeyVaultID \
--key-encryption-key https://<mykeyvaultname>.vault.azure.net/keys/myKey/<version> \
--volume-type DATA

Note

仮想マシンのスケールセットを手動更新モードに構成した場合は、update-instances コマンドを実行します。 Key Vault に保存した暗号化キーのバージョンを含めます。

転送中の暗号化

NiFi では転送中の暗号化に TLS 1.2 がサポートされます。このプロトコルは、UI へのユーザーアクセスを保護します。クラスターを使用すると、このプロトコルは NiFi ノード間の通信を保護します。また、ZooKeeper との通信を保護することもできます。 TLSを有効にすると、NiFi は次の相互認証に相互 TLS (mTLS) を使用します。

このタイプの認証を構成した場合は、証明書ベースのクライアント認証。
すべてのクラスター内通信。

TLS を有効にするには、次の手順を実行します。

クライアントとサーバー、クラスター内の通信と認証用のキーストアとトラストストアを作成します。
$NIFI_HOME/conf/nifi.properties を構成します。次の値を設定します。
- ホスト名
- Port
- キーストアのプロパティ
- トラストストアのプロパティ
- クラスターおよび ZooKeeper のセキュリティプロパティ (該当する場合)
$NIFI_HOME/conf/authorizers.xml で認証を構成します。通常は、証明書ベースの認証または別のオプションを持つ初期ユーザーを使用します。
必要に応じて、NiFi とプロキシ、ロードバランサー、または外部エンドポイント間で、mTLS とプロキシ読み取りポリシーを構成します。

完全なチュートリアルについては、Apache プロジェクトドキュメントの「TLS を使用した NiFi のセキュリティ保護」を参照してください。

注意

バージョン 1.13.2 以降:

NiFi は既定で TLS を有効にしません。
TLS 対応のインスタンスに対して、匿名アクセスとシングルユーザーアクセスをすぐにサポートすることはできません。

転送中の暗号化に対して TLS を有効にするには、$NIFI_HOME/conf/authorizers.xml で認証と承認を行うためにユーザーグループとポリシープロバイダーを構成します。詳細については、この記事で後述する「ID およびアクセス制御」をご覧ください。

証明書、キー、およびキーストア

TLS をサポートするには、証明書を生成し、それらを Java キーストアとトラストストアに保存して、NiFi クラスターに配布します。証明書には、次の 2 つの一般的なオプションがあります。

自己署名証明書
認証機関 (CA) が署名する証明書

CA 署名の証明書を使用する場合は、中間 CA を使用してクラスター内のノードの証明書を生成することをお勧めします。

キーストアとトラストストアは、Java プラットフォームのキーコンテナーおよび証明書コンテナーです。キーストアは、クラスター内のノードの秘密キーと証明書を保存します。トラストストアは、次のいずれかの種類の証明書を保存します。

信頼できるすべての証明書 (キーストアの自己署名証明書の場合)
CA からの証明書 (キーストアの CA 署名証明書の場合)

コンテナーを選択するときには、NiFi クラスターのスケーラビリティを考慮してください。たとえば、将来的にクラスター内のノード数を増減したい場合があります。その場合は、キーストアで CA 署名の証明書を選択し、トラストストアで CA から 1 つ以上の証明書を選択します。のオプションを使用すると、クラスターの既存のノードにある既存のトラストストアを更新する必要はありません。既存のトラストストアは、次の種類のノードの証明書を信頼して受け入れます。

クラスターに追加するノード
クラスター内の他のノードを置き換えるノード

NiFi 構成

NiFi の TLS を有効にするには、$NIFI_HOME/conf/nifi.properties を使用してこのテーブルのプロパティを構成します。次のプロパティに、NiFi へのアクセスに使用するホスト名が含まれていることを確認します。

nifi.web.https.host または nifi.web.proxy.host
ホスト証明書の指定名前またはサブジェクトの代替名

そうしないと、ホスト名の検証エラーまたは HTTP ホストヘッダーの検証エラーが発生し、ユーザーのアクセスが拒否されることがあります。

プロパティ名	説明	値の例
`nifi.web.https.host`	UI および REST API に使用するホスト名または IP アドレス。この値は内部的に解決可能である必要があります。パブリックにアクセスできる名前は使用しないことをお勧めします。	`nifi.internal.cloudapp.net`
`nifi.web.https.port`	UI および REST API に使用する HTTPS ポート。	`9443` (既定値)
`nifi.web.proxy.host`	クライアントが UI および REST API にアクセスするために使用する代替ホスト名のコンマ区切りリスト。このリストには通常、サーバー証明書でサブジェクト代替名 (SAN) として指定されているホスト名が含まれます。このリストには、ロードバランサー、プロキシ、または Kubernetes イングレスコントローラーが使用する任意のホスト名とポートを含めることもできます。	`40.67.218.235, 40.67.218.235:443, nifi.westus2.cloudapp.com, nifi.westus2.cloudapp.com:443`
`nifi.security.keystore`	証明書の秘密キーを含む JKS または PKCS12 キーストアへのパス。	`./conf/keystore.jks`
`nifi.security.keystoreType`	キーストアの種類。	`JKS` または `PKCS12`
`nifi.security.keystorePasswd`	キーストアのパスワード。	`O8SitLBYpCz7g/RpsqH+zM`
`nifi.security.keyPasswd`	(オプション) 秘密キーのパスワード。
`nifi.security.truststore`	信頼できるユーザーとクラスターノードを認証する証明書または CA 証明書を含む JKS または PKCS12 トラストストアへのパス。	`./conf/truststore.jks`
`nifi.security.truststoreType`	トラストストアの種類。	`JKS` または `PKCS12`
`nifi.security.truststorePasswd`	トラストストアのパスワード。	`RJlpGe6/TuN5fG+VnaEPi8`
`nifi.cluster.protocol.is.secure`	クラスタ内通信の TLS の状態。 `nifi.cluster.is.node` が `true` の場合、この値を `true` に設定して、クラスター TLS を有効にします。	`true`
`nifi.remote.input.secure`	サイト間通信の TLS の状態。	`true`

次の例は、これらのプロパティが $NIFI_HOME/conf/nifi.properties にどのように表示されるかを示しています。 nifi.web.http.host と nifi.web.http.port の値は空白であることに注意してください。

nifi.remote.input.secure=true
nifi.web.http.host=
nifi.web.http.port=
nifi.web.https.host=nifi.internal.cloudapp.net
nifi.web.https.port=9443
nifi.web.proxy.host=40.67.218.235, 40.67.218.235:443, nifi.westus2.cloudapp.com, nifi.westus2.cloudapp.com:443
nifi.security.keystore=./conf/keystore.jks 
nifi.security.keystoreType=JKS          
nifi.security.keystorePasswd=O8SitLBYpCz7g/RpsqH+zM                  
nifi.security.keyPasswd=
nifi.security.truststore=./conf/truststore.jks                                   
nifi.security.truststoreType=JKS
nifi.security.truststorePasswd=RJlpGe6/TuN5fG+VnaEPi8
nifi.cluster.protocol.is.secure=true

ZooKeeper の構成

クォーラム通信とクライアントアクセスのために Apache ZooKeeper で TLS を有効にする手順については、「ZooKeeper 管理者ガイド」をご覧ください。この機能をサポートしているのは、3.5.5 以降のバージョンのみです。

NiFi は、ゼロリーダークラスタリングとクラスター調整に ZooKeeper を使用します。バージョン1.13.0以降、NiFi では、セキュリティで保護されたクライアントが ZooKeeper の TLS 対応インスタンスにアクセスできるようになりました。 ZooKeeper は、クラスターのメンバーシップとクラスタースコープのプロセッサ状態をプレーンテキストで保存します。そのため、セキュリティで保護されたクライアントアクセスを使用して ZooKeeper にアクセスして ZooKeeper のクライアント要求を認証することが重要です。また、転送中の機密値も暗号化します。

ZooKeeper への NiFi クライアントアクセスの TLS を有効にするには、$NIFI_HOME/conf/nifi.properties で次のプロパティを設定します。 nifi.zookeeper.security プロパティを校正せずに nifi.zookeeper.client.secure true を設定する場合、NiFi は、nifi.securityproperties で指定したキーストアとトラストストアにフォールバックします。

プロパティ名	説明	値の例
`nifi.zookeeper.client.secure`	ZooKeeper に接続するときのクライアント TLS の状態。	`true`
`nifi.zookeeper.security.keystore`	認証用に ZooKeeper に提示される証明書の秘密キーを含む JKS、PKCS12、または PEM キーストアへのパス。	`./conf/zookeeper.keystore.jks`
`nifi.zookeeper.security.keystoreType`	キーストアの種類。	`JKS`、`PKCS12`、`PEM`、または拡張機能による自動検出
`nifi.zookeeper.security.keystorePasswd`	キーストアのパスワード。	`caB6ECKi03R/co+N+64lrz`
`nifi.zookeeper.security.keyPasswd`	(オプション) 秘密キーのパスワード。
`nifi.zookeeper.security.truststore`	ZooKeeper の認証に使用される証明書または CA 証明書を含む JKS、PKCS12、または PEM トラストストアへのパス。	`./conf/zookeeper.truststore.jks`
`nifi.zookeeper.security.truststoreType`	トラストストアの種類。	`JKS`、`PKCS12`、`PEM`、または拡張機能による自動検出
`nifi.zookeeper.security.truststorePasswd`	トラストストアのパスワード。	`qBdnLhsp+mKvV7wab/L4sv`
`nifi.zookeeper.connect.string`	ZooKeeper ホストまたはクォーラムへの接続文字列。この文字列は `host:port` 値のコンマ区切りリストです。通常、`secureClientPort` の値は `clientPort` の値と同じではありません。正しい値については、ZooKeeper の構成をご覧ください。	`zookeeper1.internal.cloudapp.net:2281, zookeeper2.internal.cloudapp.net:2281, zookeeper3.internal.cloudapp.net:2281`

次の例は、これらのプロパティが $NIFI_HOME/conf/nifi.properties にどのように表示されるかを示しています。

nifi.zookeeper.client.secure=true
nifi.zookeeper.security.keystore=./conf/keystore.jks
nifi.zookeeper.security.keystoreType=JKS
nifi.zookeeper.security.keystorePasswd=caB6ECKi03R/co+N+64lrz
nifi.zookeeper.security.keyPasswd=
nifi.zookeeper.security.truststore=./conf/truststore.jks
nifi.zookeeper.security.truststoreType=JKS
nifi.zookeeper.security.truststorePasswd=qBdnLhsp+mKvV7wab/L4sv
nifi.zookeeper.connect.string=zookeeper1.internal.cloudapp.net:2281,zookeeper2.internal.cloudapp.net:2281,zookeeper3.internal.cloudapp.net:2281

TLS を使用して ZooKeeper を保護する方法の詳細については、「Apache NiFi 管理ガイド」をご覧ください。

ID とアクセスの制御

NiFi の ID とアクセス制御は、ユーザー認証と承認によって実現されます。ユーザー認証の場合、NiFi には、シングルユーザー、LDAP、Kerberos、Security Assertion Markup Language (SAML)、およびOpenID Connect (OIDC) のいずれかを選択できます。オプションを構成しない場合、NiFi はクライアント証明書を使用して HTTPS 経由でユーザーを認証します。

多要素認証を検討している場合は、Microsoft Entra ID と OIDC を組み合わせて使用することをお勧めします。 Microsoft Entra ID は、OIDC を使用したクラウドネイティブのシングルサインオン (SSO) をサポートしています。この組み合わせにより、ユーザーは多くのエンタープライズセキュリティ機能を利用できます。

ユーザーアカウントからの疑わしいアクティビティのログ記録とアラート
非アクティブ化された資格情報へのアクセス試行の監視
異常なアカウントのサインイン動作に関するアラート

NiFi は、承認用にユーザー、グループ、およびアクセスポリシーに基づく強制を提供します。 NiFi は、UserGroupProviders および AccessPolicyProviders を通じてこの強制を行います。プロバイダーには既定で、ファイル、LDAP、シェル、およびAzure Graph ベースの UserGroupProvider が含まれます。 AzureGraphUserGroupProvider を使用すると、Microsoft Entra ID からユーザーグループをソース化できます。その後、これらのグループにポリシーを割り当てることができます。構成手順については、「Apache NiFi 管理ガイド」をご覧ください。

ファイルと Apache Ranger に基づくAccessPolicyProviders は現在、ユーザーとグループのポリシー管理と保存に使用できます。詳細については、Apache NiFi のドキュメントと Apache Ranger のドキュメントをご覧ください。

Application gateway

アプリケーションゲートウェイは、NiFi インターフェイス用のマネージドレイヤー 7 ロードバランサーを提供します。 NiFi ノードの仮想マシンスケールセットをバックエンドプールとして使用するようにアプリケーションゲートウェイを構成します。

ほとんどの NiFi インストールでは、次の Application Gateway 構成をお勧めします。

サービスレベル:Standard
SKU サイズ: 中
インスタンス数: 2 つ以上

正常性プローブを使用して、各ノードの Web サーバーの正常性を監視します。ロードバランサーのローテーションから異常なノードを削除します。この方法を使用すると、クラスター全体が異常な場合にユーザーインターフェイスを簡単に表示できます。ブラウザーは、現在正常で要求に応答しているノードにのみユーザーを誘導します。

考慮すべき重要な正常性プローブが 2 つあります。これらを組み合わせることで、クラスター内にあるすべてのノードの全体的な正常性に定期的なハートビートが提供されます。パス /NiFi を指すように最初の正常性プローブを構成します。このプローブは、各ノードの NiFi ユーザーインターフェイスの正常性を判断します。パス /nifi-api/controller/cluster を指すように 2 番目の正常性プローブを構成します。このプローブは、各ノードが現在正常であり、クラスター全体に結合されているかどうかを示します。

アプリケーションゲートウェイのフロントエンド IP アドレスを構成するには、次の 2 つのオプションがあります。

パブリック IP アドレスを使用する
プライベートサブネットの IP アドレスを使用する

ユーザーがパブリックインターネット経由で UI にアクセスする必要がある場合にのみ、パブリック IP アドレスを含めます。ユーザーのパブリックインターネットアクセスが必要ない場合は、仮想ネットワークのジャンプボックスから、またはプライベートネットワークへのピアリングを介して、ロードバランサーのフロントエンドにアクセスします。パブリック IP アドレスを使用してアプリケーションゲートウェイを構成する場合は、NiFi のクライアント証明書認証を有効にし、NiFi UIの TLS を有効にすることをお勧めします。委任されたアプリケーションゲートウェイサブネットのネットワークセキュリティグループを使用して、送信元 IP アドレスを制限することもできます。

診断と正常性の監視

Application Gateway の診断設定には、メトリックとアクセスログを送信するための構成オプションがあります。このオプションを使用すると、ロードバランサーからさまざまな場所にこの情報を送信できます。

ストレージアカウント
Event Hubs
Log Analytics ワークスペース

この設定を有効にすると、負荷分散の問題をデバッグしたり、クラスターノードの正常性を把握したりするのに役立ちます。

次の Log Analytics クエリは、Application Gateway の観点からクラスターノードの正常性を時系列で示しています。同様のクエリを使用して、異常なノードのアラートや自動修復アクションを生成できます。

AzureDiagnostics
| summarize UnHealthyNodes = max(unHealthyHostCount_d), HealthyNodes = max(healthyHostCount_d) by bin(TimeGenerated, 5m)
| render timechart

次のクエリ結果のグラフは、クラスターの正常性の時間ビューを示しています。

可用性

このソリューションを実装する場合は、可用性に関する次の点に注意してください。

Load Balancer

UI のロードバランサーを使用して、ノードのダウンタイム中の UI の可用性を向上させます。

個別の VM

可用性を向上させるには、ZooKeeper クラスターを NiFi クラスター内の VM とは別の VM にデプロイします。 ZooKeeper の構成に関する詳細については、「Apache NiFi システム管理者ガイド」の状態管理をご覧ください。

可用性ゾーン

NiFi 仮想マシンスケールセットと ZooKeeper クラスターの両方をクロスゾーン構成でデプロイして、可用性を最大化します。クラスター内のノード間の通信が可用性ゾーンを超えると、わずかな待機時間が発生します。ただし、この待機時間は通常、クラスターのスループットに対する全体的な影響を最小限に抑えます。

仮想マシンスケールセット

NiFi ノードを、使用できる可用性ゾーンにまたがる単一の仮想マシンスケールセットにデプロイすることをお勧めします。この方法でスケールセットを使用する方法の詳細については、「Availability Zones を使用する仮想マシンスケールセットを作成する」をご覧ください。

監視

NiFi クラスターの正常性とパフォーマンスを監視するには、レポートタスクを使用します。

レポートタスクベースの監視

監視には、NiFi で構成および実行するレポートタスクを使用できます。診断と正常性の監視で説明されているように、Log Analytics は NiFi Azure バンドルにレポートタスクを提供します。このレポートタスクを使用して、監視を Log Analytics および既存の監視システムまたはログシステムと統合できます。

Log Analytics クエリ

次のセクションのサンプルクエリは、作業を開始するのに役立ちます。 Log Analytics データに対してクエリを実行する方法の概要については、「Azure Monitor ログクエリ」をご覧ください。

Monitor および Log Analytics のログクエリは、Kusto 照会言語のバージョンを使用します。ただし、ログクエリと Kusto クエリには違いがあります。詳細については、「Kusto クエリの概要」をご覧ください。

構造化学習の詳細については、次のチュートリアルをご覧ください。

Log Analytics レポートタスク

NiFi は既定で、メトリックデータを nifimetrics テーブルに送信します。ただし、レポートタスクのプロパティで別の変換先を構成することもできます。レポートタスクは、次の NiFi メトリックをキャプチャします。

メトリックの種類	メトリックの名前
NiFi メトリック	`FlowFilesReceived`
NiFi メトリック	`FlowFilesSent`
NiFi メトリック	`FlowFilesQueued`
NiFi メトリック	`BytesReceived`
NiFi メトリック	`BytesWritten`
NiFi メトリック	`BytesRead`
NiFi メトリック	`BytesSent`
NiFi メトリック	`BytesQueued`
ポート状態のメトリック	`InputCount`
ポート状態のメトリック	`InputBytes`
接続状態のメトリック	`QueuedCount`
接続状態のメトリック	`QueuedBytes`
ポート状態のメトリック	`OutputCount`
ポート状態のメトリック	`OutputBytes`
Java 仮想マシン (JVM) メトリック	`jvm.uptime`
JVM メトリック	`jvm.heap_used`
JVM メトリック	`jvm.heap_usage`
JVM メトリック	`jvm.non_heap_usage`
JVM メトリック	`jvm.thread_states.runnable`
JVM メトリック	`jvm.thread_states.blocked`
JVM メトリック	`jvm.thread_states.timed_waiting`
JVM メトリック	`jvm.thread_states.terminated`
JVM メトリック	`jvm.thread_count`
JVM メトリック	`jvm.daemon_thread_count`
JVM メトリック	`jvm.file_descriptor_usage`
JVM メトリック	`jvm.gc.runs jvm.gc.runs.g1_old_generation jvm.gc.runs.g1_young_generation`
JVM メトリック	`jvm.gc.time jvm.gc.time.g1_young_generation jvm.gc.time.g1_old_generation`
JVM メトリック	`jvm.buff_pool_direct_capacity`
JVM メトリック	`jvm.buff_pool_direct_count`
JVM メトリック	`jvm.buff_pool_direct_mem_used`
JVM メトリック	`jvm.buff_pool_mapped_capacity`
JVM メトリック	`jvm.buff_pool_mapped_count`
JVM メトリック	`jvm.buff_pool_mapped_mem_used`
JVM メトリック	`jvm.mem_pool_code_cache`
JVM メトリック	`jvm.mem_pool_compressed_class_space`
JVM メトリック	`jvm.mem_pool_g1_eden_space`
JVM メトリック	`jvm.mem_pool_g1_old_gen`
JVM メトリック	`jvm.mem_pool_g1_survivor_space`
JVM メトリック	`jvm.mem_pool_metaspace`
JVM メトリック	`jvm.thread_states.new`
JVM メトリック	`jvm.thread_states.waiting`
プロセッサレベルのメトリック	`BytesRead`
プロセッサレベルのメトリック	`BytesWritten`
プロセッサレベルのメトリック	`FlowFilesReceived`
プロセッサレベルのメトリック	`FlowFilesSent`

クラスターの BytesQueued メトリックのサンプルクエリを次に示します。

let table_name = nifimetrics_CL;
let metric = "BytesQueued";
table_name
| where Name_s == metric
| where Computer contains {ComputerName}
| project TimeGenerated, Computer, ProcessGroupName_s,  Count_d, Name_s
| summarize sum(Count_d) by bin(TimeGenerated, 1m),  Computer, Name_s
| render timechart

このクエリでは、次のスクリーンショットのようなグラフが生成されます。

注意

Azure で NiFi を実行する場合、Log Analytics レポートタスクに限定されません。 NiFi は、多くのサードパーティ製監視テクノロジのレポートタスクをサポートしています。サポートされているレポートタスクの一覧については、Apache NiFi ドキュメントインデックスの「レポートタスク」セクションをご覧ください。

NiFi インフラストラクチャの監視

レポートタスクの他に、NiFi ノードと ZooKeeper ノードに Log Analytics VM 拡張機能をインストールします。この拡張機能は、ログ、追加の VM レベルのメトリック、および ZooKeeper からのメトリックを収集します。

NiFi アプリ、ユーザー、ブートストラップ、ZooKeeper のカスタムログ

さらに多くのログをキャプチャするには、次の手順に従います。

Azure portal で [Log Analytics ワークスペース] を選択してから、目的のワークスペースを選択します。
[設定] で、[カスタムログ] を選択します。
[カスタムログの追加] を選択します。
次の値を使用してカスタムログを設定します。
- 名前: NiFiAppLogs
- パスの種類: Linux
- パス名: /opt/nifi/logs/nifi-app.log
次の値を使用してカスタムログを設定します。
- 名前: NiFiBootstrapAndUser
- 最初のパスの種類: Linux
- 最初のパス名: /opt/nifi/logs/nifi-user.log
- 2 番目のパスの種類: Linux
- 2 番目のパス名: /opt/nifi/logs/nifi-bootstrap.log
次の値を使用してカスタムログを設定します。
- 名前: NiFiZK
- パスの種類: Linux
- パス名: /opt/zookeeper/logs/*.out

最初の例で作成された NiFiAppLogs カスタムテーブルのサンプルクエリを次に示します。

NiFiAppLogs_CL
| where TimeGenerated > ago(24h)
| where Computer contains {ComputerName} and RawData contains "error"
| limit 10

このクエリでは、次の結果のような結果が生成されます。

インフラストラクチャログの構成

Monitor を使用して、VM または物理コンピューターを監視および管理できます。これらのリソースは、ローカルのデータセンターや他のクラウド環境に含めることができます。この監視を設定するには、Log Analytics エージェントをデプロイします。 Log Analytics ワークスペースにレポートするようにエージェントを構成します。詳細については、「Log Analytics エージェントの概要」を参照してください。

次のスクリーンショットは、NiFi VM のエージェント構成の例を示しています。この Perf テーブルには、収集されたデータが保存されます。

NiFi アプリの Perf ログのサンプルクエリを次に示します。

let cluster_name = {ComputerName};
// The hourly average of CPU usage across all computers.
Perf
| where Computer contains {ComputerName}
| where CounterName == "% Processor Time" and InstanceName == "_Total"
| where ObjectName == "Processor"
| summarize CPU_Time_Avg = avg(CounterValue) by bin(TimeGenerated, 30m), Computer

このクエリでは、次のスクリーンショットのようなレポートが生成されます。

警告

モニターを使用して、NiFi クラスターの正常性とパフォーマンスに関するアラートを作成します。アラートの例を次に示します。

キューの合計数がしきい値を超えました。
BytesWritten 値が予想されるしきい値を下回っています。
FlowFilesReceived 値がしきい値を下回っています。
クラスターが異常です。

Monitor でアラートを設定する方法の詳細については、「Microsoft Azure でのアラートの概要」をご覧ください。

構成パラメータ

次のセクションでは、NiFi とその依存関係 (ZooKeeper や Java など) で推奨される既定以外の構成について説明します。これらの設定は、クラウドで可能なクラスターのサイズに適しています。次の構成ファイルでプロパティを設定します。

$NIFI_HOME/conf/nifi.properties
$NIFI_HOME/conf/bootstrap.conf
$ZOOKEEPER_HOME/conf/zoo.cfg
$ZOOKEEPER_HOME/bin/zkEnv.sh

使用可能な構成プロパティとファイルの詳細については、「Apache NiFi システム管理者ガイド」および「ZooKeeper 管理者ガイド」をご覧ください。

NiFi

Azure のデプロイでは、$NIFI_HOME/conf/nifi.properties でプロパティを調整することを検討してください。次の表に、最も重要なプロパティを示します。その他の推奨事項と分析情報については、「Apache NiFi メーリングリスト」をご覧ください。

パラメーター	説明	Default	推奨事項
`nifi.cluster.node.connection.timeout`	他のクラスターノードへの接続を開くときの待機時間。	5 秒	60 秒
`nifi.cluster.node.read.timeout`	他のクラスターノードに要求を行うときに応答を待機する時間。	5 秒	60 秒
`nifi.cluster.protocol.heartbeat.interval`	ハートビートをクラスターコーディネーターに送り返す頻度。	5 秒	60 秒
`nifi.cluster.node.max.concurrent.requests`	他のクラスターノードへの REST API 呼び出しなどの HTTP 呼び出しをレプリケートするときに使用する並列処理のレベル。	100	500
`nifi.cluster.node.protocol.threads`	クラスター間/レプリケートされた通信の初期スレッドプールのサイズ。	10	50
`nifi.cluster.node.protocol.max.threads`	クラスター間/レプリケートされた通信に使用するスレッドの最大数。	50	75
`nifi.cluster.flow.election.max.candidates`	現在のフローを決定するときに使用するノードの数。この値は、指定された数の投票をショートサーキットします。	empty	75
`nifi.cluster.flow.election.max.wait.time`	現在のフローを決定する前にノードを待機する時間。	5 分	5 分

クラスターの動作

クラスターを構成するときは、次の点に注意してください。

タイムアウト

ラスターとそのノードの全体的な正常性を確保するために、タイムアウトを増やす方が有益な場合があります。この方法は、一時的なネットワークの問題や高負荷が原因で障害が発生しないことを保証するのに役立ちます。

分散システムでは、個々のシステムのパフォーマンスが変動します。この変動には、ネットワーク通信と待機時間が含まれます。これは通常、ノード間通信とクラスター間通信に影響します。ネットワークインフラストラクチャまたはシステム自体によって、この変動が発生する可能性があります。その結果、システムの大規模なクラスターでは、変動の確率が非常に高くなる可能性があります。負荷がかかっている Java アプリケーションでは、Java 仮想マシン (JVM) のガベージコレクション (GC) の一時停止も、要求の応答時間に影響を与える可能性があります。

システムのニーズに合わせてタイムアウトを構成するには、次のセクションのプロパティを使用します。

nifi.cluster.node.connection.timeout および nifi.cluster.node.read.timeout

nifi.cluster.node.connection.timeout プロパティは、接続を開くときの待機時間を指定します。 nifi.cluster.node.read.timeout プロパティは、要求間でデータを受信するときの待機時間を指定します。各プロパティの既定値は 5 秒です。これらのプロパティは、ノード間の要求に適用されます。これらの値を増やすことで、関連するいくつかの問題を緩和できます。

ハートビートの中断によりクラスターコーディネーターによって切断されている
クラスターに結合するときにコーディネーターからフローを取得できない
サイト間 (S2S) および負荷分散通信の確立

クラスターに 3 ノード以下のような非常に小さなスケールセットがある場合を除き、既定値よりも大きい値を使用します。

nifi.cluster.protocol.heartbeat.interval

NiFi クラスタリング戦略の一環として、各ノードはその正常性状態を伝えるハートビートを送信します。ノードは既定で、5 秒ごとにハートビートを送信します。クラスターコーディネーターがノードからの連続した 8 つのハートビートに障害が発生したことを検出すると、ノードは切断されます。 nifi.cluster.protocol.heartbeat.interval プロパティに設定されている間隔を増やして、低速のハートビートに対応し、クラスターがノードを不必要に切断しないようにします。

コンカレンシー

同時実行の設定を構成するには、次のセクションのプロパティを使用します。

nifi.cluster.node.protocol.threads および nifi.cluster.node.protocol.max.threads

nifi.cluster.node.protocol.max.threads プロパティは、S2S 負荷分散や UI 集計などのすべてのクラスター通信に使用するスレッドの最大数を指定します。このプロパティの既定値は 50 スレッドです。大規模なクラスターの場合、この値を大きくすると、これらの操作に必要な要求の数が増えます。

nifi.cluster.node.protocol.threads プロパティは、初期スレッドプールのサイズを決定します。既定値は 10 スレッドです。この値が最小値です。必要に応じて、nifi.cluster.node.protocol.max.threads で設定されている最大値まで大きくなります。起動時に大規模なセットを使用するクラスターの nifi.cluster.node.protocol.threads 値を増やします。

nifi.cluster.node.max.concurrent.requests

REST API 呼び出しや UI 呼び出しなどの多くの HTTP 要求は、クラスター内の他のノードにレプリケートする必要があります。クラスターのサイズが大きくなると、レプリケートされる要求の数が増えます。 nifi.cluster.node.max.concurrent.requests プロパティは、未処理の要求の数を制限します。この値は、予想されるクラスターサイズを超える必要があります。既定値は 100 件の同時要求です。 3 つ以下のノードの小さなクラスターを実行している場合を除き、この値を増やして要求の失敗を防ぎます。

フローの選択

フロー選択設定を構成するには、次のセクションのプロパティを使用します。

nifi.cluster.flow.election.max.candidates

NiFi はゼロリーダークラスタリングを使用するため、特定の権限のあるノードは 1つもありません。その結果、ノードはどのフロー定義が正しいものとしてカウントされるかについて投票します。また、クラスターに参加するノードを決定する投票も行います。

既定では、 nifi.cluster.flow.election.max.candidates プロパティは nifi.cluster.flow.election.max.wait.time プロパティが指定する最大待機時間です。この値が大きすぎると、起動が遅くなる可能性があります。 nifi.cluster.flow.election.max.wait.time の規定値は 5 分です。候補の最大数を 1 以上のような空でない値に設定して、待機が必要以上に長くならないようにします。このプロパティを設定する場合は、クラスターサイズまたは予想されるクラスターサイズの過半数に対応する値を割り当てます。ノード数が 10 以下の小規模な静的クラスターの場合は、この値をクラスター内のノード数に設定します。

nifi.cluster.flow.election.max.wait.time

柔軟なクラウド環境では、ホストをプロビジョニングする時間がアプリケーションの起動時間に影響します。 nifi.cluster.flow.election.max.wait.time プロパティは、フローを決定する前に NiFi が待機する時間を決定します。この値を、クラスターの開始サイズでの全体的な起動時間に見合う値にします。初期テストでは、推奨されるインスタンスの種類を持つすべての Azure リージョンで 5 分で十分です。ただし、定期的にプロビジョニングする時間が既定値を超える場合は、この値を増やします。

Java

Java の LTS リリースを使用することをお勧めします。これらのリリースのうち、Java 11 はより高速なガベージコレクションの実装をサポートしているため、Java 8 よりも Java 11 の方が若干適しています。ただし、どちらのリリースを使用しても高性能の NiFi をデプロイすることは可能です。

次のセクションでは、NiFi を実行するときに使用する一般的な JVM 構成について説明します。 $NIFI_HOME/conf/bootstrap.conf のブートストラップ構成ファイルで JVM パラメーターを設定します。

ガベージコレクター

Java 11 を実行している場合は、ほとんどの状況で G1 ガベージコレクター (G1GC) を使用することをお勧めします。 G1GC は GC の一時停止の長さを短縮するため、ParallelGC よりもパフォーマンスが向上しています。 G1GC は Java 11 の既定値ですが、bootstrap.conf に次の値を設定することで明示的に構成できます。

java.arg.13=-XX:+UseG1GC

Java 8 を実行している場合は、G1GC を使用しないでください。代わりに ParallelGC を使用してください。 G1GC の Java 8 実装には欠陥があり、推奨されるリポジトリ実装では使用できません。 ParallelGC は G1GC よりも低速です。ただし、ParallelGC を使用すると、Java 8 で高性能の NiFi をデプロイできます。

ヒープ

bootstrap.conf ファイルにある一連のプロパティによって、NiFi JVM ヒープの構成が決まります。標準フローの場合は次の設定を使用して 32 GB ヒープを構成します。

java.arg.3=-Xmx32g
java.arg.2=-Xms32g

JVM プロセスに適用する最適なヒープサイズを選択するには、次の 2 つの要素を考慮してください。

データフローの特性
NiFi が処理でメモリを使用する方法

詳細なドキュメントについては、「Apache NiFi の詳細」をご覧ください。

処理要件を満たすために必要なだけヒープを大きくします。この方法では、GC の一時停止の長さが最小限に抑えられます。 Java ガベージコレクションに関する一般的な考慮事項については、Java バージョンのガベージコレクションチューニングガイドをご覧ください。

JVM メモリ設定を調整するときは、次の重要な要素を考慮してください。

特定の期間にアクティブな FlowFiles、または NiFi データレコードの数。この数には、バックプレッシャーまたはキューに登録済みの FlowFiles が含まれます。
FlowFiles で定義されている属性の数。
プロセッサが特定のコンテンツを処理するために必要なメモリの量。
プロセッサがデータを処理する方法:
- ストリーミングデータ
- レコード指向プロセッサの使用
- すべてのデータを一度にメモリに保持する

これらの詳細は重要です。処理中、NiFi はメモリ内の各 FlowFile の参照と属性を保持します。ピーク時のパフォーマンスでは、システムが使用するメモリの量は、ライブ FlowFile の数と、それらに含まれるすべての属性に比例します。の数には、キューに登録済みの FlowFiles が含まれます。 NiFi はディスクにスワップできます。ただし、このオプションはパフォーマンスを低下させるので避けてください。

また、基本的なオブジェクトのメモリ使用量にも注意してください。具体的には、オブジェクトをメモリに保持するのに十分な大きさのヒープを作成します。メモリ設定を構成するには、次のヒントを考慮してください。

設定 -Xmx4G から開始し、必要に応じてメモリを控えめに増やして代表的なデータと最小限のバックプレッシャーでフローを実行します。
設定 -Xmx4G から開始し、必要に応じてクラスターサイズを控えめに増やして代表的なデータとピーク時のバックプレッシャーでフローを実行します。
VisualVM や YourKit などのツールを使用して、フローの実行中にアプリケーションのプロファイルを作成します。
ヒープを控えめに増やしてもパフォーマンスが大幅に向上しない場合は、フロー、プロセッサ、およびシステムの他の側面を再設計することを検討してください。

その他の JVM パラメーター

次の表に、その他の JVM オプションを示します。また、初期テストで最もうまく機能した値も示します。テストでは GC アクティビティとメモリ使用量を観察し、慎重なプロファイリングを使用しました。

パラメーター	説明	JVM の既定値	推奨
`InitiatingHeapOccupancyPercent`	マーキングサイクルがトリガーされる前に使用されているヒープの量。	45	35
`ParallelGCThreads`	GC が使用するスレッドの数。この値は、システムへの全体的な影響を制限するために制限されます。	vCPU 数の 5/8	8
`ConcGCThreads`	並列実行する GC スレッドの数。この値は、上限のある ParallelGCThreads を考慮して増加します。	`ParallelGCThreads` 値の 1/4	4
`G1ReservePercent`	空きメモリを保持する予約メモリの割合。この値は、スペースの枯渇を回避するために増加され、完全な GC を回避するのに役立ちます。	10	20
`UseStringDeduplication`	同一の文字列への参照を識別して重複を削除するかどうかを指定します。この機能を有効にすると、メモリを節約できます。	-	present

NiFi bootstrap.conf に次のエントリを追加して、これらの設定を構成します。

java.arg.17=-XX:+UseStringDeduplication
java.arg.18=-XX:G1ReservePercent=20
java.arg.19=-XX:ParallelGCThreads=8
java.arg.20=-XX:ConcGCThreads=4
java.arg.21=-XX:InitiatingHeapOccupancyPercent=35

ZooKeeper

フォールトトレランスを向上させるには、ZooKeeper をクラスターとして実行します。ほとんどの NiFi デプロイで ZooKeeper に比較的少ない負荷がかかる場合でも、この方法を使用します。 ZooKeeper のクラスタリングを明示的に有効にします。既定では、ZooKeeper は単一サーバーモードで実行されます。詳細については、「ZooKeeper 管理者ガイド」の「クラスター化 (マルチサーバー) セットアップ」をご覧ください。

クラスタリング設定を除き、ZooKeeper の構成には既定値を使用します。

大規模な NiFi クラスターがある場合は、より多くの ZooKeeper サーバーを使用する必要がある場合があります。クラスターのサイズが小さい場合は、VM サイズと Standard SSD マネージドディスクを小さくするだけで十分です。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパル作成者:

Muazma Zahid | プリンシパル PM マネージャー

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ

このドキュメントに記載されている資料と推奨事項は、いくつかのソースからのものです。

実験
Azure のベストプラクティス
NiFi コミュニティのナレッジ、ベストプラクティス、およびドキュメント

詳細については、次のリソースを参照してください。

次の方法で共有