Azure Operator Nexus Kubernetes でのリソースの配置

[アーティクル]
05/13/2024

Operator Nexus インスタンスは、顧客のオンプレミスにデプロイされます。各インスタンスは、1 ラック以上のベアメタルサーバーで構成されます。

ユーザーは、Nexus Kubernetes クラスター (NKS) を作成するときに、Kubernetes コントロールプレーンと 1 つ以上のエージェントプールを構成する仮想マシン (VM) の数と Stock Keeping Unit (SKU) を指定します。エージェントプールは、顧客のコンテナー化されたネットワーク機能が実行されるワーカーノードのセットです。

Nexus プラットフォームは、各 NKS VM が起動するベアメタルサーバーを決定する役割を担います。

Nexus プラットフォームが Nexus Kubernetes クラスター VM をスケジュールする方法

Nexus はまず、NKS VM SKU のリソース要件をすべて満たすベアメタルサーバーの候補のセットを識別します。たとえば、ユーザーがエージェントプールに NC_G48_224_v1 VM SKU を指定した場合、Nexus は、48 vCPU、224Gi の RAM などの使用可能な容量を持つベアメタルサーバーを収集します。

その後、Nexus は、スケジュールされているエージェントプールまたはコントロールプレーンの AvailabilityZones フィールドを調べます。このフィールドが空でない場合、Nexus はベアメタルサーバーの候補一覧を、指定された可用性ゾーン (ラック) 内のサーバーのみにフィルター処理します。この動作は、ハードスケジューリングの制約です。フィルター処理された一覧にベアメタルサーバーがない場合、Nexus は、NKS VM をスケジュールせず、クラスターのプロビジョニングに失敗します。

Nexus が、NKS VM を配置するベアメタルサーバーの一覧を識別したら、次の並べ替え規則を適用した後、ベアメタルサーバーの 1 つを選択します。

この NKS クラスターの NKS VM を持たない可用性ゾーン (ラック) にベアメタルサーバーを優先します。言い換えると、NKS クラスターの NKS VM を可用性ゾーンに分散させます。
同じ NKS クラスターの他の NKS VM を持たない単一の可用性ゾーン (ラック) 内のベアメタルサーバーを優先します。言い換えると、可用性ゾーン内のベアメタルサーバー間で、NKS クラスターの NKS VM を分散させます。
NKS VM SKU が NC_G48_224_v1 または NC_P46_224_v1 の場合は、他の NKS クラスターの NC_G48_224_v1 または NC_P46_224_v1 の NKS VM を既に収容しているベアメタルサーバーを優先します。言い換えると、同じベアメタルサーバー上の異なる NKS クラスターで特大 VM をグループ化します。このルールは、使用可能なコンピューティングリソースの断片化を減らすために、特大 VM を "ビンパック" します。

配置シナリオの例

次のセクションでは、Nexus ユーザーが Operator Nexus 環境に対して NKS クラスターを作成するときの動作について説明します。

ヒント: NKS KubernetesCluster リソースの nodes.bareMetalMachineId プロパティを調べるか、Azure portal の Kubernetes クラスターノードの表示で [ホスト] 列を見ることで、NKS VM がどのベアメタルサーバーにスケジュールされたかを確認できます。

Operator Nexus 環境の例には、次の仕様があります。

16 台のベアメタルサーバーの 8 ラック
各ベアメタルサーバーには、2 つの Non-Uniform Memory Access (NUMA) セルが含まれています
各 NUMA セルには、48 CPU と 224Gi RAM が用意されています

空の環境

指定された容量を持つ空の Operator Nexus 環境を想定して、サイズの異なる Nexus Kubernetes クラスターを 3 つの作成します。

NKS クラスターにはこれらの仕様があるため、この演習では、ユーザーが次の順序で 3 つのクラスターを作成することを前提としています。

クラスター A

コントロールプレーン、NC_G12_56_v1 SKU、3 カウント
エージェントプール #1、NC_P46_224_v1 SKU、24 カウント
エージェントプール #2、NC_G6_28_v1 SKU、6 カウント

クラスター B

コントロールプレーン、NC_G24_112_v1 SKU、5 カウント
エージェントプール #1、NC_P46_224_v1 SKU、48 カウント
エージェントプール #2、NC_P22_112_v1 SKU、24 カウント

クラスター C

コントロールプレーン、NC_G12_56_v1 SKU、3 カウント
エージェントプール #1、NC_P46_224_v1 SKU、12 カウント、AvailabilityZones = [1,4]

空の Operator Nexus 環境でクラスター A、B、C を起動した後に表示される内容をまとめた表はこちらです。

クラスター	プール	SKU	合計数	予想される # ラック数	実際の # ラック数	ラックあたりの予想される # VM 数	ラックあたりの実際の # VM 数
A	コントロールプレーン	`NC_G12_56_v1`	3	3	3	1	1
A	エージェントプール #1	`NC_P46_224_v1`	24	8	8	3	3
A	エージェントプール #2	`NC_G6_28_v1`	6	6	6	1	1
B	コントロールプレーン	`NC_G24_112_v1`	5	5	5	1	1
B	エージェントプール #1	`NC_P46_224_v1`	48	8	8	6	6
B	エージェントプール #2	`NC_P22_112_v1`	24	8	8	3	3
C	コントロールプレーン	`NC_G12_56_v1`	3	3	3	1	1
C	エージェントプール #1	`NC_P46_224_v1`	12	2	2	6	6

8 つのラックがあるため、各プールの VM は最大 8 つのラックに分散されます。 VM が 8 台を超えるプールでは、ラックごとに複数の VM を異なるベアメタルサーバーに分散する必要があります。

クラスター C エージェントプール #1 には 12 台の VM が AvailabilityZones [1, 4] に制限されているため、12 台のベアメタルサーバー上に 12 台の VM があり、ラック 1 と 4 にそれぞれ 6 台の VM が搭載されます。

異なるクラスターからの特大 VM (NC_P46_224_v1 SKU) は、同じベアメタルサーバーに配置されます (「Nexus プラットフォームが Nexus Kubernetes クラスター VM をスケジュールする方法」のルール #3 を参照)。

クラスター A、B、C を空の環境にデプロイした後に表示される可能性があるレイアウトの視覚化を次に示します。

ハーフフル環境

次に、ターゲット環境がハーフフル状態のときに別の NKS クラスターを起動する例を示します。ターゲット環境は、クラスター A、B、および C がターゲット環境にデプロイされた後、ハーフフルになります。

クラスター D の仕様は次のとおりです。

コントロールプレーン、NC_G24_112_v1 SKU、5 カウント
エージェントプール #1、NC_P46_224_v1 SKU、24 カウント、AvailabilityZones = [7,8]
エージェントプール #2、NC_P22_112_v1 SKU、24 カウント

クラスター A、B、および C を起動した後に存在するハーフフル状態の Operator Nexus 環境にクラスター D を起動した後に表示される内容をまとめた表はこちらです。

クラスター	プール	SKU	合計数	予想される # ラック数	実際の # ラック数	ラックあたりの予想される # VM 数	ラックあたりの実際の # VM 数
D	コントロールプレーン	`NC_G12_56_v1`	5	5	5	1	1
D	エージェントプール #1	`NC_P46_224_v1`	24	2	2	12	12
D	エージェントプール #2	`NC_P22_112_v1`	24	8	8	3	3

クラスター D エージェントプール #1 には 12 台の VM が AvailabilityZones [7, 8] に制限されているため、12 台のベアメタルサーバー上に 12 台の VM があり、ラック 7 と 8 にそれぞれ 6 台の VM が搭載されます。これらの VM は、異なるクラスターの特大 VM を同じベアメタルサーバーにグループ化する並べ替え規則により、他のクラスターの特大 VM を収容するベアメタルサーバーにも配置されます。

クラスター D コントロールプレーン VM がラック 7 または 8 に配置されている場合、クラスター D エージェントプール #1 VM がそのクラスター D コントロールプレーン VM と同じベアメタルサーバーに配置されている可能性があります。この動作は、エージェントプール #1 がラック 7 と 8 に "ピン留め" されているためです。これらのラックの容量の制約により、スケジューラは同じ NKS クラスターのコントロールプレーン VM とエージェントプール #1 VM を併置します。

クラスター D のエージェントプール #2 には、8 つのラックごとに異なるベアメタルサーバー上に 3 台の VM があります。容量の制約は、クラスター D のエージェントプール #1 がラック 7 と 8 にピン留めされていることによって発生しました。そのため、クラスター D のエージェントプール #1 とエージェントプール #2 の VM は、ラック 7 と 8 の同じベアメタルサーバーに併置されます。

クラスター D をターゲット環境にデプロイした後に表示される可能性があるレイアウトの視覚化を次に示します。

ほぼフル環境

この例のターゲット環境では、8 つのラックのうち 4 つのラックの容量が満杯に近い状態です。別の NKS クラスターを起動してみましょう。

クラスター E には、次の仕様があります。

コントロールプレーン、NC_G24_112_v1 SKU、5 カウント
エージェントプール #1、NC_P46_224_v1 SKU、32 カウント

ターゲット環境でクラスター E を起動した後に表示される内容をまとめた表はこちらです。

クラスター	プール	SKU	合計数	予想される # ラック数	実際の # ラック数	ラックあたりの予想される # VM 数	ラックあたりの実際の # VM 数
E	コントロールプレーン	`NC_G24_112_v1`	5	5	5	1	1
E	エージェントプール #1	`NC_P46_224_v1`	32	8	8	4	3、4、または 5

クラスター E のエージェントプール #1 は、8 つのラックすべてに不均等に分散されます。ラック 7 とラック 8 では、クラスター A から D をスケジュールした後に、これらのラック内に特大 SKU VM の容量がなくなったため、予想される 4 台の NKS VM ではなく、エージェントプール #1 の 3 台の NKS VM が配置されます。ラック 7 とラック 8 には、エージェントプール #1 の 4 番目の特大 SKU の容量がないため、5 台の NKS VM が最も使用率の低い 2 つのラックに配置されます。この例では、最も使用率の低いラックはラック 3 とラック 6 でした。

クラスター E をターゲット環境にデプロイした後に表示される可能性があるレイアウトの視覚化を次に示します。

ランタイムアップグレード中の配置

2024 年 4 月現在 (Network Cloud 2304.1 リリース)、ランタイムアップグレードはラックごとの戦略を使用して実行されます。ラック 1 のベアメタルサーバーは、一度にすべて再イメージ化されます。アップグレードプロセスは、すべてのベアメタルサーバーが正常に再起動し、ワークロードを受け取る準備ができたことを Nexus に伝えるまで一時停止します。

Note

ラック内のベアメタルサーバの一部のみを一度に再イメージ化するように Operator Nexus に指示できますが、デフォルトでは、ラック内のすべてのベアメタルサーバを並列して再イメージ化します。

個々のベアメタルサーバーが再イメージ化されると、すべての NKS VM を含む、そのベアメタルサーバーで実行されているすべてのワークロードの電源と接続が失われます。 NKS VM 上で実行されているワークロードコンテナーの電源と接続が失われます。これらのワークロードコンテナーに到達できない状態が 1 分間続くと、NKS クラスターの Kubernetes コントロールプレーンは、対応するポッドを異常としてマークします。ポッドが Deployment または StatefulSet のメンバーである場合、NKS クラスターの Kubernetes コントロールプレーンは、Deployment または StatefulSet の観測されたレプリカ数を目的のレプリカ数に戻すために、代替ポッドの起動を試みます。

新しいポッドは、残りの正常な NKS VM にポッド用の使用可能な容量がある場合にのみ起動します。 2024 年 4 月現在 (Network Cloud 2304.1 リリース)、新しい NKS VM は、再イメージ化中のベアメタルサーバー上の NKS VM を置き換えるために作成されません。

ベアメタルサーバーが正常に再イメージ化され、新しい NKS VM を受け入れることができたら、元々同じベアメタルサーバー上にあった NKS VM が、新しく再イメージ化されたベアメタルサーバー上で再起動されます。その後、ワークロードコンテナーがこれらの NKS VM にスケジュールされ、ベアメタルサーバー上の NKS VM にポッドが存在していた Deployment または StatefulSet が復元される可能性があります。

Note

この動作は、NKS VM がベアメタルサーバーから "移動" していないように見える可能性がありますが、実際には、同一の NKS VM の新しいインスタンスが、再イメージ化する前と同じベアメタルサーバー名を保持する、新しく再イメージ化されたベアメタルサーバー上で起動されています。

ベストプラクティス

Operator Nexus を使用する場合は、次のベストプラクティスに留意してください。

エージェントプールに AvailabilityZones を指定しないでください。
より大きな NKS クラスターをより小さなクラスターより先に起動します。
VM SKU サイズを小さくする前に、エージェントプールの数を減らしてください。

エージェントプールに AvailabilityZones を指定しないでください

上記の配置シナリオからわかるように、エージェントプールに AvailabilityZones を指定することが、同じ NKS クラスターの NKS VM が同じベアメタルサーバーに配置される主な理由です。 AvailabilityZones を指定することで、エージェントプールをラックのサブセットに "ピン留め" するため、他の NKS クラスターと同じ NKS クラスターの他のエージェントプール VM が配置されるラックセット内の潜在的なベアメタルサーバーの数を制限できます。

そのため、最初のベストプラクティスは、エージェントプールに AvailabilityZones を指定しないことです。エージェントプールを可用性ゾーンのセットにピン留めする必要がある場合は、発生する可能性のある不均衡を最小限に抑えるために、そのセットをできるだけ大きくしてください。

このベストプラクティスの 1 つの例外は、エージェントプールに 2 つまたは 3 つの VM しかないシナリオがある場合です。ランタイムのアップグレード中に可用性を高めるために、そのエージェントプールの AvailabilityZones を [1,3,5,7] または [0,2,4,6] に設定することを検討してください。

より大きな NKS クラスターをより小さなクラスターより先に起動する

2024 年 4 月および Network Cloud 2403.1 リリース以降、NKS クラスターは作成順にスケジュールされています。ターゲット環境を最も効率的にパックするには、より大きな NKS クラスターを作成してから小さなクラスターを作成することをお勧めします。同様に、大きなエージェントプールを小さなエージェントプールより先にスケジュールすることもお勧めします。

この推奨事項は、特大 NC_G48_224_v1 または NC_P46_224_v1 SKU を使用するエージェントプールで重要です。これらの特大 SKU VM の数が最も多いエージェントプールをスケジュールすることで、他の NKS クラスター内のエージェントプールの他の特大 SKU VM が併置できる、より大きなベアメタルサーバーのセットが作成されます。

VM SKU サイズを小さくする前に、エージェントプールの数を減らす

NKS クラスターまたはエージェントプールを起動するときに容量の制約が発生した場合は、VM SKU サイズを調整する前にエージェントプールの数を減らします。たとえば、VM SKU サイズが NC_P46_224_v1、24 のエージェントプールを持つ NKS クラスターを作成しようとした場合、リソース不足のために、NKS クラスターのプロビジョニングに失敗したと返されると、VM SKU サイズを NC_P36_168_v1 に変更し、エージェントプールを 24 のままで再度作成したくなるかもしれません。ただし、ワークロード VM がベアメタルサーバ上の単一の NUMA セルに合わせる必要があるため、同じ要求で同様のリソース不足のエラーが発生する可能性があります。 VM SKU のサイズを小さくする代わりに、エージェントプールの数を 20 に減らすことを検討してください。 VM SKU のサイズを小さくした場合よりも、要求がターゲット環境のリソース容量に収まり、デプロイ全体の CPU コア数が増える可能性が高くなります。

次の方法で共有

Azure Operator Nexus Kubernetes でのリソースの配置

Nexus プラットフォームが Nexus Kubernetes クラスター VM をスケジュールする方法

配置シナリオの例

空の環境

ハーフフル環境

ほぼフル環境

ランタイムアップグレード中の配置

ベストプラクティス

エージェントプールに AvailabilityZones を指定しないでください

より大きな NKS クラスターをより小さなクラスターより先に起動する

VM SKU サイズを小さくする前に、エージェントプールの数を減らす

フィードバック

その他のリソース

次の方法で共有

Azure Operator Nexus Kubernetes でのリソースの配置

Nexus プラットフォームが Nexus Kubernetes クラスター VM をスケジュールする方法

配置シナリオの例

空の環境

ハーフフル環境

ほぼフル環境

ランタイム アップグレード中の配置

ベスト プラクティス

エージェント プールに AvailabilityZones を指定しないでください

より大きな NKS クラスターをより小さなクラスターより先に起動する

VM SKU サイズを小さくする前に、エージェント プールの数を減らす

フィードバック

その他のリソース

ランタイムアップグレード中の配置

ベストプラクティス

エージェントプールに AvailabilityZones を指定しないでください

VM SKU サイズを小さくする前に、エージェントプールの数を減らす