Azure Stack Edge Pro GPU デバイスのクラスター フェールオーバー シナリオ

この記事では、一般的なフェールオーバー シナリオ、Azure Stack Edge デバイスがどのように応答するか、フェールオーバーが発生した場合のクラスターにデプロイされたワークロードへの全体的な影響について説明します。

フェールオーバーについて

Azure Stack Edge は、1 つのスタンドアロン デバイスまたは 2 ノード クラスターとしてセットアップできます。 2 ノード クラスターの場合、クラスター化されたノードによって、クラスター上で実行されているアプリケーションとサービスの高可用性を実現できます。

クラスター化されたノードの一方で障害が発生した場合は、もう一方のノードでサービスの提供が開始されます。このプロセスはフェールオーバーと呼ばれます。 ディスク ドライブ、電源装置ユニット (PSU)、ネットワークなど、デバイスの 1 つまたは両方のノードに関連付けられたハードウェア コンポーネントに障害が発生した場合、またはデバイス ノードを更新した場合にも、フェールオーバーが発生することがあります。

フェールオーバーのシナリオ

フェールオーバーは、ハードウェア コンポーネント エラー、ノード エラー、または Azure Stack Edge クラスターの更新時に発生することがあります。

ハードウェア障害

ディスク ドライブ、電源装置、またはネットワークの 1 つ以上など、デバイス クラスターに関連付けられた物理ハードウェア コンポーネントのエラー シナリオを以下の表にまとめました。

ディスク ドライブ エラー

ノード A ノード B クラスターは存続する [フェールオーバー] 詳細
1 台のディスク ドライブのエラー エラーなし はい いいえ ディスクを交換するまでクラスターはデグレードします。
2 台以上のディスク ドライブのエラー エラーなし はい いいえ ディスクを交換するまでクラスターはデグレードします。
1 台以上のディスク ドライブのエラー 1 台以上のディスク ドライブのエラー いいえ クラスターはオフラインになります。

電源装置ユニット エラー

ノード A ノード B クラスターは存続する [フェールオーバー] 詳細
1 台の PSU のエラー エラーなし はい いいえ ノード A で別の電源装置エラーが発生した場合、ノード B にフェールオーバーします。
1 台の PSU のエラー 1 台の PSU のエラー はい いいえ いずれかのノードで別の電源装置エラーが発生した場合、フェールオーバーが発生します。
2 台の PSU のエラー エラーなし はい はい ノード A 上の VM はノード B にフェールオーバーします。
2 台の PSU のエラー (TBC) 1 台の PSU のエラー はい はい ノード A 上の VM はノード B にフェールオーバーします。
2 台の PSU のエラー 2 台の PSU のエラー いいえ クラスターはオフラインになります。

ネットワークのエラー

ノード A ノード B クラスターは存続する [フェールオーバー] 詳細
ポート 1、ポート 2、ポート 5、またはポート 6 のエラー エラーなし はい いいえ エラーが発生したポートは使用できません。 このポートでリッスンしているアプリが影響を受けます
ポート 3、ポート 4 のいずれかまたは両方のエラー エラーなし はい はい ノード A 上の VM はノード B にフェールオーバーします

ノードのエラーと更新

ノードのエラー

クラスター上で 1 つのノード全体にエラーが発生した場合のエラー シナリオを次の表にまとめました。

ノード A ノード B クラスターは存続する [フェールオーバー] 詳細
ノード全体のエラー エラーなし はい はい ノード A の VM はノード B にフェールオーバーします
ノード全体のエラー ノード全体のエラー いいえ - クラスターはオフラインになります
再起動 エラーなし はい はい ノード A の VM はノード B にフェールオーバーします
再起動 再起動 いいえ - 再起動が完了するまでクラスターはオフラインになります
コア コンポーネントのエラー。 たとえば、マザーボード、DIMM、OS ディスクなど。 エラーなし はい はい ノード A の VM はノード B にフェールオーバーします
コア コンポーネントのエラー。 たとえば、マザーボード、DIMM、OS ディスクなど。 コア コンポーネントのエラー。 たとえば、マザーボード、DIMM、OS ディスクなど。 いいえ - クラスターはオフラインになります

ノードの更新

ノード A ノード B クラスターは存続する [フェールオーバー] 詳細
ノードの更新 エラーなし はい はい ノード A の VM はノード B にフェールオーバーします
ノードの更新 2 台の PSU のエラー いいえ - クラスターはオフラインになります
ノードの更新 ノード全体がエラーまたはオフラインになる いいえ - クラスターはオフラインになります
ノードの更新 再起動 いいえ - クラスターはオフラインになります
ノードの更新 マザーボード、DIMM、OS ディスクなどのコア コンポーネントのエラー。 いいえ - クラスターはオフラインになります

次のステップ