RAS ゲートウェイの高可用性
このトピックでは、ソフトウェア定義ネットワーク (SDN) 用の RAS マルチテナント ゲートウェイの高可用性構成について説明します。
このトピックは、次のセクションで構成されています。
RAS ゲートウェイの概要
組織がクラウド サービス プロバイダー (CSP) である、または複数のテナントを持つエンタープライズの場合、RAS ゲートウェイをマルチテナント モードで展開して、仮想ネットワークと物理ネットワークとの間でインターネットを含めてネットワーク トラフィックのルーティングを提供できます。
テナントの顧客ネットワーク トラフィックをテナントの仮想ネットワークとリソースにルーティングするために、RAS ゲートウェイをエッジ ゲートウェイとしてマルチテナント モードで展開できます。
高可用性とフェールオーバーを提供する RAS ゲートウェイ VM の複数のインスタンスを展開する場合は、ゲートウェイ プールを展開します。 Windows Server 2012 R2 では、すべてのゲートウェイ VM で単一のプールが形成されるため、ゲートウェイの展開を論理的に分離することが少し困難でした。 Windows Server 2012 R2 ゲートウェイでは、ゲートウェイ VM に対して 1:1 の冗長展開が提供され、サイト間 (S2S) VPN 接続に利用できる容量が十分に利用されませんでした。
この問題は Windows Server 2016 で解決されました。複数のゲートウェイ プールが提供され、異なる種類で論理的に分離できるようになりました。 新しいモードの M + N 冗長性を使用すると、さらに効率的なフェールオーバー構成が可能になります。
RAS ゲートウェイの概要については、「RAS ゲートウェイ」を参照してください。
ゲートウェイ プールの概要
Windows Server 2016 では、ゲートウェイを 1 つまたは複数のプールに展開できます。
次の図は、仮想ネットワーク間のトラフィック ルーティングを提供する異なる種類のゲートウェイ プールを示しています。
各プールに、次のプロパティがあります。
各プールは M + N 冗長です。 これは、"M" 個のアクティブ ゲートウェイ VM が、"N" 個のスタンバイ ゲートウェイ VM によってバックアップされることを意味します。 N (スタンバイ ゲートウェイ) の値は、常に M (アクティブ ゲートウェイ) 以下です。
プールで、個々のゲートウェイ機能 (インターネット キー交換バージョン 2 (IKEv2) サイト間、レイヤー 3 (L3)、および汎用ルーティング カプセル化 (GRE)) のいずれかを実行でき、プールで、これらの機能をすべて実行することもできます。
1 つのパブリック IP アドレスを、すべてのプールに、またはプールのサブセットに、割り当てることができます。 このようにすると、すべてのテナントが単一の IP アドレスでクラウドに接続できるため、使用する必要のあるパブリック IP アドレスの数が大幅に減ります。 しくみについては、後述の高可用性と負荷分散に関するセクションで説明します。
プール内のゲートウェイ VM を追加または削除することで、ゲートウェイ プールを簡単にスケールアップまたはスケールダウンできます。 ゲートウェイを削除または追加しても、プールによって提供されるサービスは中断されません。 また、ゲートウェイのプール全体を追加および削除することもできます。
単一テナントの接続は、複数のプールおよび 1 つのプール内の複数のゲートウェイで終了させることができます。 ただし、テナントの接続がすべての種類のゲートウェイ プールで終了する場合、他のすべての種類または個別の種類のゲートウェイ プールにサブスクライブすることはできません。
ゲートウェイ プールは、追加シナリオを実現する柔軟性も備えています。
シングル テナント プール - 1 つのテナントで使用するプールを 1 つ作成できます。
パートナー (リセラー) チャネルを通じてクラウド サービスを販売している場合は、リセラーごとに個別のプール セットを作成できます。
複数のプールで、ゲートウェイ機能は同じで、異なる容量を提供できます。 たとえば、高スループットと低スループットの両方の IKEv2 サイト間接続をサポートするゲートウェイ プールを作成できます。
RAS ゲートウェイの展開の概要
次の図は、RAS ゲートウェイの一般的なクラウド サービス プロバイダー (CSP) の展開を示しています。
この種類の展開では、ゲートウェイ プールはソフトウェア ロード バランサー (SLB) の背後に展開され、CSP は展開全体に 1 つのパブリック IP アドレスを割り当てることができます。 テナントの複数のゲートウェイ接続は、複数のゲートウェイ プールで終了させることができ、プール内の複数のゲートウェイで終了させることもできます。 これは、上の図では IKEv2 サイト間接続で示されていますが、L3 や GRE ゲートウェイなどの他のゲートウェイ機能にも同じことが当てはまります。
この図では、MT BGP デバイスは、BGP を使用する RAS マルチテナント ゲートウェイです。 マルチテナント BGP は動的ルーティングに使用されます。 テナントのルーティングは集中管理され、ルート リフレクター (RR) と呼ばれる単一ポイントで、すべてのテナント サイトの BGP ピアリングが処理されます。 RR 自体は、プール内のすべてのゲートウェイに分散されます。 この結果、テナント (データ パス) の接続が複数のゲートウェイで終了するが、テナント (BGP ピアリング ポイント - 制御パス) の RR はゲートウェイの 1 つのみにある構成になります。
この集中ルーティングの概念を表すために、この図では BGP ルーターが分離されています。 ゲートウェイの BGP 実装により、転送ルーティングも提供されます。これにより、クラウドは 2 つのテナント サイト間でルーティングを行うための転送ポイントとして機能できます。 これらの BGP 機能は、すべてのゲートウェイ機能に適用できます。
RAS ゲートウェイとネットワーク コントローラーの統合
RAS ゲートウェイは、Windows Server 2016 のネットワーク コントローラーと完全に統合されています。 RAS ゲートウェイとネットワーク コントローラーが展開されると、ネットワーク コントローラーによって、次の機能が実行されます。
ゲートウェイ プールの展開
各ゲートウェイでのテナント接続の構成
ゲートウェイの障害発生時にネットワーク トラフィック フローをスタンバイ ゲートウェイに切り替える
以降のセクションで、RAS ゲートウェイとネットワーク コントローラーの詳細について説明します。
ゲートウェイ接続のプロビジョニングと負荷分散 (IKEv2、L3、GRE)
テナントからゲートウェイ接続が要求されると、要求はネットワーク コントローラーに送信されます。 ネットワーク コントローラーは、各プールの容量やすべてのプールのすべてのゲートウェイなど、すべてのゲートウェイ プールに関する情報で構成されます。 ネットワーク コントローラーによって、接続に適したプールとゲートウェイが選択されます。 この選択は、接続の帯域幅要件に基づきます。 ネットワーク コントローラーによって、プール内の接続を効率的に選択する "最適" アルゴリズムが使用されます。 これがテナントの最初の接続である場合は、この時点で、接続の BGP ピアリング ポイントも指定されます。
ネットワーク コントローラーによって接続用の RAS ゲートウェイが選択されると、ネットワーク コントローラーによってゲートウェイでの接続に必要な構成がプロビジョニングされます。 接続が IKEv2 サイト間接続の場合は、ネットワーク コントローラーによって、SLB プールにネットワーク アドレス変換 (NAT) ルールもプロビジョニングされます。SLB プールのこの NAT ルールによって、テナントから指定したゲートウェイに接続要求が送信されます。 テナントは、一意であるはずのソース IP によって区別されます。
注意
L3 および GRE 接続では、SLB はバイパスされ、指定した RAS ゲートウェイに直接接続されます。 これらの接続では、リモート エンドポイント ルーター (または他のサードパーティのデバイス) が RAS ゲートウェイと接続するように正しく構成される必要があります。
BGP ルーティングが接続に対して有効になっている場合、BGP ピアリングは RAS ゲートウェイによって開始され、ルートがオンプレミスとクラウド ゲートウェイ間で交換されます。 BGP によって学習されたルート (BGP が使用されていない場合は静的に構成されたルート) がネットワーク コントローラーに送信されます。 次に、ネットワーク コントローラーによって、テナント VM がインストールされている Hyper-V ホストまでのルートが組み込まれます。 この時点で、テナント トラフィックが適切なオンプレミス サイトにルーティングされるようになります。 また、ネットワーク コントローラーによって、ゲートウェイの場所を指定する関連の Hyper-V ネットワーク仮想化ポリシーが作成され、Hyper-V ホストに組み込まれます。
IKEv2 サイト間の高可用性
プール内の RAS ゲートウェイは、異なるテナントの接続と BGP ピアリングの両方で構成されます。 どのプールにも "M" 個のアクティブ ゲートウェイと "N" 個のスタンバイ ゲートウェイがあります。
ゲートウェイの障害は、ネットワーク コントローラーによって次の方法で処理されます。
ネットワーク コントローラーでは、すべてのプールのゲートウェイに対して絶えず ping が実行され、障害が発生した、または発生しているゲートウェイを検出できます。 ネットワーク コントローラーでは、RAS ゲートウェイの次の種類の障害を検出できます。
RAS ゲートウェイ VM の障害
RAS ゲートウェイが実行されている Hyper-V ホストの障害
RAS ゲートウェイ サービスの障害
ネットワーク コントローラーには、展開されているすべてのアクティブ ゲートウェイの構成が格納されます。 構成は、接続設定とルーティング設定で構成されます。
ゲートウェイで障害が発生すると、そのゲートウェイのテナント接続だけでなく、他のゲートウェイに配置されていても、その RR が障害が発生したゲートウェイに存在するテナント接続にも影響します。 後者の接続のダウン時間は、前者よりも短いです。 ネットワーク コントローラーで、障害が発生したゲートウェイが検出されると、次のタスクが実行されます。
影響を受けた接続のルートをコンピューティング ホストから削除します。
これらのホスト上の Hyper-V ネットワーク仮想化ポリシーを削除します。
スタンバイ ゲートウェイを選択して、アクティブ ゲートウェイに変換し、ゲートウェイを構成します。
SLB プールの NAT マッピングを新しいゲートウェイへの接続をポイントするように変更します。
同時に、構成が新しいアクティブ ゲートウェイで行われると、IKEv2 サイト間接続と BGP ピアリングが再確立されます。 接続と BGP ピアリングは、クラウド ゲートウェイまたはオンプレミス ゲートウェイのいずれかで開始できます。 ゲートウェイによって、ルートが更新され、ネットワーク コントローラーに送信されます。 ネットワーク コントローラーでは、ゲートウェイによって検出された新しいルートが学習されると、ルートおよび関連する Hyper-V ネットワーク仮想化ポリシーが、障害の影響を受けたテナントの VM が存在する Hyper-V ホストに送信されます。 このネットワーク コントローラーの動作は、新しい接続設定の状況と似ていますが、さらに大きな規模でのみ発生します。
GRE の高可用性
障害検出、スタンバイ ゲートウェイへの接続とルーティング構成のコピー、影響を受けた接続の BGP/静的ルーティングのフェールオーバー (コンピューティング ホストと BGP の再ピアリングでのルートの撤回と組み込みを含む)、コンピューティング ホストでの Hyper-V ネットワーク仮想化ポリシーの再構成など、ネットワーク コントローラーによる RAS ゲートウェイのフェールオーバー応答のプロセスは GRE ゲートウェイと接続で同じです。 ただし、GRE 接続の再確立は別の方法で行われ、GRE の高可用性ソリューションにはいくつかの追加要件があります。
ゲートウェイの展開時に、すべての RAS ゲートウェイ VM に動的 IP アドレス (DIP) が割り当てられます。 さらに、すべてのゲートウェイ VM にも GRE 高可用性のための仮想 IP アドレス (VIP) が割り当てられます。 VIP は、GRE 接続を受け入れることができるプール内のゲートウェイにのみ割り当てられ、GRE 以外のプールには割り当てられません。 割り当てられた VIP は、BGP を使用してトップ オブ ラック (TOR) スイッチにアドバタイズされ、VIP はさらにクラウド物理ネットワークにアドバタイズされます。 これにより、GRE 接続のもう一方の端が存在するリモート ルーターまたはサードパーティのデバイスからゲートウェイに到達可能になります。 この BGP ピアリングは、テナント ルートを交換するためのテナントレベルの BGP ピアリングとは異なります。
GRE 接続プロビジョニングの時点で、ネットワーク コントローラーにより、ゲートウェイが選択され、選択されたゲートウェイで GRE エンドポイントが構成され、割り当てられたゲートウェイの VIP アドレスが返されます。 この VIP は、リモート ルーター上の宛先 GRE トンネル アドレスとして構成されます。
ゲートウェイに障害が発生すると、ネットワーク コントローラーによって、障害が発生したゲートウェイの VIP アドレスとその他の構成データがスタンバイ ゲートウェイにコピーされます。 スタンバイ ゲートウェイがアクティブになると、その TOR スイッチ、さらに物理ネットワークに VIP がアドバタイズされます。 リモート ルーターによって、GRE トンネルが引き続き同じ VIP に接続され、ルーティング インフラストラクチャによって、パケットが新しいアクティブ ゲートウェイにルーティングされるように保証されます。
L3 転送ゲートウェイの高可用性
Hyper-V ネットワーク仮想化 L3 転送ゲートウェイは、データセンター内の物理インフラストラクチャと Hyper-V ネットワーク仮想化クラウドの仮想化インフラストラクチャとの間の橋渡しをします。 マルチテナントの L3 転送ゲートウェイでは、テナントの物理ネットワークとの接続に、テナントごとに独自の VLAN タグ付きの論理ネットワークが使用されます。
新しいテナントで新しい L3 ゲートウェイが作成されると、ネットワーク コントローラー ゲートウェイ サービス マネージャーによって、使用可能なゲートウェイ VM が選択され、高度に利用可能な顧客アドレス (CA) 空間の IP アドレスを (テナントの VLAN タグ付きの論理ネットワークから) 使用して新しいテナント インターフェイスが構成されます。 この IP アドレスは、リモート (物理ネットワーク) ゲートウェイのピア IP アドレスとして使用され、テナントの Hyper-V ネットワーク仮想化ネットワークに接続するネクストホップです。
IPsec または GRE ネットワーク接続とは異なり、TOR スイッチでは、テナントの VLAN タグ付きネットワークは動的に学習されません。 エンドツーエンドの接続を確保するために、TOR スイッチと、物理インフラストラクチャとゲートウェイの間のすべての中間スイッチおよびルーターで、テナントの VLAN タグ付きネットワークのルーティングが構成される必要があります。 次は、以下の図に示した CSP 仮想ネットワーク構成の例です。
ネットワーク | Subnet | VLAN ID | 既定のゲートウェイ |
---|---|---|---|
Contoso L3 論理ネットワーク | 10.127.134.0/24 | 1001 | 10.127.134.1 |
Woodgrove L3 論理ネットワーク | 10.127.134.0/24 | 1002 | 10.127.134.1 |
次は、以下の図に示したテナント ゲートウェイ構成の例です。
テナント名 | L3 ゲートウェイ IP アドレス | VLAN ID | ピア IP アドレス |
---|---|---|---|
Contoso | 10.127.134.50 | 1001 | 10.127.134.55 |
Woodgrove | 10.127.134.60 | 1002 | 10.127.134.65 |
以下の図は、CSP データセンターでのこれらの構成を示しています。
L3 転送ゲートウェイのコンテキストにおけるゲートウェイの障害、障害検出、ゲートウェイのフェールオーバー プロセスは、IKEv2 および GRE の RAS ゲートウェイのプロセスに似ています。 違いは、外部 IP アドレスの処理方法にあります。
ゲートウェイ VM の状態が異常になると、ネットワーク コントローラーによって、プールからスタンバイ ゲートウェイの 1 つが選択され、スタンバイ ゲートウェイでネットワーク接続とルーティングが再プロビジョニングされます。 接続の移動中に、L3 転送ゲートウェイの高度に利用可能な CA 空間の IP アドレスも、テナントの CA 空間の BGP IP アドレスと共に新しいゲートウェイ VM に移動されます。
L3 ピアリング IP アドレスはフェールオーバー中に新しいゲートウェイ VM に移動されるため、リモート物理インフラストラクチャは再びこの IP アドレスに接続でき、その後 Hyper-V ネットワーク仮想化ワークロードに到達できます。 BGP 動的ルーティングの場合、CA 空間の BGP IP アドレスが新しいゲートウェイ VM に移動されると、リモート BGP ルーターはピアリングを再確立し、すべての Hyper-V ネットワーク仮想化ルートを再度学習できます。
注意
テナント通信用に VLAN タグ付きの論理ネットワークを使用するには、TOR スイッチとすべての中間ルーターを個別に構成する必要があります。 さらに、L3 フェールオーバーは、この方法で構成されているラックのみに制限されます。 このため、L3 ゲートウェイ プールは慎重に構成する必要があり、手動による構成を個別に完了する必要があります。