GPU-Partitionierung

Gilt für: Azure Stack HCI, Versionen 23H2 und 22H2

Die GPU-Partitionierung ermöglicht es Ihnen, ein physisches GPU-Gerät mit mehreren virtuellen Maschinen (VMs) zu teilen. Bei der GPU-Partitionierung oder GPU-Virtualisierung steht den einzelnen virtuellen Computern nicht die gesamte GPU, sondern jeweils ein dedizierter Anteil der GPU zur Verfügung.

Die GPU-Partitionierungsfunktion verwendet die Single Root IO Virtualization (SR-IOV)-Schnittstelle, die eine hardwaregestützte Sicherheitsgrenze mit vorhersehbarer Leistung für jede VM bietet. Jede VM kann nur auf die ihr zugewiesenen GPU-Ressourcen zugreifen, und die sichere Hardwarepartitionierung verhindert den unbefugten Zugriff durch andere VMs.

Windows Server führt die Live-Migration mit GPU-Partitionierung ein. Für die Live-Migration mit GPU-Partitionierung gelten bestimmte Anforderungen. Abgesehen von den empfohlenen Best Practices für die Live-Migration müssen Ihre Cluster-Hosts über DMA-Bit-Tracking-fähige Prozessoren der Input/Output Memory Management Unit (IOMMU) verfügen. Zum Beispiel Prozessoren, die Intel VT-D oder AMD-Vi unterstützen. Wenn Sie Windows Server und Live-Migration ohne IOMMU-fähige Prozessoren verwenden, werden die VMs automatisch neu gestartet, wenn GPU-Ressourcen verfügbar sind.

Die GPU-Partitionierung wurde für eigenständige Server entwickelt. Sie können virtuelle Computer für geplante Ausfallzeiten zwischen eigenständigen Knoten migrieren. Für Kunden, die Clustering für ungeplante Ausfallzeiten erfordern, müssen Sie jedoch Windows Server 2025 Datacenter verwenden.

Wann sollte die GPU-Partitionierung verwendet werden?

Einige Workloads wie virtuelle Desktop-Infrastrukturen (VDI), künstliche Intelligenz (KI) und maschinelles Lernen (ML) erfordern GPU-Beschleunigung. Die GPU-Partitionierung kann dazu beitragen, die Gesamtbetriebskosten für Ihre gesamte Infrastruktur zu senken.

Zum Beispiel:

  • VDI-Anwendungen: Distributed-Edge-Kunden führen in ihren VDI-Umgebungen grundlegende Produktivitätsanwendungen wie Microsoft Office und grafiklastige Visualisierungsworkloads aus, die eine GPU-Beschleunigung erfordern. Für solche Workloads können Sie die erforderliche GPU-Beschleunigung über DDA oder GPU-Partitionierung erreichen. Mit GPU-Partitionierung können Sie mehrere Partitionen erstellen und jede Partition einer VM zuweisen, die eine VDI-Umgebung hostet. Die GPU-Partitionierung hilft Ihnen, die gewünschte Dichte zu erreichen und die Anzahl der unterstützten Benutzer um eine Größenordnung zu erhöhen.

  • Inferenz mit ML: Kunden in Einzelhandelsgeschäften und Fertigungsbetrieben können Inferenzen am Rand ausführen, was GPU-Unterstützung für ihre Server erfordert. Mit GPUs auf Ihren Servern können Sie ML-Modelle ausführen, um schnelle Ergebnisse zu erhalten, auf die Sie reagieren können, bevor die Daten an die Cloud gesendet werden. Das gesamte Dataset kann optional übertragen werden, um Ihre ML-Modelle weiter zu trainieren und zu verbessern. Zusammen mit DDA, bei dem Sie einer VM eine gesamte physische GPU zuweisen, ermöglicht Ihnen die GPU-Partitionierung, mehrere Inferenzanwendungen parallel auf derselben GPU, aber in separaten physischen Partitionen auszuführen und so die GPU optimal zu nutzen.

Unterstützte Gastbetriebssysteme

Die GPU-Partitionierung unter Windows Server 2025 und höher unterstützt diese Gastbetriebssysteme:

Die GPU-Partitionierung auf Azure Stack HCI unterstützt diese Gastbetriebssysteme:

  • Windows 10 oder höher
  • Windows 10 Enterprise Multi-Session oder höher
  • Windows Server 2019 oder höher
  • Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS

Unterstützte GPUs

Die folgenden GPUs unterstützen GPU-Partitionierung:

  • NVIDIA A2
  • NVIDIA A10
  • NVIDIA A16
  • NVIDIA A40
  • NVIDIA L2
  • NVIDIA L4
  • NVIDIA L40
  • NVIDIA L40S

Hinweis

Der NVIDIA-Treiber unterstützt derzeit keine GPU-Partitionierung für die Livemigration.

Wir empfehlen Ihnen, mit Ihren OEM-Partnern (Original Equipment Manufacturer) und unabhängigen GPU-Hardwareanbietern (GPU Independent Hardware Vendors) zusammenzuarbeiten, um die Systeme für Ihre gewünschten Arbeitslasten mit den entsprechenden Konfigurationen und der erforderlichen Software zu planen, zu bestellen und einzurichten. Wir unterstützen jedoch mehr GPUs, wenn Sie die GPU-Beschleunigung über Discrete Device Assignment (DDA) nutzen möchten. Wenden Sie sich an Ihre OEM-Partner und IHVs, um eine Liste der GPUs zu erhalten, die DDA unterstützen. Weitere Informationen zur Verwendung der GPU-Beschleunigung über DDA finden Sie unter Discrete Device Assignment (DDA).

Um die beste Leistung zu erzielen, empfehlen wir Ihnen, eine homogene Konfiguration für GPUs auf allen Servern Ihres Clusters zu erstellen. Eine homogene Konfiguration besteht aus der Installation der gleichen Marke und des gleichen Modells des Grafikprozessors und der Konfiguration der gleichen Anzahl von Partitionen in den Grafikprozessoren auf allen Servern des Clusters. In einem Cluster aus zwei Servern mit einer oder mehreren installierten GPUs müssen beispielsweise alle GPUs die gleiche Marke, das gleiche Modell und die gleiche Größe haben. Die Anzahl der Partitionen auf jeder GPU muss ebenfalls übereinstimmen.

Begrenzungen

Beachten Sie die folgenden Einschränkungen bei der Verwendung der GPU-Partitionierungsfunktion:

  • Die GPU-Partitionierung wird nicht unterstützt, wenn Ihre Konfiguration nicht homogen ist. Hier sind einige Beispiele für nicht unterstützte Konfigurationen:

    • Mischen von GPUs verschiedener Hersteller im selben Cluster.

    • Verwendung verschiedener GPU-Modelle aus verschiedenen Produktfamilien desselben Herstellers im selben Cluster.

  • Sie können einen physischen Grafikprozessor nicht gleichzeitig als Discrete Device Assignment (DDA) oder als partitionierbaren Grafikprozessor zuweisen. Sie können sie entweder als DDA oder als partitionierbare GPU zuweisen, aber nicht beides.

  • Sie können einer VM nur eine einzige GPU-Partition zuweisen.

  • Partitionen werden den VMs automatisch zugewiesen. Sie können keine bestimmte Partition für eine bestimmte VM auswählen.

  • Derzeit unterstützt die GPU-Partitionierung auf Azure Stack HCI keine Live-Migration von VMs. Aber VMs können bei einem Ausfall automatisch neu gestartet und dort platziert werden, wo GPU-Ressourcen verfügbar sind.
  • Sie können Ihre GPU mit dem Windows Admin Center oder mit PowerShell partitionieren. Wir empfehlen Ihnen, das Windows Admin Center zur Konfiguration und Zuweisung von GPU-Partitionen zu verwenden. Windows Admin Center prüft automatisch, ob die Konfiguration der GPUs auf allen Servern in Ihrem Cluster einheitlich ist. Es gibt entsprechende Warn- und Fehlermeldungen aus, um die erforderlichen Korrekturmaßnahmen zu ergreifen.

  • Wenn Sie PowerShell für die Bereitstellung der GPU-Partitionierung verwenden, müssen Sie die Bereitstellungsschritte auf jedem Server im Cluster durchführen. Sie müssen manuell sicherstellen, dass die homogene Konfiguration für GPUs auf allen Servern in Ihrem Cluster beibehalten wird.

  • Bei der Live-Migration einer virtuellen Maschine mit zugewiesener GPU-Partition greift die Hyper-V-Live-Migration automatisch auf die Verwendung von TCP/IP mit Komprimierung zurück. Die Migration einer virtuellen Maschine kann möglicherweise zur Erhöhung der CPU-Auslastung eines Hosts führen. Außerdem können Live-Migrationen länger dauern als bei virtuellen Maschinen ohne angeschlossene GPU-Partitionen.