Behandeln von Problemen mit der GPU-Erweiterung für GPU-VMs auf einem Azure Stack Edge Pro GPU-Gerät

GILT FÜR:Yes for Pro - GPU SKUAzure Stack Edge Pro – GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

Dieser Artikel enthält Anleitungen zum Beheben der häufigsten Probleme, die zu Fehlern bei der Installation der GPU-Erweiterung für GPU-VMs auf einem Azure Stack Edge Pro GPU-Gerät führen.

Die Installationsschritte finden Sie unter Installieren der GPU-Erweiterung.

In Versionen unter 2205 werden von der Linux-GPU-Erweiterung alte Signaturschlüssel installiert: „signature and/or required key missing“ (Signatur und/oder erforderlicher Schlüssel fehlt)

Fehlerbeschreibung: Von der Linux-GPU-Erweiterung werden alte Signaturschlüssel installiert, was das Herunterladen des erforderlichen GPU-Treibers verhindert. In diesem Fall enthält das Syslog-Protokoll des virtuellen Linux-Computers den folgenden Fehler:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Lösungsvorschläge: Sie haben zwei Optionen, um dieses Problem zu beheben:

  • Option 1: Wenden Sie die Azure Stack Edge 2205-Updates auf Ihr Gerät an.

  • Option 2: Installieren Sie nach der Erstellung eines virtuellen GPU-Computers aus der NCasT4_v3-Serie manuell die neuen Signaturschlüssel, bevor Sie die Erweiterung installieren, und legen Sie dann mithilfe der unter Aktualisieren des CUDA-Linux-GPG-Repositoryschlüssels | NVIDIA-Technikblog beschriebenen Schritte die erforderlichen Signaturschlüssel fest.

    Im folgenden Beispiel werden die Signaturschlüssel auf einem virtuellen Ubuntu 1804-Computer installiert:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Fehler beim Installieren der GPU-Erweiterung auf einer Windows 2016-VHD

Fehlerbeschreibung: Dies ist ein bekanntes Problem in Versionen unter 2205. Die GPU-Erweiterung erfordert TLS 1.2. In diesem Fall erhalten Sie möglicherweise die folgende Fehlermeldung:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Ergänzende Informationen:

  • Überprüfen Sie das Gastprotokoll auf den entsprechenden Fehler. Informationen zum Erfassen der Gastprotokolle finden Sie unter Erfassen von VM-Gastprotokollen auf Azure Stack Edge Pro GPU-Geräten.
  • Sehen Sie auf einen virtuellen Linux-Computer in /var/log/waagent.log oder /var/log/azure/nvidia-vmext-status nach.
  • Auf einem virtuellen Windows-Computer finden Sie den Fehlerstatus in C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • Sehen Sie sich das vollständige Ausführungsprotokoll in C:\WindowsAzure\Logs\WaAppAgent.txt an.

Wenn bei der Installation während des Herunterladens des Pakets ein Fehler aufgetreten ist, deutet dies darauf hin, dass der virtuelle Computer nicht auf das öffentliche Netzwerk zugreifen konnte, um den Treiber herunterzuladen.

Lösungsvorschlag: Führen Sie die folgenden Schritte aus, um TLS 1.2 auf einem virtuellen Windows 2016-Computer zu aktivieren, und stellen Sie dann die GPU-Erweiterung bereit.

  1. Führen Sie auf dem virtuellen Computer den folgenden Befehl aus, um TLS 1.2 zu aktivieren:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Stellen Sie die Vorlage addGPUextensiontoVM.json bereit, um die Erweiterung auf einem vorhandenen virtuellen Computer zu installieren. Die Erweiterung kann manuell oder über das Azure-Portal installiert werden.

    Hinweis

    Die Bereitstellung der Erweiterung ist ein zeitintensiver Auftrag, der etwa 10 Minuten dauert.

Manuelles Installieren des NVIDIA-Treibers unter RHEL 7

Fehlerbeschreibung: Beim Installieren der GPU-Erweiterung auf einem virtuellen RHEL 7-Computer ist die Installation ggf. aufgrund eines Problems mit der Zertifikatrotation und einer inkompatiblen Treiberversion nicht erfolgreich.

Lösungsvorschlag: In diesem Fall haben Sie zwei Optionen:

  • Option 1: Beheben Sie das Problem mit der Zertifikatrotation, und installieren Sie dann einen NVIDIA-Treiber mit einer niedrigeren Version als 510.

    1. Führen Sie zum Beheben des Problems mit der Zertifikatrotation den folgenden Befehl aus:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Installieren Sie einen NVIDIA-Treiber mit einer niedrigeren Version als 510.

  • Option 2: Stellen Sie die GPU-Erweiterung bereit. Verwenden Sie beim Bereitstellen der ARM-Erweiterung die folgenden Einstellungen:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

VM-Größe ist keine GPU-VM-Größe

Fehlerbeschreibung: Eine GPU-VM muss entweder die Größe Standard_NC4as_T4_v3 oder Standard_NC8as_T4_v3 aufweisen. Wenn eine andere VM-Größe verwendet wird, kann die GPU-Erweiterung nicht angefügt werden.

Vorgeschlagene Lösung: Erstellen Sie eine VM mit der Größe Standard_NC4as_T4_v3 oder Standard_NC8as_T4_v3. Weitere Informationen finden Sie unter Unterstützte VM-Größen für GPU-VMs. Informationen zum Angeben der Größe finden Sie unter Erstellen von GPU-VMs.

Betriebssystem des Images wird nicht unterstützt

Fehlerbeschreibung: Die GPU-Erweiterung unterstützt das auf dem VM-Image installierte Betriebssystem nicht.

Vorgeschlagene Lösung: Bereiten Sie ein neues VM-Image mit einem Betriebssystem vor, das von der GPU-Erweiterung unterstützt wird.

Erweiterungsparameter ist falsch

Fehlerbeschreibung: Beim Bereitstellen der GPU-Erweiterung auf einer Linux-VM wurden falsche Erweiterungseinstellungen verwendet.

Vorgeschlagene Lösung: Bearbeiten Sie die Parameterdatei, bevor Sie die GPU-Erweiterung bereitstellen. Weitere Informationen finden Sie unter Installieren der GPU-Erweiterung.

Fehler während der Installation der VM-Erweiterung beim Herunterladen des Pakets

Fehlerbeschreibung: Beim Bereitstellen der Erweiterung ist während der Erweiterungsinstallation oder im Aktivierungsstatus ein Fehler aufgetreten.

  1. Überprüfen Sie das Gastprotokoll auf den entsprechenden Fehler. Informationen zum Erfassen der Gastprotokolle finden Sie unter Erfassen von VM-Gastprotokollen auf Azure Stack Edge Pro GPU-Geräten.

    Auf einer Linux-VM:

    • Sehen Sie in /var/log/waagent.log oder /var/log/azure/nvidia-vmext-status nach.

    Auf einer Windows-VM:

    • Ermitteln Sie den Fehlerstatus in C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Überprüfen Sie das vollständige Ausführungsprotokoll: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Wenn bei der Installation während des Herunterladens des Pakets ein Fehler aufgetreten ist, deutet dies darauf hin, dass die VM nicht auf das öffentliche Netzwerk zugreifen konnte, um den Treiber herunterzuladen.

Vorgeschlagene Lösung:

  1. Aktivieren Sie Compute an einem Port, der mit dem Internet verbunden ist. Anleitungen dazu finden Sie unter Erstellen von GPU-VMs.

  2. Heben Sie die Zuordnung der VM auf, indem Sie die VM im Portal beenden. Zum Beenden der VM navigieren Sie zu Virtuelle Computer>Übersicht, und wählen Sie die VM aus. Anschließend wählen Sie auf der Seite mit den VM-Eigenschaften die Option Stop aus.

  3. Erstellen Sie einen neuen virtuellen Computer.

Fehler dpkg is used/yum lock is used bei der VM-Erweiterung (Linux-VM)

Fehlerbeschreibung: Beim Bereitstellen der GPU-Erweiterung auf einer Linux-VM ist ein Fehler aufgetreten, weil ein anderer Prozess dpkg verwendete oder ein anderer Prozess yum lock erstellt hat.

Vorgeschlagene Lösung: Führen Sie zur Behebung des Problems die folgenden Schritte aus:

  1. Um herauszufinden, welcher Prozess die Sperre anwendet, suchen Sie im Protokoll „\var\log\azure\nvidia-vmext-status“ nach einem Fehler wie „dpkg wird von einem anderen Prozess verwendet“ oder „Eine andere App enthält yum lock“.

  2. Warten Sie entweder, bis der Prozess abgeschlossen ist, oder beenden Sie den Prozess.

  3. Installieren Sie die GPU-Erweiterung erneut.

  4. Wenn bei der Erweiterungsbereitstellung erneut ein Fehler auftritt, erstellen Sie eine neue VM, und vergewissern Sie sich, dass die Sperre nicht vorhanden ist, bevor Sie die GPU-Erweiterung installieren.

Nächste Schritte

Erfassen von Gastprotokollen und Erstellen eines Supportpakets