Virtuell GPU-dator på Azure Stack Hub

I den här artikeln beskrivs vilka GPU-modeller (graphics processing unit) som stöds i ett integrerat Azure Stack Hub-system. Artikeln innehåller också instruktioner om hur du installerar de drivrutiner som används med GPU:er. GPU-stöd i Azure Stack Hub möjliggör lösningar som artificiell intelligens, utbildning, slutsatsdragning och datavisualisering. AMD Radeon Instinct MI25 kan användas för att stödja grafikintensiva program som Autodesk AutoCAD.

Du kan välja mellan tre GPU-modeller. De finns i NVIDIA V100, NVIDIA T4 och AMD MI25 GPU:er. Dessa fysiska GPU:er överensstämmer med följande typer av virtuella datorer i Azure N-serien (VM):

Varning

Virtuella GPU-datorer stöds inte i den här versionen. Du måste uppgradera till Azure Stack Hub 2005 eller senare. Dessutom måste din Azure Stack Hub-maskinvara ha fysiska GPU:er.

NCv3

Virtuella datorer i NCv3-serien drivs av NVIDIA Tesla V100 GPU:er. Kunder kan dra nytta av dessa uppdaterade GPU:er för traditionella HPC-arbetsbelastningar som reservoarmodellering, DNA-sekvensering, proteinanalys, Monte Carlo-simuleringar och andra.

Storlek vCPU Minne: GiB Temporär lagring (SSD) GiB GPU GPU-minne: GiB Maximalt antal datadiskar Maximalt antal nätverkskort
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

De virtuella datorerna i NVv4-serien drivs av AMD Radeon Instinct MI25 GPU:er. Med NVv4-serien introducerar Azure Stack Hub virtuella datorer med partiella GPU:er. Den här storleken kan användas för GPU-accelererade grafikprogram och virtuella skrivbord. Virtuella NVv4-datorer stöder för närvarande endast Windows gästoperativsystem.

Storlek vCPU Minne: GiB Temporär lagring (SSD) GiB GPU GPU-minne: GiB Maximalt antal datadiskar Maximalt antal nätverkskort
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Storlek vCPU Minne: GiB GPU GPU-minne: GiB Maximalt antal datadiskar Maximalt antal nätverkskort
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 v4

De virtuella datorerna i NC_A100-serien drivs av NVIDIA Ampere A100 GPU:er, efterföljaren till Tesla V100 GPU:er. Du kan dra nytta av dessa uppdaterade GPU:er för traditionella HPC-arbetsbelastningar som reservoarmodellering, DNA-sekvensering, proteinanalys, Monte Carlo-simuleringar och andra.

Storlek vCPU Minne: GiB Tillfällig lagring (GiB) Maximalt antal datadiskar GPU GPU-minne GiB Maximalt antal nätverkskort
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

NC_L40S v4

Storlek vCPU Minne: GiB Tillfällig lagring (GiB) Maximalt antal datadiskar GPU GPU-minne GiB Maximalt antal nätverkskort
Standard_NC24ads_L40S_v4 24 220 1123 8 1 80 2
Standard_NC48ads_L40S_v4 48 440 2246 16 2 160 4

GPU-systemöverväganden

  • GPU måste vara en av dessa SKU:er: AMD MI-25, Nvidia V100 (och varianter), Nvidia T4.
  • Antal GPU:er per server som stöds (1, 2, 3, 4). Vi föredrar: 1, 2 och 4.
  • Alla GPU:er måste ha exakt samma SKU i hela skalningsenheten.
  • Alla GPU-kvantiteter per server måste vara desamma i hela skalningsenheten.
  • GPU-partitionsstorleken (för AMD Mi25) måste vara densamma för alla virtuella GPU-datorer i skalningsenheten.

Kapacitetsplanering

Kapacitetshanteraren för Azure Stack Hub har uppdaterats för att stödja GPU-konfigurationer. Det är tillgängligt här.

Lägga till GPU:er på en befintlig Azure Stack Hub

Azure Stack Hub har nu stöd för att lägga till GPU:er i alla befintliga system. Om du vill lägga till en GPU kör stop-azurestackdu , kör genom proceduren stop-azurestackför , lägger till GPU:er och kör start-azurestack sedan tills den är klar. Om systemet redan hade GPU:er måste alla tidigare skapade virtuella GPU-datorer vara stop-deallocated och sedan startas om.

Korrigering och uppdatering, FRU-beteende för virtuella datorer

Virtuella GPU-datorer undergår driftstopp under åtgärder som korrigering och uppdatering (PnU) och maskinvaruersättning (FRU) för Azure Stack Hub. I följande tabell beskrivs tillståndet för den virtuella datorn enligt vad som observerats under dessa aktiviteter och den manuella åtgärd du kan göra för att göra dessa virtuella datorer tillgängliga efter åtgärden.

Åtgärd PnU – fullständig uppdatering, OEM-uppdatering FRU
Vm-tillstånd Inte tillgänglig under uppdateringen. Kan göras tillgänglig med manuell åtgärd. Den virtuella datorn är automatiskt online efter uppdatering. Ej tillgänglig under FRU. Kan göras tillgänglig med manuell åtgärd. Den virtuella datorn måste tas upp igen efter FRU
Manuell åtgärd Om den virtuella datorn måste göras tillgänglig under uppdateringen, om det finns tillgängliga GPU-partitioner, kan den virtuella datorn startas om från portalen genom att klicka på knappen Starta om . Den virtuella datorn säkerhetskopieras automatiskt efter uppdateringen. Den virtuella datorn är inte tillgänglig under FRU. Om det finns tillgängliga GPU:er kan den virtuella datorn stoppas och startas om under FRU. Efter FRU-slutförandet måste stop-deallocated den virtuella datorn använda knappen Stoppa och sedan startas om med startknappen.

Installation av gästdrivrutin

Följande PowerShell-cmdletar kan användas för drivrutinsinstallation:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

Beroende på operativsystem, typ och anslutning för din virtuella Azure Stack Hub GPU-dator måste du ersätta dessa värden med inställningarna nedan.

AMD MI25

Gästdrivrutinsversionen måste matcha Azure Stack Hub-versionen, oavsett anslutningstillstånd. Om du använder nyare versioner som inte är anpassade till Azure Stack Hub-versionen kan det orsaka användbarhetsproblem.

Azure Stack Hub-version AMD-gästdrivrutin
2206 och senare 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

Connected

Använd PowerShell-skriptet i föregående avsnitt med lämplig drivrutinstyp för AMD. Artikeln Installera AMD GPU-drivrutiner på virtuella datorer i N-serien som kör Windows innehåller instruktioner om hur du installerar drivrutinen för AMD Radeon Instinct MI25 i den virtuella datorn NVv4 GPU-P, tillsammans med anvisningar om hur du verifierar drivrutinsinstallationen.

Frånkopplad

Eftersom tillägget hämtar drivrutinen från en plats på Internet kan en virtuell dator som är frånkopplad från det externa nätverket inte komma åt den. Du kan ladda ned drivrutinen från föregående tabell och ladda upp till ett lagringskonto i ditt lokala nätverk som är tillgängligt för den virtuella datorn.

Lägg till AMD-drivrutinen till ett lagringskonto och ange URL:en till kontot i Settings. De här inställningarna måste användas i cmdleten Set-AzureRMVMExtension . Till exempel:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

NVIDIA-drivrutiner måste installeras i den virtuella datorn för CUDA- eller GRID-arbetsbelastningar med hjälp av GPU:n.

Användningsfall: rutnät för grafik/visualisering

Det här scenariot kräver användning av GRID-drivrutiner. GRID-drivrutiner kan laddas ned via NVIDIA Application Hub förutsatt att du har de licenser som krävs. GRID-drivrutinerna kräver också en GRID-licensserver med lämpliga GRID-licenser innan du använder GRID-drivrutinerna på den virtuella datorn.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Användningsfall: compute/CUDA – Ansluten

CUDA-drivrutiner behöver ingen licensserver och behöver inte ändrade inställningar.

Användningsfall: beräkning/CUDA – Frånkopplad

Länkar till NVIDIA CUDA-drivrutiner kan hämtas med hjälp av länken: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Du måste referera till några URL:er för dina inställningar:

webbadress Kommentar
PUBKEY_URL PUBKEY_URL är den offentliga nyckeln för Nvidia-drivrutinslagringsplatsen, inte för den virtuella Linux-datorn. Den används för att installera drivrutinen för Ubuntu.
DRIVER_URL DRIVER_URL är URL:en för att ladda ned Information om Nvidia-drivrutinens lagringsplats och läggs till i den virtuella Linux-datorns lista över lagringsplatser.

Lägg till URL:erna i inställningarna.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Nästa steg