Oprava serveru v Azure Stack HCI verze 23H2

Článek
07/16/2024

Platí pro: Azure Stack HCI verze 23H2

Tento článek popisuje, jak opravit server v clusteru Azure Stack HCI.

O opravách serverů

Azure Stack HCI je hyperkonvergovaný systém, který umožňuje opravit servery z existujících clusterů. Pokud dojde k selhání hardwaru, možná budete muset opravit server v clusteru.

Před opravou serveru se ujistěte, že u poskytovatele řešení zkontrolujete, které komponenty na serveru jsou náhradní jednotky (FRU), které můžete nahradit sami sobě a které komponenty by vyžadovaly nahrazení technikem.

Části, které podporují výměnu za provozu, obvykle nevyžadují opětovné vytvoření serveru na rozdíl od neprohoditelných komponent, jako je základní deska. Obraťte se na výrobce hardwaru a zjistěte, které součásti by vyžadovaly opětovné vytvoření image serveru. Další informace naleznete v tématu Nahrazení komponent.

Oprava pracovního postupu serveru

Následující vývojový diagram znázorňuje celkový proces opravy serveru.

*Server nemusí být ve stavu, kdy je možné vypnout nebo je to nutné

Pokud chcete opravit existující server, postupujte takto:

Pokud je to možné, vypněte server, který chcete opravit. V závislosti na stavu serveru nemusí být vypnutí možné nebo nezbytné.
Znovu naimažte server, který je potřeba opravit.
Spusťte operaci opravného serveru. V rámci operace opravy se aktualizuje operační systém, ovladače a firmware Azure Stack HCI.

Úložiště se automaticky znovu vyrovnává na znovumagovaném serveru. Vyvážení úložiště je úloha s nízkou prioritou, která může běžet několik dnů v závislosti na počtu serverů a použitém úložišti.

Podporované scénáře

Oprava serveru znovu nastaví server a vrátí ho do clusteru s předchozím názvem a konfigurací.

Oprava jednoho serveru způsobí opětovné nasazení s možností zachování datových svazků. Během nasazení se odstraní a nově zřídí jenom systémový svazek.

Důležité

Ujistěte se, že vždy máte zálohy pro vaše úlohy a nespoléhejte pouze na odolnost systému. To je zvlášť důležité ve scénářích s jedním serverem.

Nastavení odolnosti

V této verzi nejsou pro operaci opravného serveru provedeny konkrétní úlohy na svazcích úloh, které jste vytvořili po nasazení. V případě operace opravy serveru se obnoví a zobrazí se jenom požadované svazky infrastruktury a svazky úloh jako sdílené svazky clusteru.

Ostatní svazky úloh, které jste vytvořili po nasazení, zůstanou zachovány a tyto svazky můžete zjistit spuštěním Get-VirtuaDisk rutiny. Svazek budete muset odemknout ručně (pokud má svazek povolený Nástroj BitLocker) a v případě potřeby vytvořit sdílený svazek clusteru (pokud je potřeba).

Požadavky na hardware

Při opravě serveru systém ověří hardware nového serveru příchozí pošty a zajistí, že server splňuje požadavky na hardware, než se přidá do clusteru.

Součást	Kontrola kompliancy
Procesor	Ověřte, že nový server má stejný počet nebo více jader procesoru. Pokud jádra procesoru na příchozím uzlu nesplňují tento požadavek, zobrazí se upozornění. Operace je však povolená.
Memory (Paměť)	Ověřte, že má nový server nainstalovaný stejný počet paměti nebo více paměti. Pokud paměť na příchozím uzlu nesplňuje tento požadavek, zobrazí se upozornění. Operace je však povolená.
Jednotky	Ověřte, že nový server má stejný počet datových jednotek dostupných pro Prostory úložiště s přímým přístupem. Pokud počet jednotek na příchozím uzlu nesplňuje tento požadavek, zobrazí se chyba a operace se zablokuje.

Výměna serveru

Můžete nahradit celý server:

S novým serverem, který má jiné sériové číslo v porovnání se starým serverem.
Po opětovném nastavení aktuálního serveru.

Během nahrazování serveru se podporují následující scénáře:

Server	Disk	Podporuje se
Nový server	Nové disky	Ano
Nový server	Aktuální disky	Ano
Aktuální server (zmage)	Přeformátované aktuální disky *	No
Aktuální server (zmage)	Nové disky	Ano
Aktuální server (zmage)	Aktuální disky	Ano

**Disky používané Prostory úložiště s přímým přístupem vyžadují správné čištění. Přeformátování nestačí. Podívejte se , jak vyčistit jednotky.

Důležité

Pokud komponentu nahradíte během opravy serveru, nemusíte datové jednotky nahrazovat ani resetovat. Pokud jednotku nahradíte nebo ji resetujete, jednotka se po připojení ke clusteru nerozpozná.

Výměna komponent

V clusteru Azure Stack HCI zahrnují neprohozené komponenty následující položky:

Základní deska / řadič pro správu základní desky (BMC) / grafická karta
Diskový adaptér / adaptér hostitelské sběrnice (HBA) / backplace
Síťový adaptér
Grafická procesorová jednotka
Datové jednotky (jednotky, které nepodporují prohození za provozu, například karty doplňků PCI-e)

Skutečný postup nahrazení nehořitelných komponent se liší podle výrobce hardwaru výrobce OEM (Original Equipment Manufacturer). Pokud je pro komponenty, které nejsou vyměnitelné za provozu, potřebujete opravu serveru, podívejte se do dokumentace dodavatele OEM.

Požadavky

Před opravou serveru je nutné zajistit, aby:

AzureStackLCMUser je aktivní ve službě Active Directory. Další informace najdete v tématu Příprava služby Active Directory.
Přihlášení jako AzureStackLCMUser nebo jiný uživatel s ekvivalentními oprávněními
Přihlašovací údaje se AzureStackLCMUser nezměnily.

V případě potřeby převezměte server, který jste identifikovali pro opravu, offline. Postupujte podle následujících kroků:
- Než server přeberete offline, ověřte, že je server v pořádku.
- Pozastavte a vyprázdněte server.
- Vypněte server.

Oprava serveru

Tato část popisuje, jak opravit server pomocí PowerShellu Repair-Server , monitorovat stav operace a řešit případné problémy.

Ujistěte se, že jste si prošli požadavky.

Na serveru, který se pokoušíte opravit, postupujte podle těchto kroků.

Nainstalujte operační systém a požadované ovladače. Postupujte podle kroků v části Instalace operačního systému Azure Stack HCI verze 23H2.

Poznámka:

Pokud váš cluster používá vyhrazený záměr ATC sítě pro úložiště a používáte vlastní IP adresy úložiště, musíte před spuštěním operace Oprava serveru nakonfigurovat IP adresy na síťových adaptérech úložiště. Pokud váš cluster používá záměr ATC sdílené sítě pro úložiště a další typ provozu, jako je výpočetní prostředky a správa, budete muset IP adresy na virtuálních síťových adaptérech úložiště po opravě serveru nakonfigurovat ručně.
Zaregistrujte server ve službě Arc. Postupujte podle kroků v části Registrace ve službě Arc a nastavte oprávnění.

Poznámka:

K registraci ve službě Arc musíte použít stejné parametry jako existující uzly. Příklad: Název skupiny prostředků, Oblast, Předplatné a Nezávazně.
Opravovanýmu uzlu přiřaďte následující oprávnění:
- Role Správa zařízení Azure Stack HCI
- Další informace najdete v tématu Přiřazení oprávnění k serveru.

Postupujte podle těchto kroků na jiném serveru, který je členem stejného clusteru Azure Stack HCI.

Před přidáním serveru nezapomeňte získat aktualizovaný ověřovací token. Spusťte následující příkaz:
```
 Update-AuthenticationToken
```
Přihlaste se k serveru, který je již členem clusteru, pomocí přihlašovacích údajů uživatele domény, které jste zadali během nasazení clusteru. Spuštěním následujícího příkazu opravte server příchozí pošty:
```
$Cred = Get-Credential 
Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
```
Poznámka:

Název serveru musí být název NetBIOS.
Poznamenejte si ID operace jako výstup pomocí Repair-Server příkazu. Tento postup použijete později ke sledování průběhu Repair-Server operace.

Poznámka:

Pokud jste cluster Azure Stack HCI nasadili pomocí vlastních IP adres úložiště, musíte po opravě serveru ručně přiřadit IP adresy síťovým adaptérům úložiště.

Monitorování průběhu operace

Pokud chcete monitorovat průběh operace přidání serveru, postupujte takto:

Spusťte následující rutinu a zadejte ID operace z předchozího kroku.

$ID = "<Operation ID>" 
Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID

Po dokončení operace se úloha vyrovnávání úložiště na pozadí bude dál spouštět. Počkejte na dokončení úlohy vyrovnávání úložiště. Pokud chcete ověřit průběh této úlohy vyrovnávání úložiště, použijte následující rutinu:
```
Get-VirtualDisk|Get-StorageJob
```
Pokud je úloha vyrovnávání úložiště dokončená, rutina nevrátí výstup.

Scénáře obnovení

Při opravě serveru jsou uvedeny následující scénáře obnovení a doporučené kroky pro zmírnění rizik:

Popis scénáře	Zmírnění	Podporováno?
Operace opravy serveru se nezdařila.	Pokud chcete operaci dokončit, prověřte selhání. Znovu spusťte neúspěšnou operaci pomocí `Add-Server -Rerun`.	Ano
Operace opravy serveru částečně proběhla, ale musela začít s novou instalací operačního systému.	V tomto scénáři orchestrátor (označovaný také jako Správce životního cyklu) už aktualizoval své úložiště znalostí na nový server. Použijte scénář opravného serveru.	Ano

Řešení problému

Pokud při opravě serveru dojde k chybám nebo chybám, můžete zaznamenat výstup chyb v souboru protokolu.

Přihlaste se pomocí přihlašovacích údajů uživatele domény, které jste zadali během nasazení clusteru. Zachyťte problém v souborech protokolu.
```
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
```
Pokud chcete neúspěšnou operaci spustit znovu, použijte následující rutinu:
```
Repair-Server -Rerun
```

Další kroky

Přečtěte si další informace o tom, jak přidat server.

Sdílet prostřednictvím