Omówienie ponownego uruchamiania systemu dla maszyny wirtualnej platformy Azure

Dotyczy: ✔️ Maszyny wirtualne z systemem Linux maszyny wirtualne z ✔️ systemem Windows

Maszyny wirtualne platformy Azure mogą czasami być uruchamiane ponownie bez wyraźnego powodu, bez dowodów na zainicjowanie operacji ponownego rozruchu. W tym artykule wymieniono akcje i zdarzenia, które mogą spowodować ponowne uruchomienie maszyn wirtualnych, oraz szczegółowe informacje na temat unikania nieoczekiwanych problemów z ponownym uruchomieniem lub zmniejszenia wpływu takich problemów.

Konfigurowanie maszyn wirtualnych pod kątem wysokiej dostępności

Najlepszym sposobem ochrony aplikacji działającej na platformie Azure przed ponownym uruchomieniem maszyny wirtualnej i przestojem jest skonfigurowanie maszyn wirtualnych pod kątem wysokiej dostępności.

Aby zapewnić ten poziom nadmiarowości aplikacji, zalecamy grupowanie co najmniej dwóch maszyn wirtualnych w zestawie dostępności. Ta konfiguracja gwarantuje, że podczas planowanego lub nieplanowanego zdarzenia konserwacji co najmniej jedna maszyna wirtualna jest dostępna i spełnia umowę SLA platformy Azure na poziomie 99,95%.

Aby uzyskać więcej informacji na temat zestawów dostępności, zobacz Zarządzanie dostępnością maszyn wirtualnych

Informacje o usłudze Resource Health

Azure Resource Health to usługa, która uwidacznia kondycję poszczególnych zasobów platformy Azure i udostępnia wskazówki umożliwiające podejmowanie działań dotyczących rozwiązywania problemów. W środowisku chmury, w którym nie można bezpośrednio uzyskać dostępu do serwerów lub elementów infrastruktury, celem usługi Resource Health jest skrócenie czasu poświęcanego na rozwiązywanie problemów. W szczególności celem jest skrócenie czasu poświęcanego na określenie, czy głównym źródłem problemu jest aplikacja, czy zdarzenie wewnątrz platformy Azure. Aby uzyskać więcej informacji, zobacz Omówienie i używanie usługi Resource Health.

Jeśli platforma Azure zawiera dalsze informacje o głównej przyczynie niedostępności zainicjowanej przez platformę dla maszyny wirtualnej, informacje te mogą być publikowane w kondycji zasobów do 72 godzin po początkowej niedostępności.

Brak przestojów maszyny wirtualnej w dzienniku aktywności

Alerty usługi Resource Health są wysyłane na podstawie informacji dziennika aktywności. W niektórych przypadkach przestoje maszyn wirtualnych mogą nie być wyświetlane w dzienniku aktywności. Jeśli przestój nie jest wyświetlany w dzienniku aktywności, alerty usługi Resource Health nie będą wysyłane w przypadku przestoju. Przestój jest nadal widoczny w usłudze Resource Health.

Oto przypadki, w których przestoje maszyn wirtualnych nie są wyświetlane w dzienniku aktywności:

  • Gdy maszyna wirtualna zostanie utworzona lub zmigrowana do nowego hosta, platforma Azure nie wyświetla poprawnie stanu maszyny wirtualnej i stan zmieni się na Nieznany. Dopiero po ustanowieniu wszystkich procesów łączności sieciowej i węzłów stan maszyny wirtualnej zmieni się na Dostępny. Dłuższy okres stanu Nieznany jest filtrowany z dziennika aktywności.
  • Gdy stan dostępności maszyny wirtualnej zmieni się z Dostępne na Niedostępne, a następnie powróci do dostępnego w ciągu 35 sekund, przestój nie jest wyświetlany w dzienniku aktywności. Ten przypadek nie wystąpi, jeśli skorelowany przestój zostanie wysłany w ciągu 15 minut przed wystąpieniem pierwszego przejścia.
  • Jeśli kondycja maszyny wirtualnej zmieni się z stanu na Nieznany, a następnie powróci do stanu pierwotnego, sporadycznie nieznany stan i powiązane przejścia zostaną odfiltrowane z dziennika aktywności.

Przestoje maszyn wirtualnych, które nie są wyświetlane w dzienniku aktywności, są filtrowane po stronie platformy Azure, aby zapobiec występowaniu błędów przejściowych w przypadku niepoprawnych przestojów dla klientów. W przypadku bieżących inwestycji w jakość kondycji maszyny wirtualnej filtry mogą już nie być konieczne i mogą spowodować szybkie zmiany kondycji maszyny wirtualnej, aby pozostać nieraportowane. Firma Microsoft pracuje nad planem wycofywania w celu zapewnienia najlepszego środowiska klienta.

Akcje i zdarzenia, które mogą spowodować ponowne uruchomienie maszyny wirtualnej

Planowana konserwacja

Platforma Microsoft Azure okresowo wykonuje aktualizacje na całym świecie w celu zwiększenia niezawodności, wydajności i zabezpieczeń infrastruktury hosta, która podjęła maszyny wirtualne. Wiele z tych aktualizacji, w tym aktualizacji chroniących pamięć, jest wykonywanych bez żadnego wpływu na maszyny wirtualne lub usługi w chmurze.

Jednak niektóre aktualizacje wymagają ponownego uruchomienia. W takich przypadkach maszyny wirtualne są zamykane podczas stosowania poprawek do infrastruktury, a następnie maszyny wirtualne są ponownie uruchamiane.

Aby dowiedzieć się, czym jest planowana konserwacja platformy Azure i jak może mieć wpływ na dostępność maszyn wirtualnych z systemem Linux, zobacz artykuły wymienione tutaj. Artykuły zawierają podstawowe informacje na temat procesu planowanej konserwacji platformy Azure oraz sposobu planowania tej konserwacji, aby jeszcze bardziej ograniczyć jej wpływ.

Aktualizacje pozwalające zachować stan pamięci

W przypadku tej klasy aktualizacji na platformie Microsoft Azure użytkownicy nie mają wpływu na uruchomione maszyny wirtualne. Wiele z tych aktualizacji dotyczy składników lub usług, które można zaktualizować bez zakłócania pracy uruchomionego wystąpienia. Niektóre z nich to aktualizacje infrastruktury platformy w systemie operacyjnym hosta, które można zastosować bez ponownego uruchamiania maszyn wirtualnych.

Te aktualizacje pozwalające zachować stan pamięci są przeprowadzane za pomocą technologii umożliwiającej migrację na żywo w miejscu. Po zaktualizowaniu maszyna wirtualna zostanie umieszczona w stanie wstrzymania. Pozwala to zachować stan pamięci RAM, gdy w podstawowym systemie operacyjnym hosta wprowadzane są niezbędne aktualizacje i poprawki. Maszyna wirtualna jest wznawiana zazwyczaj w ciągu 30 sekund od wstrzymania. Po wznowieniu maszyny wirtualnej jej zegar jest automatycznie synchronizowany.

Ze względu na krótki okres wstrzymania wdrażanie aktualizacji za pośrednictwem tego mechanizmu znacznie zmniejsza wpływ na maszyny wirtualne. Jednak nie wszystkie aktualizacje można wdrożyć w ten sposób.

Aktualizacje wielu wystąpień (dla maszyn wirtualnych w zestawie dostępności) są stosowane dla jednej domeny aktualizacji jednocześnie.

Uwaga

Maszyny z systemem Linux, które mają stare wersje jądra, mają wpływ na panikę jądra podczas tej metody aktualizacji. Aby uniknąć tego problemu, zaktualizuj jądro do wersji 3.10.0-327.10.1 lub nowszej. Aby uzyskać więcej informacji, zobacz An Azure Linux VM on a 3.10-based kernel panics after a host node upgrade (Maszyna wirtualna platformy Azure z systemem Linux na maszynie wirtualnej opartej na systemie 3.10 po uaktualnieniu węzła hosta).

Zainicjowane przez użytkownika akcje ponownego uruchomienia lub zamknięcia

Jeśli wykonasz ponowny rozruch z witryny Azure Portal, programu Azure PowerShell, interfejsu wiersza polecenia lub interfejsu API REST, możesz znaleźć zdarzenie w dzienniku aktywności platformy Azure.

Jeśli wykonasz akcję z systemu operacyjnego maszyny wirtualnej, zdarzenie można znaleźć w dziennikach systemu.

Inne scenariusze, które zwykle powodują ponowne uruchomienie maszyny wirtualnej, obejmują wiele akcji zmiany konfiguracji. Zazwyczaj zobaczysz komunikat ostrzegawczy informujący, że wykonanie określonej akcji spowoduje ponowne uruchomienie maszyny wirtualnej. Przykłady obejmują dowolne operacje zmiany rozmiaru maszyny wirtualnej, zmianę hasła konta administracyjnego i ustawienie statycznego adresu IP.

Microsoft Defender dla Chmury i Windows Update

Microsoft Defender dla Chmury monitoruje codzienne maszyny wirtualne z systemami Windows i Linux pod kątem brakujących aktualizacji systemu operacyjnego. Defender dla Chmury pobiera listę dostępnych aktualizacji zabezpieczeń i krytycznych z usługi Windows Update lub Windows Server Update Services (WSUS), w zależności od tego, która usługa jest skonfigurowana na maszynie wirtualnej z systemem Windows. Defender dla Chmury również sprawdza dostępność najnowszych aktualizacji systemów Linux. Jeśli na maszynie wirtualnej brakuje aktualizacji systemu, Defender dla Chmury zaleca zastosowanie aktualizacji systemowych. Zastosowanie tych aktualizacji systemowych jest kontrolowane za pośrednictwem Defender dla Chmury w witrynie Azure Portal. Po zastosowaniu niektórych aktualizacji może być wymagane ponowne uruchomienie maszyny wirtualnej. Aby uzyskać więcej informacji, zobacz Stosowanie aktualizacji systemowych w Microsoft Defender dla Chmury.

Podobnie jak serwery lokalne, platforma Azure nie wypycha aktualizacji z usługi Windows Update do maszyn wirtualnych z systemem Windows, ponieważ te maszyny mają być zarządzane przez użytkowników. Zachęcamy jednak do pozostawienia włączonego automatycznego ustawienia usługi Windows Update. Automatyczna instalacja aktualizacji z usługi Windows Update może również spowodować ponowne uruchomienie po zastosowaniu aktualizacji. Aby uzyskać więcej informacji, zobacz Często zadawane pytania dotyczące usługi Windows Update.

Inne sytuacje wpływające na dostępność maszyny wirtualnej

Istnieją inne przypadki, w których platforma Azure może aktywnie zawiesić korzystanie z maszyny wirtualnej. Przed podjęciem tej akcji otrzymasz powiadomienia e-mail, więc będziesz mieć możliwość rozwiązania podstawowych problemów. Przykłady problemów, które mają wpływ na dostępność maszyny wirtualnej, obejmują naruszenia zabezpieczeń i wygaśnięcie form płatności.

Błędy serwera hosta

Maszyna wirtualna jest hostowana na serwerze fizycznym, na którym działa centrum danych platformy Azure. Serwer fizyczny uruchamia agenta o nazwie Agent hosta oprócz kilku innych składników platformy Azure. Gdy te składniki oprogramowania platformy Azure na serwerze fizycznym nie odpowiadają, system monitorowania wyzwala ponowny rozruch serwera hosta w celu podjęcia próby odzyskania. W wielu przypadkach maszyna wirtualna będzie ponownie dostępna w ciągu 10–15 minut i będzie nadal działać na tym samym hoście, co wcześniej.

Błędy serwera są zwykle spowodowane awariami sprzętowymi, takimi jak awaria dysku twardego lub dysku półprzewodnikowego. Platforma Azure stale monitoruje te wystąpienia, identyfikuje podstawowe usterki i wdraża aktualizacje po wdrożeniu i przetestowaniu ograniczenia ryzyka.

Ponieważ niektóre błędy serwera hosta mogą być specyficzne dla tego serwera, powtórzona sytuacja ponownego rozruchu maszyny wirtualnej może zostać ulepszona przez ręczne ponowne wdrożenie maszyny wirtualnej na innym serwerze hosta. Tę operację można wyzwolić przy użyciu opcji ponownego wdrażania na stronie szczegółów maszyny wirtualnej lub zatrzymując i ponownie uruchamiając maszynę wirtualną w witrynie Azure Portal.

Autoodzyskiwanie

Jeśli serwer hosta nie może ponownie uruchomić się z jakiegokolwiek powodu, platforma Azure inicjuje akcję automatycznego odzyskiwania, aby podjąć uszkodzony serwer hosta z rotacji w celu dalszego zbadania.

Wszystkie maszyny wirtualne na tym hoście są automatycznie przenoszone do innego serwera hosta w dobrej kondycji. Mimo że ten proces zwykle kończy się w ciągu 15 minut, czas potrzebny do odzyskiwania może się różnić w zależności od kilku czynników, w tym rozmiaru pamięci hosta i zastosowanych metod odzyskiwania. Aby dowiedzieć się więcej na temat procesu automatycznego odzyskiwania, zobacz Automatyczne odzyskiwanie maszyn wirtualnych.

Nieplanowana konserwacja

W rzadkich przypadkach zespół operacyjny platformy Azure może wymagać wykonania działań konserwacyjnych w celu zapewnienia ogólnej kondycji platformy Azure. To zachowanie może mieć wpływ na dostępność maszyny wirtualnej i zwykle powoduje wykonanie tej samej akcji automatycznego odzyskiwania, jak opisano wcześniej.

Nieplanowana konserwacja obejmuje następujące elementy:

  • Defragmentacja pilnego węzła
  • Pilne aktualizacje przełącznika sieciowego

Awarie maszyny wirtualnej

Maszyny wirtualne mogą zostać ponownie uruchomione z powodu problemów z samą maszyną wirtualną. Obciążenie lub rola uruchomiona na maszynie wirtualnej może wyzwolić sprawdzanie usterek w systemie operacyjnym gościa. Aby uzyskać pomoc dotyczącą ustalania przyczyny awarii, wyświetl dzienniki systemu i aplikacji dla maszyn wirtualnych z systemem Windows oraz dzienniki szeregowe dla maszyn wirtualnych z systemem Linux.

Maszyny wirtualne na platformie Azure korzystają z dysków wirtualnych na potrzeby systemu operacyjnego i magazynu danych hostowanego w infrastrukturze usługi Azure Storage. Za każdym razem, gdy dostępność lub łączność między maszyną wirtualną a skojarzonymi dyskami wirtualnymi będzie miała wpływ przez ponad 120 sekund, platforma Azure wykonuje wymuszone zamknięcie maszyn wirtualnych, aby uniknąć uszkodzenia danych. Maszyny wirtualne są automatycznie włączane po przywróceniu łączności magazynu. Czas trwania zamknięcia może być krótszy niż pięć minut, ale może być znacznie dłuższy.

Inne zdarzenia

W rzadkich okolicznościach powszechny problem może mieć wpływ na wiele serwerów w centrum danych platformy Azure. W przypadku wystąpienia tego problemu zespół platformy Azure wysyła powiadomienia e-mail do subskrypcji, których dotyczy problem. Możesz sprawdzić pulpit nawigacyjny usługi Azure Service Health i witrynę Azure Portal pod kątem stanu bieżących awarii i przeszłych zdarzeń.

Diagnozowanie ponownych uruchomień maszyn wirtualnych

Aby uruchomić dodatkową diagnostykę, możesz użyć bloku Diagnozowanie i rozwiązywanie problemów w bloku maszyny wirtualnej. Może to ujawnić bardziej szczegółowe przyczyny ostatniego ponownego uruchomienia maszyny wirtualnej. Jeśli występuje jakikolwiek problem z systemem operacyjnym gościa, zbierz zrzut pamięci i skontaktuj się z pomocą techniczną.

Skontaktuj się z nami, aby uzyskać pomoc

Jeśli masz pytania lub potrzebujesz pomocy, utwórz wniosek o pomoc techniczną lub zadaj pomoc techniczną społeczności platformy Azure. Możesz również przesłać opinię o produkcie do społeczności opinii na temat platformy Azure.