對 AAzure 運算子連接點伺服器問題進行疑難排解

本文說明如何使用重新啟動、重新安裝映像和取代 Azure 操作員 Nexus 裸機機器（BMM）上的動作，針對伺服器問題進行疑難解答。您可能會為了進行維護而需在伺服器上執行這些動作，而這會導致特定 BMM 短暫中斷。

完成前述各項動作的所需時間都差不多。重新啟動是最快的，而更換需要較長一點的時間。這三個動作都是簡單且有效率的疑難排解方法。

警告

若未先諮詢 Microsoft 支援服務人員，請勿對管理伺服器執行任何動作。這樣做可能會影響運算子連接點叢集的完整性。

必要條件

重要

如果已針對另一個 KCP 節點執行另一個干擾性動作命令，或如果無法使用完整 KCP，則會拒絕針對 Kubernetes 控制平面 (KCP) 節點的干擾性命令要求。

重新啟動、重新安裝映像和取代全都被視為干擾性動作。

完成這項檢查是為了維護 Nexus 執行個體的完整性，並確保多個 KCP 節點不會因為同時干擾性動作而立即關閉。如果多個節點關閉，其會中斷 Kubernetes 控制平面的良好仲裁閾值。

當您對 BMM 的失敗進行疑難排解，並確認最佳矯正措施後，請務必了解可用的選項。重新啟動或重新映像 BMM 可能是修正問題或將軟體還原到已知良好位置的有效方式。當伺服器上的一或多個硬體元件失敗時，可能需要更換 BMM。本文提供三個動作之最佳做法的方向。

要對技術問題進行疑難排解，需仰賴系統化方法。其中一個有效方法是從最不具侵入性的解決方案開始，並在必要時達到更複雜的和劇烈措施。

疑難排解的第一個步驟，往往是嘗試重新啟動裝置或系統。重新啟動有助於清除任何可能造成問題的暫時性問題或錯誤。如果重新啟動無法解決問題，下一個步驟可能是嘗試為裝置或系統重新安裝映像。

如果重新安裝映像無法解決問題，最後一個步驟可能是更換故障的硬體元件。更換可能是較激進的措施，但如果問題與硬體故障有關，則可能有此必要。

請記住，這些疑難排解方法可能不一定有效，且問題的其他成因可能需要以不同的方法解決。

重新啟動 BMM，是透過簡單的 API 呼叫重新啟動伺服器的程序。當主機上的租用戶虛擬機器沒有回應或停滯時，可以利用此動作來排解問題。

重新啟動通常是減輕問題的起點。

重新映像 BMM 是您用來在 OS 磁碟上重新部署映像的程式，而不會影響租用戶數據。此動作會執行相關步驟，使用相同的識別碼重新加入叢集。

重新安裝映像動作可將 OS 還原至已知良好的工作狀態，以利排解問題。可透過重新安裝映像來解決的常見問題成因，包括因懷疑主機完整性、疑似或確認有安全性危害，或「緊急」寫入活動而導致的復原。

若要以最低的作業風險確保 BMM 的完整性，重新安裝映像動作是最佳做法。

伺服器包含許多可能隨著時間推移而故障的實體元件。請務必了解哪些實體修復需要更換 BMM，以及何時應建議更換 BMM (但並非必要)。

系統會叫用硬體驗證程序，以在部署 OS 映像之前確保實體主機的完整性。如同重新安裝映像動作，在更換期間不會修改租用戶資料。

重要

從 2024-07-01 GA API 版本開始，RAID 控制器會在 BMM 取代期間重設，並抹除伺服器虛擬磁碟中的所有數據。除非有附加的實體磁碟和/或 RAID 控制器警示，否則在 BMM 更換期間觸發的基板管理控制器（BMC）虛擬磁碟警示可以忽略。

最佳做法是先發出 cordon 命令，以從工作負載排程中移除裸機機器，然後在實體修復之前關閉 BMM。

當您執行實體熱交換電源供應器修復時，不需要更換動作，因為 BMM 主機在修復後會繼續正常運作。

執行下列實體修復時，建議您執行更換動作，儘管 BMM 不一定要恢復運作：

執行下列實體修復時，需執行更換動作，才能讓 BMM 恢復運作：

重新啟動、重新安裝映像和更換是可用來解決技術問題的有效疑難排解方法。不過，在嘗試任何激進的措施之前，請務必先擬定系統化方法，並考量其他因素。

如果還有疑問，請連絡支援人員。如需支援計劃的詳細資訊，請參閱 Azure 支援計劃。