對 AAzure 運算子連接點伺服器問題進行疑難排解

本文說明如何使用重新啟動、重新安裝映像和取代 Azure 操作員 Nexus 裸機機器 (BMM) 上的動作,針對伺服器問題進行疑難解答。 您可能會為了進行維護而需在伺服器上執行這些動作,而這會導致特定 BMM 短暫中斷。

完成前述各項動作的所需時間都差不多。 重新啟動是最快的,而更換需要較長一點的時間。 這三個動作都是簡單且有效率的疑難排解方法。

警告

若未先諮詢 Microsoft 支援服務人員,請勿對管理伺服器執行任何動作。 這樣做可能會影響運算子連接點叢集的完整性。

必要條件

  • 檢閱 BMM 動作,以熟悉本文所參考的功能。
  • 收集以下資訊:
    • BMM 的資源群組名稱
    • 需要生命週期管理作業的 BMM 名稱

重要

如果已針對另一個 KCP 節點執行另一個干擾性動作命令,或如果無法使用完整 KCP,則會拒絕針對 Kubernetes 控制平面 (KCP) 節點的干擾性命令要求。

重新啟動、重新安裝映像和取代全都被視為干擾性動作。

完成這項檢查是為了維護 Nexus 執行個體的完整性,並確保多個 KCP 節點不會因為同時干擾性動作而立即關閉。 如果多個節點關閉,其會中斷 Kubernetes 控制平面的良好仲裁閾值。

識別矯正措施

當您對 BMM 的失敗進行疑難排解,並確認最佳矯正措施後,請務必了解可用的選項。 重新啟動或重新映像 BMM 可能是修正問題或將軟體還原到已知良好位置的有效方式。 當伺服器上的一或多個硬體元件失敗時,可能需要更換 BMM。 本文提供三個動作之最佳做法的方向。

要對技術問題進行疑難排解,需仰賴系統化方法。 其中一個有效方法是從最不具侵入性的解決方案開始,並在必要時達到更複雜的和劇烈措施。

疑難排解的第一個步驟,往往是嘗試重新啟動裝置或系統。 重新啟動有助於清除任何可能造成問題的暫時性問題或錯誤。 如果重新啟動無法解決問題,下一個步驟可能是嘗試為裝置或系統重新安裝映像。

如果重新安裝映像無法解決問題,最後一個步驟可能是更換故障的硬體元件。 更換可能是較激進的措施,但如果問題與硬體故障有關,則可能有此必要。

請記住,這些疑難排解方法可能不一定有效,且問題的其他成因可能需要以不同的方法解決。

使用重新啟動動作進行疑難排解

重新啟動 BMM,是透過簡單的 API 呼叫重新啟動伺服器的程序。 當主機上的租用戶虛擬機器沒有回應或停滯時,可以利用此動作來排解問題。

重新啟動通常是減輕問題的起點。

使用重新安裝映像動作進行疑難排解

重新映像 BMM 是您用來在 OS 磁碟上重新部署映像的程式,而不會影響租用戶數據。 此動作會執行相關步驟,使用相同的識別碼重新加入叢集。

重新安裝映像動作可將 OS 還原至已知良好的工作狀態,以利排解問題。 可透過重新安裝映像來解決的常見問題成因,包括因懷疑主機完整性、疑似或確認有安全性危害,或「緊急」寫入活動而導致的復原。

若要以最低的作業風險確保 BMM 的完整性,重新安裝映像動作是最佳做法。

使用更換動作進行疑難排解

伺服器包含許多可能隨著時間推移而故障的實體元件。 請務必了解哪些實體修復需要更換 BMM,以及何時應建議更換 BMM (但並非必要)。

系統會叫用硬體驗證程序,以在部署 OS 映像之前確保實體主機的完整性。 如同重新安裝映像動作,在更換期間不會修改租用戶資料。

重要

從 2024-07-01 GA API 版本開始,RAID 控制器會在 BMM 取代期間重設,並抹除伺服器虛擬磁碟中的所有數據。 除非有附加的實體磁碟和/或 RAID 控制器警示,否則在 BMM 更換期間觸發的基板管理控制器 (BMC) 虛擬磁碟警示可以忽略。

最佳做法是先發出 cordon 命令,以從工作負載排程中移除裸機機器,然後在實體修復之前關閉 BMM。

當您執行實體熱交換電源供應器修復時,不需要更換動作,因為 BMM 主機在修復後會繼續正常運作。

執行下列實體修復時,建議您執行更換動作,儘管 BMM 不一定要恢復運作:

  • CPU
  • 雙內嵌記憶體模組 (DIMM)
  • 風扇
  • 擴充板擴充卡
  • 收發器
  • 乙太網路或光纖纜線更換

執行下列實體修復時,需執行更換動作,才能讓 BMM 恢復運作:

  • 背板
  • 主機板
  • SSD 磁碟
  • PERC/RAID 介面卡
  • Mellanox 網路配接器 (NIC)
  • Broadcom 內嵌 NIC

摘要

重新啟動、重新安裝映像和更換是可用來解決技術問題的有效疑難排解方法。 不過,在嘗試任何激進的措施之前,請務必先擬定系統化方法,並考量其他因素。

如果還有疑問,請連絡支援人員。 如需支援計劃的詳細資訊,請參閱 Azure 支援計劃