將 HDInsight 叢集遷移至更新的版本

若要充分利用最新的 HDInsight 功能,建議您定期將 HDInsight 叢集遷移到最新的版本。 HDInsight 不支援就地升級,也就是現有的叢集會升級至較新的元件版本。 您必須使用所需的元件和平台版本建立新的叢集,然後移轉您的應用程式以使用新的叢集。 請遵循下列指導方針移轉您的 HDInsight 叢集版本。

注意

如果您要建立具有主要儲存體容器的 Hive 叢集,請從現有的 HDInsight 叢集複製它。 請勿複製完整的內容。 只複製已設定的資料資料夾。

移轉工作

升級 HDInsight 叢集的工作流程如下。 HDInsight 升級工作流程圖表。

  1. 閱讀此文件的每一節,以了解在升級 HDInsight 叢集時,可能需要進行的變更。
  2. 將叢集建立為測試/品質保證環境。 如需建立叢集的詳細資訊,請參閱了解如何建立 Linux 型 HDInsight 叢集
  3. 將現有的作業、資料來源與接收複製到新的環境。
  4. 執行驗證測試以確保您的工作在新叢集上會如預期般運作。

當您已驗證一切都會如預期般運作之後,請為移轉排定停機時間。 在此停機期間,請執行下列動作:

  1. 備份所有儲存在本機叢集節點上的暫時性資料。 例如,如果您的資料是直接儲存在前端節點上。
  2. 刪除現有的叢集
  3. 使用與先前叢集所使用之預設資料存放區相同的資料存放區,在具有最新 (或受支援) 之 HDI 版本的 VNET 子網路中建立叢集。 這將能允許新叢集針對現有的生產資料繼續運作。
  4. 匯入任何已備份的暫時性資料。
  5. 使用新叢集啟動工作/繼續處理。

工作負載特定的指引

下列文件提供如何移轉特定工作負載的指引:

備份及還原

如需資料庫備份和還原的詳細資訊,請參閱在 Azure SQL Database 中使用自動資料庫備份復原資料庫

升級案例

如上所述,Microsoft 建議定期將 HDInsight 叢集移轉至最新版本,才能利用新功能和修正程式。 請參閱下列我們要求刪除和重新部署叢集的原因清單:

  • 此叢集版本已淘汰,或者,如果您有可使用較新版本解決的叢集問題。
  • 叢集問題的根本原因已判斷為與過小的 VM 相關。 檢視 Microsoft 建議的節點組態
  • 客戶開啟支援案例,Microsoft 工程小組判斷該問題已在較新叢集版本中修正。
  • 預設中繼存放區資料庫 (Ambari、Hive、Oozie、Ranger) 已達到使用限制。 Microsoft 會要求您使用 自訂中繼存放區 資料庫重新建立叢集。
  • 叢集問題的根本原因是不支援的作業。 以下是一些常見不支援的作業:
    • 在 Ambari 中移動或新增服務。 請參閱 Ambari 中的叢集服務相關資訊,[服務動作] 功能表提供的動作之一是「移動 [服務名稱]」。 另一個動作是「Add [服務名稱]」 (新增 [服務名稱])。 這兩個選項皆不支援。
    • Python 套件損毀。 HDInsight 叢集依存於內建的 Python 環境,即 Python 2.7 和 Python 3.5。 直接在這些預設的內建環境中安裝自訂套件可能會導致非預期的程式庫版本變更而中斷叢集。 了解如何為您的 Spark 應用程式安全地安裝自訂外部 Python 套件
    • 第三方軟體。 客戶可以在其 HDInsight 叢集上安裝第三方軟體;然而,如果會中斷現有的功能,建議您重新建立叢集。
    • 相一叢集上的有多個工作負載。 在 HDInsight 4.0,Hive Warehouse Connector 需要為 Spark 和 Interactive Query 工作負載準備不同的叢集。 請遵循下列步驟,在 Azure HDInsight 中設定這兩個叢集。 同樣地,整合 Spark 與 HBASE 需要兩個不同的叢集。
    • 自訂 Ambari DB 密碼已變更。 Ambari DB 密碼會在叢集建立期間設定,而且目前沒有加以更新的機制。 如果客戶使用 自訂 Ambari DB 部署叢集,客戶可以在 SQL DB 上變更 DB 密碼;不過執行中的 HDInsight 叢集無法更新這個密碼。
    • 修改 HDInsight Load Balancers不應修改或刪除自動部署 Ambari 和 SSH 存取的 HDInsight 負載平衡器。 如果您修改 HDInsight 負載平衡器,並中斷叢集功能,建議您重新部署叢集。
    • 在 5.X 中重複使用 Ranger 4.X 資料庫。 HDInsight 5.1 具有 Apache Ranger 2.3.0 版,這是從 HDInsight 4.X 叢集中 1.2.0 升級的主要版本。 在 HDInsight 5.1 中重複使用 HDInsight 4.X Ranger 資料庫,可防止 Ranger 服務因為 DB 架構的差異而啟動。 您必須建立空的 Ranger 資料庫,才能成功部署 HDInsight 5.1 ESP 叢集。

下一步