HDInsight 클러스터를 최신 버전으로 마이그레이션합니다.

최신 HDInsight 기능을 활용하려면 HDInsight 클러스터를 정기적으로 최신 버전으로 마이그레이션하는 것이 좋습니다. HDInsight는 기존 클러스터가 최신 구성 요소 버전으로 업그레이드되는 현재 위치 업그레이드를 지원하지 않습니다. 원하는 구성 요소 및 플랫폼 버전으로 새 클러스터를 만든 다음 새 클러스터를 사용하도록 애플리케이션을 마이그레이션해야 합니다. 아래 지침에 따라 HDInsight 클러스터 버전을 마이그레이션합니다.

참고 항목

기본 스토리지 컨테이너로 Hive 클러스터를 만드는 경우 기존 HDInsight 클러스터에서 복사합니다. 전체 콘텐츠를 복사하지 마세요. 구성된 데이터 폴더만 복사합니다.

마이그레이션 작업

HDInsight 클러스터를 업그레이드하는 워크플로는 다음과 같습니다. HDInsight 업그레이드 워크플로 다이어그램.

  1. HDInsight 클러스터를 업그레이드할 때 필요할 수 있는 변경 내용을 이해하려면 이 문서의 각 섹션을 읽어보세요.
  2. 클러스터를 테스트/품질 보증 환경으로 만듭니다. 클러스터를 만드는 방법에 대한 자세한 내용은 Linux 기반 HDInsight 클러스터를 만드는 방법 알아보기를 참조하세요.
  3. 기존 작업, 데이터 원본 및 싱크를 새 환경으로 복사합니다.
  4. 작업이 새 클러스터에서 예상대로 작동하는지 확인하려면 유효성 검사 테스트를 수행합니다.

예상대로 작동하는 것이 확인되면 마이그레이션을 위해 가동 중지 시간을 예약합니다. 이 가동 중지 시간 동안 다음 작업을 수행합니다.

  1. 클러스터 노드에 로컬로 저장된 모든 임시 데이터를 백업합니다. 예를 들어 헤드 노드에 직접 저장된 데이터가 있는 경우입니다.
  2. 기존 클러스터를 삭제합니다.
  3. 이전 클러스터에서 사용된 것과 동일한 기본 데이터 저장소를 사용하여 최신(또는 지원되는) HDI 버전과 동일한 VNET 서브넷에서 클러스터를 만듭니다. 이렇게 하면 새 클러스터에서 기존의 프로덕션 데이터에 대해 작업을 계속할 수 있습니다.
  4. 백업한 모든 임시 데이터를 가져옵니다.
  5. 새 클러스터를 사용하여 작업을 시작하거나 계속 처리합니다.

워크로드 관련 지침

다음 문서에서는 특정 워크로드를 마이그레이션하는 방법에 대한 지침을 제공합니다.

백업 및 복구

데이터베이스 백업 및 복원에 대한 자세한 내용은 자동화된 데이터베이스 백업을 사용하여 Azure SQL Database에서 데이터베이스 복구를 참조하세요.

업그레이드 시나리오

위에서 설명한 대로 새로운 기능과 수정 사항을 활용하기 위해 HDInsight 클러스터를 정기적으로 최신 버전으로 마이그레이션하는 것이 좋습니다. 클러스터를 삭제하고 다시 배포할 것을 요청하는 다음의 이유 목록을 참조하세요.

  • 클러스터 버전이 사용 중지되었거나 최신 버전으로 해결해야 하는 클러스터 문제가 있는 경우입니다.
  • 클러스터 문제의 근본 원인은 소형 VM과 관련 있는 것으로 확인되었습니다. Microsoft의 권장 노드 구성을 보세요.
  • 고객이 지원 사례를 연 후 Microsoft 엔지니어링 팀은 문제가 최신 클러스터 버전에서 이미 해결되었다고 판단하고 있습니다.
  • 기본 메타스토어 데이터베이스(Ambari, Hive, Oozie, Ranger)가 사용률 제한에 도달했습니다. Microsoft는 사용자 지정 메타스토어 데이터베이스를 사용하여 클러스터를 다시 만들도록 요청합니다.
  • 클러스터 문제의 근본 원인은 지원되지 않는 작업 때문입니다. 아래에는 지원되지 않는 일반적인 작업 중 몇 가지가 나와 있습니다.
    • Ambari에서 서비스 이동 또는 추가. Ambari에서 클러스터 서비스 관련 정보를 볼 때 서비스 작업 메뉴에서 사용할 수 있는 작업 중 하나는 [서비스 이름] 이동입니다. 또 다른 작업은 [서비스 이름] 추가입니다. 이러한 옵션이 모두 지원되지 않습니다.
    • Python 패키지 손상. HDInsight 클러스터는 기본 제공 Python 환경, Python 2.7 및 Python 3.5에 따라 달라집니다. 이러한 기본 제공 환경에 사용자 지정 패키지를 직접 설치하면, 예기치 않게 라이브러리 버전이 변경되고 클러스터가 중단될 수 있습니다. Spark 애플리케이션에 대한 사용자 지정 외부 Python 패키지를 안전하게 설치하는 방법을 알아보세요.
    • 타사 소프트웨어. 고객은 HDInsight 클러스터에 타사 소프트웨어를 설치할 수 있지만, 기존 기능을 중단하는 경우 클러스터를 다시 만드는 것이 좋습니다.
    • 동일한 클러스터에 있는 여러 개의 워크로드. HDInsight 4.0의 Hive Warehouse Connector에는 Spark 및 Interactive Query 워크로드를 위한 별도의 클러스터가 필요합니다. Azure HDInsight에서 두 클러스터를 모두 설정하려면 다음 단계를 따릅니다. 마찬가지로 HBASE와 Spark를 통합하려면 서로 다른 2개의 클러스터가 필요합니다.
    • 사용자 지정 Ambari DB 암호가 변경되었습니다. Ambari DB 암호는 클러스터를 만드는 동안 설정되며 현재 업데이트할 수 있는 메커니즘이 없습니다. 고객이 사용자 지정 Ambari DB를 통해 클러스터를 배포하는 경우 SQL DB에서 DB 암호를 변경할 수 있지만, 실행 중인 HDInsight 클러스터에서 이 암호를 업데이트할 수 있는 방법은 없습니다.
    • HDInsight 부하 분산 장치 수정. Ambari 및 SSH 액세스를 위해 자동으로 배포되는 HDInsight 부하 분산 장치는 수정하거나 삭제해서는 안 됩니다. . HDInsight 부하 분산 장치를 수정하고 클러스터 기능을 중단하는 경우 클러스터를 다시 배포하는 것이 좋습니다.
    • Ranger 4.X 데이터베이스를 5.X에서 다시 사용합니다. HDInsight 5.1에는 HDInsight 4.X 클러스터의 1.2.0 에서 주 버전 업그레이드인 Apache Ranger 버전 2.3.0이 있습니다. HDInsight 5.1에서 HDInsight 4.X Ranger 데이터베이스를 다시 사용하면 DB 스키마의 차이로 인해 Ranger 서비스가 시작되지 않습니다. HDInsight 5.1 ESP 클러스터를 성공적으로 배포하려면 빈 Ranger 데이터베이스를 만들어야 합니다.

다음 단계