Infoworks에 연결

Important

이 기능은 공개 미리 보기 상태입니다.

Infoworks DataFoundry는 Azure Databricks로 네이티브로 실행되며 Azure Databricks의 모든 기능을 활용하여 데이터 레이크의 운영을 시작하기 위한 중요한 첫 번째 단계인 데이터 온보딩을 위한 간편한 솔루션을 제공하는 자동화된 엔터프라이즈 데이터 운영 및 오케스트레이션 시스템입니다. DataFoundry는 데이터 수집을 자동화할 뿐 아니라 분석을 위한 기초를 설정하기 위해 수집에 수반되어야 하는 주요 기능을 자동화합니다. DataFoundry를 사용하여 데이터를 온보딩하면 다음과 같은 기능이 자동화됩니다.

  • 데이터 수집: 모든 엔터프라이즈 및 외부 데이터 원본에서의 데이터 수집
  • 데이터 동기화: 데이터를 원본과 동기화된 상태로 유지하기 위한 CDC
  • 데이터 거버넌스: 카탈로그 구성, 계보, 메타데이터 관리, 감사 및 기록

Azure Databricks에서 Infoworks를 사용하는 방법은 다음과 같습니다.

1단계: Databricks 개인용 액세스 토큰 생성

Infoworks는 Azure Databricks 개인용 액세스 토큰을 사용하여 Azure Databricks에 인증됩니다.

참고 항목

보안 모범 사례로, 자동화된 도구, 시스템, 스크립트 및 앱을 사용하여 인증하는 경우 Databricks는 작업 영역 사용자 대신 서비스 주체에 속한 개인용 액세스 토큰을 사용하는 것이 좋습니다. 서비스 주체에 대한 토큰을 만들려면 서비스 주체에 대한 토큰 관리를 참조하세요.

2단계: 통합 요구 사항을 지원하도록 클러스터 설정

Infoworks가 Azure Data Lake Storage 경로에 데이터를 쓰고 Azure Databricks 통합 클러스터가 해당 위치에서 데이터를 읽습니다. 따라서 통합 클러스터에는 Azure Data Lake Storage 경로에 대한 보안 액세스가 필요합니다.

Azure Data Lake Storage 경로에 대한 보안 액세스

ADLS(Azure Data Lake Storage)의 데이터에 대한 액세스를 보호하려면 Azure Storage 계정 액세스 키(권장) 또는 Microsoft Entra ID 서비스 주체를 사용할 수 있습니다.

Azure Storage 계정 액세스 키

Spark 구성의 일부로 통합 클러스터에서 스토리지 계정 액세스 키를 구성할 수 있습니다. 스토리지 계정이 데이터 준비에 사용되는 ADLS 컨테이너 및 파일 시스템과 Delta Lake 테이블을 쓰려는 ADLS 컨테이너 및 파일 시스템에 액세스할 수 있는지 확인합니다. 키를 사용하도록 통합 클러스터를 구성하려면 Azure Data Lake Storage Gen2 및 Blob Storage에 커넥트 단계를 수행합니다.

Microsoft Entra ID 서비스 주체 사용

Spark 구성의 일부로 Azure Databricks 통합 클러스터에서 서비스 주체를 구성할 수 있습니다. 서비스 주체가 데이터 준비에 사용되는 ADLS 컨테이너와 Delta 테이블을 쓰려는 ADLS 컨테이너에 액세스할 수 있는지 확인합니다. 서비스 주체를 사용하도록 통합 클러스터를 구성하려면 서비스 주체를 사용하여 ADLS Gen2에 액세스의 단계를 따르세요.

클러스터 구성 지정

  1. 클러스터 모드표준으로 설정합니다.

  2. Databricks Runtime 버전을 Databricks 런타임 버전으로 설정합니다.

  3. Spark 구성에 다음 속성을 추가하여 최적화된 쓰기 및 자동 압축사용하도록 설정합니다.

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. 통합 및 스케일링 요구 사항에 따라 클러스터를 구성합니다.

클러스터 구성 세부 정보는 컴퓨팅 구성 참조를 참조하세요.

JDBC URL 및 HTTP 경로를 가져오는 단계는 Azure Databricks 컴퓨팅 리소스에 대한 연결 세부 정보 가져오기를 참조하세요.

3단계: 클러스터에 연결하기 위한 JDBC 및 ODBC 연결 세부 정보 가져오기

Azure Databricks 클러스터를 Infoworks에 연결하려면 다음 JDBC/ODBC 연결 속성이 필요합니다.

  • JDBC URL
  • HTTP 경로

4단계: Azure Databricks용 Infoworks 가져오기

자세한 내용을 알아보고 데모를 살펴보려면 Infoworks를 방문하세요.

추가 리소스

지원