Unity 카탈로그를 사용하여 클라우드 개체 스토리지에 연결

이 문서에서는 Unity 카탈로그를 사용하여 데이터를 사용하는 데 필요한 클라우드 스토리지 연결 구성에 대한 개요를 제공합니다.

Databricks에서는 클라우드 개체 스토리지에 저장된 모든 데이터에 대한 액세스를 관리하려면 Unity 카탈로그를 사용하는 것이 권장됩니다. Unity 카탈로그는 클라우드 개체 스토리지에 대한 보안 연결을 구성하는 도구 모음을 제공합니다. 이러한 연결은 다음 작업을 완료하기 위한 액세스를 제공합니다.

  • 레이크하우스에 원시 데이터를 수집합니다.
  • 보안 클라우드 스토리지의 관리 테이블을 만들고 읽습니다.
  • 표 형식 데이터를 포함하는 외부 테이블을 등록하거나 만듭니다.
  • 비구조적 데이터를 읽고 씁니다.

Warning

최종 사용자에게 Unity 카탈로그 관리 테이블 또는 볼륨에 대한 스토리지 수준 액세스 권한을 부여하지 마세요. 이렇게 하면 데이터 보안 및 거버넌스가 훼손됩니다.

사용자에게 Azure Data Lake Storage Gen2의 외부 위치 스토리지에 대한 직접 스토리지 수준 액세스 권한을 부여해도 Unity 카탈로그에서 부여된 권한 또는 유지 관리하는 감사는 적용되지 않습니다. 직접 액세스는 액세스 제어 및 권한을 포함하여 Unity 카탈로그의 감사, 계보 및 기타 보안 및 모니터링 기능을 건너뜁니다. Azure Data Lake Storage Gen2를 통해 직접 스토리지 액세스를 관리하고 사용자에게 Fabric을 통해 부여된 적절한 권한이 있는지 확인할 책임이 있습니다.

Databricks 관리 테이블을 저장하는 버킷에 대해 직접 스토리지 수준 쓰기 권한을 부여하는 모든 시나리오를 방지합니다. 원래 Unity 카탈로그에서 관리했던 스토리지를 통해 개체를 직접 수정, 삭제 또는 발전시키면 데이터 손상이 일어날 수 있습니다.

참고 항목

2023년 11월 9일 이전에 작업 영역을 만든 경우 Unity 카탈로그를 사용하도록 설정되지 않았을 수 있습니다. 계정 관리자는 작업 영역에 대해 Unity 카탈로그를 사용하도록 설정해야 합니다. Unity 카탈로그에 작업 영역 사용을 참조하세요.

Unity 카탈로그는 개체 스토리지를 Azure Databricks에 어떻게 연결하나요?

Azure Databricks는 Azure Data Lake Storage Gen2 컨테이너와 Cloudflare R2 버킷을 모두 Unity 카탈로그에 등록된 데이터 및 AI 자산에 대한 클라우드 스토리지 위치로 지원합니다. R2는 주로 클라우드 및 지역에서 델타 공유와 같은 데이터 Egress 비용을 방지하려는 사용 사례를 위한 것입니다. 자세한 내용은 Cloudflare R2 복제본 사용 또는 스토리지를 R2로 마이그레이션을 참조하세요.

테이블과 볼륨을 보유한 기본 클라우드 스토리지에 대한 액세스를 관리하기 위해 Unity 카탈로그는 다음 개체 유형을 사용합니다.

  • 스토리지 자격 증명Azure 관리 ID 또는 Azure Data Lake Storage Gen2 컨테이너의 서비스 주체 또는 Cloudflare R2 버킷의 R2 API 토큰을 사용하여 클라우드 테넌트에 저장된 데이터에 액세스하기 위한 인증 및 권한 부여 메커니즘을 나타냅니다. 각 스토리지 자격 증명에는 자격 증명에 액세스할 수 있는 사용자 및 그룹을 제어하는 Unity 카탈로그 액세스 제어 정책이 적용됩니다. 사용자가 Unity 카탈로그의 스토리지 자격 증명에 액세스할 수 없는 경우 요청이 실패하고 Unity 카탈로그는 사용자를 대신하여 클라우드 테넌트에 대한 인증을 시도하지 않습니다. 스토리지 자격 증명을 만들 수 있는 권한은 외부 위치를 정의해야 하는 사용자에게만 부여되어야 합니다. Azure Data Lake Storage Gen2에 연결하기 위한 스토리지 자격 증명 만들기Cloudflare R2에 연결하기 위한 스토리지 자격 증명 만들기를 참조하세요.

  • 외부 위치는 클라우드 스토리지 경로에 대한 액세스를 승인하는 스토리지 자격 증명과 클라우드 스토리지 경로를 결합한 개체입니다. 각 스토리지 위치에는 자격 증명에 액세스할 수 있는 사용자 및 그룹을 제어하는 Unity 카탈로그 액세스 제어 정책이 적용됩니다. 사용자가 Unity 카탈로그의 스토리지 위치에 액세스할 수 없는 경우 요청이 실패하고 Unity 카탈로그는 사용자를 대신하여 클라우드 테넌트에 대한 인증을 시도하지 않습니다. 외부 위치를 만들고 사용할 수 있는 권한은 외부 테이블, 외부 볼륨 또는 관리 스토리지 위치를 만들어야 하는 사용자에게만 부여되어야 합니다. 클라우드 스토리지를 Azure Databricks에 연결하기 위한 외부 위치 생성 방법을 참조하세요.

    외부 위치는 외부 테이블외부 볼륨과 같은 외부 데이터 자산과 관리 테이블관리된 볼륨과 같은 관리되는 데이터 자산에 모두 사용됩니다. 차이점에 대한 자세한 내용은 테이블이란?Unity 카탈로그 볼륨이란?을 참조하세요.

    관리 테이블관리된 볼륨을 저장하는 데 외부 위치를 사용하는 경우 관리 스토리지 위치라고 합니다. 관리 스토리지 위치는 메타스토어, 카탈로그 또는 스키마 수준에 있을 수 있습니다. Databricks는 카탈로그 수준에서 관리 스토리지 위치를 구성하는 것이 좋습니다. 보다 세부적인 격리가 필요한 경우 스키마 수준에서 관리 스토리지 위치를 지정할 수 있습니다. Unity 카탈로그에 대해 사용하도록 설정된 작업 영역에는 기본적으로 메타스토어 수준 스토리지가 자동으로 없지만 카탈로그 수준 스토리지가 정의되지 않은 경우 메타스토어 수준에서 관리 스토리지 위치를 지정하여 기본 위치를 제공할 수 있습니다. Unity 카탈로그에 사용하도록 설정된 작업 영역은 기본적으로 메타스토어 수준 관리 스토리지 위치를 수동으로 받습니다. Unity 카탈로그에 관리 스토리지 위치 지정Unity 카탈로그 모범 사례를 참조하세요.

볼륨은 대부분의 Azure Databricks 사용자가 클라우드 개체 스토리지의 표 형식이 아닌 데이터와 직접 상호 작용하는 데 사용해야 하는 보안 개체입니다. Unity 카탈로그 볼륨이란?을 참조하세요.

참고 항목

Unity 카탈로그는 클라우드 스토리지 URI를 사용하여 외부 테이블 및 외부 볼륨에 대한 경로 기반 액세스를 지원하지만, Databricks는 사용자가 테이블 이름을 사용하여 모든 Unity 카탈로그 테이블을 읽고 쓰고 /Volumes 경로를 사용하여 볼륨의 데이터에 액세스하는 것이 좋습니다.

Unity 카탈로그를 사용한 클라우드 스토리지 모범 사례

Azure Databricks는 Unity 카탈로그 거버넌스를 사용하여 Azure Databricks에서 처리되는 데이터에 대한 Azure Storage 서비스로 Azure Data Lake Storage Gen2를 사용해야 합니다. Azure Data Lake Storage Gen2를 사용하면 스토리지 및 컴퓨팅 비용을 구분하고 Unity 카탈로그에서 제공하는 세분화된 액세스 제어를 활용할 수 있습니다. 데이터가 OneLake(Microsoft Fabric 데이터 레이크)에 저장되고 Databricks(Unity 카탈로그 무시)에서 처리되는 경우 번들 스토리지 및 컴퓨팅 비용이 발생합니다. 이로 인해 데이터를 저장, 읽기 및 쓰기를 위한 Azure Data Lake Storage Gen2에 비해 읽기의 경우 약 3배, 쓰기의 경우 1.6배 더 높은 비용이 발생할 수 있습니다. Azure Blob Storage는 Unity 카탈로그와도 호환되지 않습니다.

기능 Azure Blob Storage Azure Data Lake Storage Gen2 OneLake
Unity 카탈로그에서 지원 X X
추가 패브릭 용량 구매 필요 X X
외부 엔진에서 지원되는 작업 * 읽기
* 쓰기
* 읽기
* 쓰기
* 읽기(읽기는 Azure Data Lake Storage Gen2에서 데이터를 읽는 것과 비교하여 3배의 비용이 발생합니다).
* 쓰기는 지원되지 않습니다.

세부 정보는 OneLake 설명서를 참조하세요.
배포 지역 지역 전역
인증 Entra ID 공유 액세스 서명 Entra ID 공유 액세스 서명 Entra ID
스토리지 이벤트 X
일시 삭제
Access Control RBAC RBAC, ABAC, ACL RBAC(테이블/폴더에만 해당, 바로 가기 ACL은 지원되지 않음)
암호화 키 X
액세스 계층 온라인 보관함 핫, 쿨, 콜드, 보관 핫 전용

다음 단계

Unity 카탈로그를 관리자로 시작하는 경우 Unity 카탈로그 설정 및 관리를 참조하세요.

새 사용자이고 작업 영역이 Unity 카탈로그에 대해 이미 사용하도록 설정된 경우 자습서: 첫 번째 테이블 만들기 및 권한 부여를 참조하세요.