Microsoft Fabric 의사 결정 가이드: 데이터 저장소 선택

이 참조 가이드와 예제 시나리오를 사용하여 Microsoft Fabric 워크로드에 대한 데이터 저장소를 선택할 수 있습니다.

데이터 저장소 속성

이 표에서는 데이터 볼륨, 형식, 개발자 페르소나, 기술 집합, 작업을 기반으로 웨어하우스, 레이크하우스, Power BI 데이터마트 및 이벤트하우스와 같은 데이터 저장소를 비교합니다. 및 기타 기능

창고 Lakehouse Power BI Datamart Eventhouse
데이터 볼륨 제한 없음 무제한 최대 100GB 제한 없음
데이터 유형 구조적 구조화되지 않은, 반구조적, 구조화된 구조적 구조화되지 않은, 반구조적, 구조화된
기본 개발자 가상 사용자 데이터 웨어하우스 개발자, SQL 엔지니어 데이터 엔지니어, 데이터 과학자 시민 개발자 시민 데이터 과학자, 데이터 엔지니어, 데이터 과학자, SQL 엔지니어
기본 개발자 기술 집합 SQL Spark(Scala, PySpark, Spark SQL, R) 코드 없음, SQL 코드 없음, KQL, SQL
다음으로 구성된 데이터 데이터베이스, 스키마 및 테이블 폴더 및 파일, 데이터베이스 및 테이블 데이터베이스, 테이블, 쿼리 데이터베이스, 스키마 및 테이블
읽기 작업 T-SQL, Spark(바로 가기를 사용하여 테이블에서 읽기 지원, 뷰 액세스, 저장 프로시저, 함수 등을 아직 지원하지 않음) Spark, T-SQL Spark, T-SQL, Power BI KQL, T-SQL, Spark, Power BI
작업 쓰기 T-SQL Spark(Scala, PySpark, Spark SQL, R) 데이터 흐름, T-SQL KQL, Spark, 커넥터 에코시스템
다중 테이블 트랜잭션 없음 아니요 예, 다중 테이블 수집의 경우입니다. 업데이트 정책을 참조하세요.
기본 개발 인터페이스 SQL 스크립트 Spark Notebook, Spark 작업 정의 Power BI KQL 쿼리 세트, KQL 데이터베이스
보안 개체 수준(테이블, 뷰, 함수, 저장 프로시저 등), 열 수준, 행 수준, DDL/DML, 동적 데이터 마스킹 행 수준, 열 수준(SQL 분석 엔드포인트를 통해 액세스하는 Lakehouse의 경우), 테이블 수준(T-SQL 사용 시), Spark에 대한 없음 기본 제공 RLS 편집기 행 수준 보안
바로 가기를 통해 데이터에 액세스 예, 세 부분으로 된 이름을 사용하는 레이크 하우스를 통해 없음
바로 가기의 원본이 될 수 있습니다. 예(테이블) 예(파일 및 테이블)
항목 간 쿼리 예, 레이크하우스 및 웨어하우스 테이블에서 쿼리 예, 레이크하우스 및 웨어하우스 테이블에서 쿼리합니다. 레이크하우스 간 쿼리(Spark를 사용하는 바로 가기 포함) 아니요 예, 바로 가기를 사용하여 KQL 데이터베이스, 레이크하우스 및 웨어하우스에서 쿼리

시나리오

패브릭에서 데이터 저장소를 선택하는 데 도움이 필요하면 이러한 시나리오를 검토하세요.

시나리오 1

전문 개발자인 Susan은 Microsoft Fabric의 새로운 기능입니다. 데이터 정리, 모델링 및 분석을 시작할 준비가 되었지만 데이터 웨어하우스 또는 레이크하우스를 빌드해야 합니다. 이전 테이블의 세부 정보를 검토한 후 기본 의사 결정 지점은 사용 가능한 기술 집합 및 다중 테이블 트랜잭션의 필요성입니다.

Susan은 관계형 데이터베이스 엔진에서 데이터 웨어하우스를 빌드하는 데 수년을 보냈으며 SQL 구문 및 기능에 익숙합니다. 더 큰 팀을 고려할 때 이 데이터의 기본 소비자는 SQL 및 SQL 분석 도구에도 능숙합니다. Susan은 팀이 주로 T-SQL과 상호 작용할 수 있는 데이터 웨어하우스를 사용하기로 결정하고 조직의 Spark 사용자가 데이터에 액세스할 수 있도록 허용합니다.

Susan은 레이크하우스 SQL 분석 엔드포인트를 사용하여 새 레이크하우스를 만들고 데이터 웨어하우스 기능에 액세스합니다. Fabric 포털을 사용하여 외부 데이터 테이블에 대한 바로 가기를 만들어 폴더에 /Tables 배치합니다. 이제 Susan은 바로 가기를 참조하는 T-SQL 쿼리를 작성하여 Lakehouse에서 Delta Lake 데이터를 쿼리할 수 있습니다. 바로 가기는 SQL 분석 엔드포인트에 테이블로 자동으로 표시되며 세 부분으로 구성된 이름을 사용하여 T-SQL로 쿼리할 수 있습니다.

시나리오 2

데이터 엔지니어인 Rob은 패브릭에 몇 테라바이트 단위의 데이터를 저장하고 모델링해야 합니다. 팀에는 PySpark 및 T-SQL 기술이 혼합되어 있습니다. T-SQL 쿼리를 실행하는 대부분의 팀은 소비자이므로 INSERT, UPDATE 또는 DELETE 문을 작성할 필요가 없습니다. 나머지 개발자는 Notebook에서 편안하게 작업할 수 있으며, 데이터가 Delta에 저장되므로 유사한 SQL 구문과 상호 작용할 수 있습니다.

Rob은 데이터 엔지니어링 팀이 데이터에 대해 다양한 기술을 사용할 수 있도록 하는 레이크하우스를 사용하기로 결정하고, T-SQL에 고도로 숙련된 팀원이 데이터를 사용할 수 있도록 합니다.

시나리오 3

시민 개발자인 Ash는 Power BI 개발자입니다. Excel, Power BI 및 Office에 익숙합니다. 사업부에 대한 데이터 제품을 빌드해야 합니다. 그들은 데이터 웨어하우스나 레이크하우스를 빌드할 수 있는 기술이 없다는 것을 알고 있으며, 요구 사항과 데이터 볼륨에 비해 너무 많은 것 같습니다. 이전 표의 세부 정보를 검토하고 기본 의사 결정 지점이 자체 기술과 셀프 서비스에 대한 필요성, 코드 기능 없음 및 100GB 미만의 데이터 볼륨임을 확인합니다.

Ash는 Power BI 및 Microsoft Office에 익숙한 비즈니스 분석가와 함께 작동하며 이미 프리미엄 용량 구독이 있음을 알고 있습니다. 더 큰 팀에 대해 생각할 때 이 데이터의 기본 소비자는 코드 없음 및 SQL 분석 도구에 익숙한 분석가일 수 있습니다. Ash는 코드 없는 환경을 사용하여 팀이 기능을 빠르게 빌드할 수 있도록 하는 Power BI 데이터 마트를 사용하기로 결정합니다. 쿼리는 Power BI 및 T-SQL을 통해 실행할 수 있으며 조직의 Spark 사용자도 데이터에 액세스할 수 있습니다.

시나리오 4

Daisy는 Power BI를 사용하여 대형 글로벌 소매 체인의 공급망 병목 상태를 분석한 비즈니스 분석가입니다. 수십억 개의 데이터 행을 처리할 수 있고 비즈니스 의사 결정을 내리는 데 사용할 수 있는 대시보드 및 보고서를 빌드하는 데 사용할 수 있는 확장 가능한 데이터 솔루션을 빌드해야 합니다. 데이터는 다양한 구조적, 반구조적 및 비구조적 형식의 공장, 공급 업체, 화주 및 기타 소스에서 제공됩니다.

Daisy는 확장성, 빠른 응답 시간, 시계열 분석, 지리 공간적 함수 및 Power BI의 빠른 직접 쿼리 모드를 비롯한 고급 분석 기능으로 인해 이벤트 하우스를 사용하기로 결정했습니다. Power BI 및 KQL을 사용하여 쿼리를 실행하여 현재 기간과 이전 기간을 비교하거나, 새로운 문제를 신속하게 식별하거나, 육상 및 해상 경로의 지리적 공간 분석을 제공할 수 있습니다.