Data lake bölgeleri ve kapsayıcılar

Makale
10/19/2024

Veri yapınızı bir veri gölüne almadan önce planlamanız önemlidir. Bir planınız olduğunda güvenlik, bölümleme ve işlemeyi etkili bir şekilde kullanabilirsiniz.

Veri göllerine genel bakış için bkz . Bulut ölçeğinde analiz için Azure Data Lake Storage'a genel bakış.

Genel bakış

Üç data lake hesabınız tipik data lake katmanlarıyla uyumlu olmalıdır.

Göl numarası	Katmanlar	Kapsayıcı numarası	Kapsayıcı adı
1	Ham	1	Sahanlık
1	Ham	2	Uygunluk
2	Zengin -leştirilmiş	1	Standart
2	Oluşturuldu	2	Veri ürünleri
3	Geliştirme	1	Analiz korumalı alanı
3	Geliştirme	#	Synapse birincil depolama numarası

Önceki tabloda, veri giriş bölgesi başına önerdiğimiz standart kapsayıcı sayısı gösterilmektedir. Bu önerinin istisnası, kapsayıcıdaki veriler için farklı geçici silme ilkelerinin gerekli olmasıdır. Bu gereksinimler daha fazla kapsayıcıya ihtiyacınızı belirler.

Not

Her veri giriş bölgesinde üç veri gölü gösterilir. Veri gölü üç data lake hesabı, birden çok kapsayıcı ve klasör arasında yer alır, ancak veri giriş bölgeniz için tek bir mantıksal veri gölü temsil eder.

Gereksinimlerinize bağlı olarak ham, zenginleştirilmiş ve seçilmiş katmanları tek bir depolama hesabında birleştirmek isteyebilirsiniz. Veri tüketicilerinin diğer yararlı veri ürünlerini getirmesi için "geliştirme" adlı başka bir depolama hesabı tutun.

Data Lake hesaplarını ayırma hakkında daha fazla bilgi için bkz . Mantıksal veri gölünde depolama hesapları.

Dosyaları verimli bir şekilde yönetmenizi sağlayan hiyerarşik ad alanı özelliğiyle Azure Depolama'yı etkinleştirin. Hiyerarşik ad alanı özelliği, bir hesaptaki nesneleri ve dosyaları dizinler ve iç içe alt dizinler hiyerarşisinde düzenler. Bu hiyerarşi, bilgisayarınızdaki dosya sistemiyle aynı şekilde düzenlenir.

Veri agnostic alma altyapısı veya ekleme uygulamanız yeni bir kayıt sistemi kaydettiğinde ham, zenginleştirilmiş ve standartlaştırılmış veri katmanlarında kapsayıcılarda gerekli klasörleri oluşturur. Kaynakla hizalanmış bir veri uygulaması verileri alırsa, veri uygulama ekibinizin klasörleri ve güvenlik gruplarını oluşturması için veri giriş bölgesi ekibinize ihtiyacı vardır. Hizmet ilkesi adını veya yönetilen kimliği doğru gruba yerleştirin ve bir izin düzeyi atayın. Veri giriş bölgeniz ve veri uygulaması ekipleriniz için bu işlemi belgeleyin.

Ekipler hakkında daha fazla bilgi için bkz . Azure'da bulut ölçeğinde analiz için rolleri ve ekipleri anlama.

Her veri ürününün veri ürünleri kapsayıcısında, veri ürün ekibinizin sahip olduğu iki klasör olmalıdır.

Standartlaştırılmış kapsayıcının zenginleştirilmiş katmanında, kaynak sistem başına sınıflandırmaya göre bölünmüş iki klasör vardır. Bu yapıyla, ekibiniz farklı güvenlik ve veri sınıflandırmalarına sahip verileri ayrı ayrı depolayabilir ve onlara farklı güvenlik erişimi atayabilir.

Standartlaştırılmış kapsayıcınızın gizli veya daha küçük veriler için genel bir klasöre ve kişisel veriler için hassas bir klasöre ihtiyacı vardır. Erişim denetim listelerini (ACL' ler) kullanarak bu klasörlere erişimi denetleyin. Tüm kişisel verilerin kaldırıldığı bir veri kümesi oluşturabilir ve bunu genel klasörünüzde depolayabilirsiniz. Hassas kişisel veri klasörünüzdeki tüm kişisel verileri içeren başka bir veri kümeniz olabilir.

ACL'ler ve Microsoft Entra gruplarının birleşimi veri erişimini kısıtlar. Bu listeler ve gruplar, diğer grupların erişebileceği ve erişemeyeceklerini denetler. Veri sahipleri ve veri uygulaması ekipleri, veri varlıklarına erişimi onaylayabilir veya reddedebilir.

Daha fazla bilgi için bkz . Veri gizliliği.

Uyarı

Bazı yazılım ürünleri data lake kapsayıcısının kökünü bağlamayı desteklemez. Bu sınırlama nedeniyle ham, seçilmiş, zenginleştirilmiş ve geliştirme katmanlarındaki her data lake kapsayıcısı, birden çok klasöre dallanan tek bir klasör içermelidir. Klasör izinlerinizi dikkatle ayarlayın. Kökten yeni bir klasör oluşturduğunuzda, üst dizindeki varsayılan ACL bir alt dizinin varsayılan ACL'sini belirler ve ACL'ye erişin. Alt dosyanın ACL'sinde varsayılan ACL yoktur.

Daha fazla bilgi için bkz. Azure Data Lake Storage 2. Nesil erişim denetim listeleri (ACL'ler).

Ham katman (bronz) veya veri gölü bir

Not

Madalyon mimarisi , lakehouse'ta temel bir yapı sağlayan artımlı olarak geliştirilmiş veri katmanlarını açıklayan bir veri tasarımı desenidir. Bronz, gümüş ve altın katmanları, her düzeyde artan veri kalitesini gösterir ve altın en yüksek kaliteyi temsil eder.

Ham katmanı, verileri doğal ve özgün durumunda depolayan bir rezervuar olarak düşünün. Filtrelenmemiş ve tasdiksiz. Verileri JSON veya CSV gibi özgün biçiminde depolayabilirsiniz. Ya da dosya içeriğini Avro, Parquet veya Databricks Delta Lake gibi sıkıştırılmış bir dosya biçiminde bir sütun olarak depolamak uygun maliyetli olabilir.

Bu ham veriler sabittir. Ham verilerinizi kilitli tutun ve otomatik veya insan herhangi bir tüketiciye izin verirseniz bunların salt okunur olduğundan emin olun. Kaynak sistem başına bir klasör kullanarak bu katmanı düzenleyebilirsiniz. Her alma işlemine yalnızca ilişkili klasörüne yazma erişimi verin.

Kaynak sistemlerden ham bölgeye veri yüklediğinizde şunları yapmayı seçebilirsiniz:

Tam veri kümesini ayıklamak için tam yükler .
Delta yalnızca değiştirilen verileri yüklemek için yüklenir .

Veri tüketicilerinizin kullanımını basitleştirmek için klasör yapınızda seçtiğiniz yükleme desenini belirtin.

Kaynak sistemlerden alınan ham veriler, her kaynakla hizalanmış veri uygulaması veya otomatik alma altyapısı kaynağı tam klasöre veya delta klasörüne gelir. Her alma işleminin yalnızca ilişkili klasörüne yazma erişimi olmalıdır.

Tam yükler ile delta yükleri arasındaki farklar şunlardır:

Tam yük - Aşağıdakiler durumunda kaynaktan gelen tam veriler eklenebilir:
- Kaynakta veri hacmi küçüktür.
- Kaynak sistem, verilerin eklenip eklenmediğini, güncelleştirildiğini veya silindiğini tanımlayan bir zaman damgası alanı tutmaz.
- Kaynak sistem her seferinde tüm verilerin üzerine yazar.
Delta yükü - Aşağıdakiler durumunda kaynaktan artımlı veriler eklenebilir:
- Kaynakta veri hacmi büyük.
- Kaynak sistem, verilerin eklenip eklenmediğini, güncelleştirildiğini veya silindiğini tanımlayan bir zaman damgası alanı tutar.
- Kaynak sistem, veri değişiklikleriyle ilgili dosyaları oluşturur ve güncelleştirir.

Ham veri gölünüz, giriş ve uyumluluk kapsayıcılarınızdan oluşur. Her kapsayıcı, amacına özgü %100 zorunlu bir klasör yapısı kullanır.

Giriş kapsayıcısı düzeni

Giriş kapsayıcınız, tanınan bir kaynak sistemden alınan ham veriler için ayrılmıştır. Veri agnostic alma altyapınız veya kaynakla hizalanmış bir veri uygulamanız, verileri değişmemiş ve özgün desteklenen biçimde yükler.

.
|-Landing
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------Delta
|-------{date (ex. rundate=2019-08-22)}
|------Full

Ham katman uyumluluğu kapsayıcısı

Ham katmanınız veri kalitesine uygun veriler içeriyor. Veriler bir giriş kapsayıcısına kopyalandığından, giriş kapsayıcısından uyumluluk kapsayıcısına veri kopyalamak için veri işleme ve bilgi işlem tetikler. Bu ilk aşamada veriler delta lake biçimine dönüştürülür ve bir giriş klasörüne eklenir. Veri kalitesi çalıştırıldığında, geçen kayıtlar çıkış klasörüne kopyalanır. Başarısız olan kayıtlar bir hata klasörüne iner.

.
|-Conformance
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------Delta
|-------Input
|--------{date (ex. rundate=2019-08-22)}
|-------Output
|--------{date (ex. rundate=2019-08-22)}
|-------Error
|--------{date (ex. rundate=2019-08-22)}
|------Full
|-------Input
|--------{date (ex. rundate=2019-08-22)}
|-------Output
|--------{date (ex. rundate=2019-08-22)}
|-------Error
|--------{date (ex. rundate=2019-08-22)}

İpucu

Bir analiz platformlarını sıfırdan yeniden oluşturmanız gerekebilecek senaryoları düşünün. Aşağı akış okuma veri depolarını yeniden oluşturmak için ihtiyacınız olan en ayrıntılı verileri göz önünde bulundurun. Önemli bileşenleriniz için bir iş sürekliliği ve olağanüstü durum kurtarma planınız olduğundan emin olun.

Zenginleştirilmiş katman (gümüş) veya veri gölü iki

Zenginleştirilmiş katmanı bir filtrasyon katmanı olarak düşünün. Safsızlıkları giderir ve zenginleştirmeyi de içerebilir.

Standartlaştırma kapsayıcınızda kayıt ve ana bilgisayar sistemleri bulunur. Klasörler önce konu alanına, ardından varlığa göre segmentlere ayrılmıştır. Veriler, analiz tüketimi için iyileştirilmiş birleştirilmiş, bölümlenmiş tablolarda kullanılabilir.

Standartlaştırılmış kapsayıcı

.
|-Standardized
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------General
|--------{date (ex. rundate=2019-08-22)}
|-------Sensitive
|--------{date (ex. rundate=2019-08-22)}

Not

Bu veri katmanı, gümüş katman veya okuma veri kaynağı olarak kabul edilir. Bu katmandaki veriler veri kalitesi, delta lake dönüştürme ve veri türü hizalaması dışında hiçbir dönüştürme uygulanmadı.

Aşağıdaki diyagramda veri göllerinin ve kapsayıcıların kaynak verilerden standartlaştırılmış bir kapsayıcıya akışı gösterilmektedir.

Seçilmiş katman (altın) veya veri gölü iki

Seçilen katmanınız tüketim katmanınızdır. Veri alımı veya işlenmesi yerine analiz için iyileştirilmiştir. Seçilen katman, verileri normalleştirilmiş veri reyonlarında veya yıldız şemalarında depolayabilir.

Standartlaştırılmış kapsayıcınızdaki veriler, veri tüketicilerinize sunulan yüksek değerli veri ürünlerine dönüştürülür. Bu verilerin yapısı vardır. Veri bilimi not defterleri gibi tüketicilere olduğu gibi veya Azure SQL Veritabanı gibi başka bir okuma veri deposu aracılığıyla sunulabilir.

Spark veya Data Factory gibi araçları kullanarak veritabanı altyapınızda yapmak yerine boyutsal modelleme gerçekleştirin. Gölünüzü tek bir gerçeklik kaynağı yapmak istiyorsanız bu araçların kullanılması önemli bir nokta haline gelir.

Gölünüzün dışında boyutlu modelleme yapıyorsanız tutarlılık için modelleri gölünüze geri yayımlamak isteyebilirsiniz. Bu katman, veri ambarı yerine kullanılmaz. Performansı genellikle duyarlı panolar veya son kullanıcı ve tüketici etkileşimli analizleri için yeterli değildir. Bu katman, büyük ölçekli, doğaçlama sorgular veya analizler yürüten iç analistler ve veri bilimcileri ya da zamana duyarlı raporlama gereksinimleri olmayan ileri düzey analistler için en uygun katmandır. Veri gölünüzde depolama maliyetleri veri ambarınıza göre daha düşük olduğundan, gölünüzde ayrıntılı ve düşük düzeyli verileri tutmak uygun maliyetli olabilir. Toplanan verileri ambarınıza depolayın. Spark veya Azure Data Factory kullanarak bu toplamaları oluşturun. Bunları veri ambarınıza yüklemeden önce veri gölünüzde kalıcı hale getirin.

Bu bölgedeki veri varlıkları yüksek oranda yönetilir ve iyi belgelenir. Departmana veya işleve göre izinler atayın ve izinleri tüketici grubuna veya veri reyonuna göre düzenleyin.

Veri ürünleri kapsayıcısı

.
|-{Data Product}
|---{Entity}
|----{Version}
|-----General
|-------{date (ex. rundate=2019-08-22)}
|------Sensitive
|-------{date (ex. rundate=2019-08-22)}

İpucu

Verileri Azure SQL Veritabanı gibi başka bir okuma veri deposuna aldığınızda, bu verilerin bir kopyasının seçilmiş verilerinizde bulunduğundan emin olun. Veri ürünü kullanıcılarınız ana okuma veri deponuza veya Azure SQL Veritabanı örneğine yönlendirilir, ancak verileri veri gölünüzde kullanılabilir hale getirirseniz ek araçlarla da verileri keşfedebilirler.

Geliştirme katmanı veya veri gölü üç

Veri tüketicileriniz, standartlaştırılmış kapsayıcınıza alınan verilerle birlikte diğer yararlı veri ürünlerini de getirebilir.

Bu senaryoda, veri platformunuz bu tüketiciler için bir analiz korumalı alanı ayırabilir. Korumalı alanda, getirdikleri seçilmiş verileri ve veri ürünlerini kullanarak değerli içgörüler oluşturabilirler. Örneğin, veri bilimi ekibi yeni bir bölge için en iyi ürün yerleştirme stratejisini belirlemek isterse, bu bölgedeki benzer ürünlerden müşteri demografisi ve kullanım verileri gibi diğer veri ürünlerini getirebilir. Ekip, ürün pazarına uygun ve teklif stratejisini analiz etmek için bu verilerden yüksek değerli satış içgörülerini kullanabilir.

Not

Analiz korumalı alanı, bir birey veya küçük bir grup ortak çalışan için bir çalışma alanıdır. Korumalı alan klasörleri, bu alanı bir üretim çözümünün parçası olarak kullanma girişimlerini engelleyen özel bir ilke kümesine sahiptir. Bu ilkeler toplam kullanılabilir depolama alanını ve verilerin ne kadar süreyle depolanabileceğini sınırlar.

Bu veri ürünleri genellikle bilinmeyen kalite ve doğruluktadır. Bunlar hala veri ürünleri olarak kategorize edilir, ancak geçicidir ve yalnızca verileri kullanan kullanıcı grubuyla ilgilidir.

Bu veri ürünleri olgunlaştığında, kuruluşunuz bu veri ürünlerini seçilmiş veri katmanınıza yükseltebilir. Veri ürün ekiplerinizi yeni veri ürünlerinde sorumlu tutmak için ekiplere seçilmiş veri bölgenizde özel bir klasör sağlayın. Yeni sonuçları klasörde depolayabilir ve kuruluşunuzdaki diğer ekiplerle paylaşabilirler.

Not

Oluşturduğunuz her Azure Synapse çalışma alanında data lake three kullanarak birincil depolama olarak kullanılacak bir kapsayıcı oluşturun. Bu kapsayıcı, Azure Synapse çalışma alanlarının seçilmiş ve zenginleştirilmiş bölgelerinizin aktarım hızı sınırlarını engellemesini durdurur.

Sonraki adımlar

Azure Data Lake Storage ile ilgili önemli noktalar

Aracılığıyla paylaş