Azure Data Factory ve Azure Veri Paylaşımı kullanarak veri tümleştirmesi
UYGULANANLAR: Azure Data Factory Azure Synapse Analytics
İpucu
Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!
Müşteriler modern veri ambarı ve analiz projelerine başladıkça, yalnızca daha fazla veriye değil, aynı zamanda veri varlıklarında da daha fazla görünürlüğe ihtiyaç duyarlar. Bu atölyede Azure Data Factory ve Azure'da yapılan iyileştirmeler Veri Paylaşımı Azure'da veri tümleştirmesini ve yönetimini nasıl kolaylaştıracakları ele alınıyor.
Kodsuz ETL/ELT'yi etkinleştirmeden verileriniz üzerinde kapsamlı bir görünüm oluşturmaya kadar Azure Data Factory'deki geliştirmeler, veri mühendislerinizin kuruluşunuza güvenle daha fazla veri ve dolayısıyla daha fazla değer getirmesini sağlar. Azure Veri Paylaşımı iş paylaşımını idareli bir şekilde yapmanıza olanak tanır.
Bu atölyede Azure Data Factory'yi (ADF) kullanarak verileri Azure SQL Veritabanı'den Azure Data Lake Storage 2. Nesil'a (ADLS 2. Nesil) alacaksınız. Verileri göle getirdiğinizde, veri fabrikasının yerel dönüştürme hizmeti olan eşleme veri akışları aracılığıyla dönüştürür ve Azure Synapse Analytics'e aktarırsınız. Ardından, Azure Veri Paylaşımı kullanarak tabloyu dönüştürülmüş verilerle ve bazı ek verilerle paylaşırsınız.
Bu laboratuvarda kullanılan veriler New York City taksi verileridir. SQL Veritabanı veritabanınıza aktarmak için taxi-data bacpac dosyasını indirin. GitHub'da Ham dosyayı indir seçeneğini belirleyin.
Önkoşullar
Azure aboneliği: Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.
Azure SQL Veritabanı: Azure SQL Veritabanı yoksa SQL Veritabanı oluşturmayı öğrenin.
Azure Data Lake Storage 2. Nesil depolama hesabı: ADLS 2. Nesil depolama hesabınız yoksa ADLS 2. Nesil depolama hesabı oluşturmayı öğrenin.
Azure Synapse Analytics: Azure Synapse Analytics çalışma alanınız yoksa Azure Synapse Analytics'i kullanmaya başlamayı öğrenin.
Azure Data Factory: Veri fabrikanız yoksa bkz . Veri fabrikası oluşturma.
Azure Veri Paylaşımı: Veri paylaşımınız yoksa bkz. Veri paylaşımı oluşturma.
Azure Data Factory ortamınızı ayarlama
Bu bölümde, Azure portalından Azure Data Factory kullanıcı deneyimine (ADF UX) erişmeyi öğreneceksiniz. ADF UX'e girdikten sonra, kullanmakta olduğumuz her veri deposu için üç bağlı hizmet yapılandırırsınız: Azure SQL Veritabanı, ADLS 2. Nesil ve Azure Synapse Analytics.
Azure Data Factory bağlı hizmetlerinde dış kaynaklara bağlantı bilgilerini tanımlayın. Azure Data Factory şu anda 85'in üzerinde bağlayıcıyı desteklemektedir.
Azure Data Factory UX'yi açma
Sayfanın üst kısmındaki arama çubuğunu kullanarak 'Veri Fabrikaları' araması yapın.
Veri fabrikası kaynağınızı seçerek kaynaklarını sol bölmede açın.
Azure Data Factory Studio'yu Aç'ı seçin. Data Factory Studio'ya doğrudan adf.azure.com de erişilebilir.
Azure portalında ADF'nin giriş sayfasına yönlendirilirsiniz. Bu sayfa hızlı başlangıçlar, yönerge videoları ve veri fabrikası kavramlarını öğrenmek için öğreticilere bağlantılar içerir. Yazmaya başlamak için sol taraftaki çubuktaki kalem simgesini seçin.
Azure SQL Veritabanı bağlı hizmeti oluşturma
Bağlı hizmet oluşturmak için sol taraftaki çubukta Hub'ı yönet'i seçin, Bağlantılar bölmesinde Bağlı hizmetler'i seçin ve yeni bağlı hizmet eklemek için Yeni'yi seçin.
Yapılandırdığınız ilk bağlı hizmet bir Azure SQL Veritabanı. Veri deposu listesini filtrelemek için arama çubuğunu kullanabilirsiniz. Azure SQL Veritabanı kutucuğunu seçin ve devam'ı seçin.
SQL Veritabanı yapılandırma bölmesinde, bağlı hizmet adınız olarak 'SQLDB' girin. Veri fabrikasının veritabanınıza bağlanmasına izin vermek için kimlik bilgilerinizi girin. SQL kimlik doğrulaması kullanıyorsanız sunucu adını, veritabanını, kullanıcı adınızı ve parolanızı girin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.
Azure Synapse Analytics bağlı hizmeti oluşturma
Azure Synapse Analytics bağlı hizmeti eklemek için aynı işlemi yineleyin. Bağlantılar sekmesinde Yeni'yi seçin. Azure Synapse Analytics kutucuğunu seçin ve devam'ı seçin.
Bağlı hizmet yapılandırma bölmesinde, bağlı hizmet adınız olarak 'SQLDW' girin. Veri fabrikasının veritabanınıza bağlanmasına izin vermek için kimlik bilgilerinizi girin. SQL kimlik doğrulaması kullanıyorsanız sunucu adını, veritabanını, kullanıcı adınızı ve parolanızı girin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.
Azure Data Lake Storage 2. Nesil bağlı hizmet oluşturma
Bu laboratuvar için gereken son bağlı hizmet bir Azure Data Lake Storage 2. Nesil. Bağlantılar sekmesinde Yeni'yi seçin. Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve devam'ı seçin.
Bağlı hizmet yapılandırma bölmesinde, bağlı hizmet adınız olarak 'ADLSGen2' girin. Hesap anahtarı kimlik doğrulaması kullanıyorsanız, Depolama hesabı adı açılan listesinden ADLS 2. Nesil depolama hesabınızı seçin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.
Veri akışı hata ayıklama modunu açma
Eşleme veri akışını kullanarak verileri dönüştürme bölümünde eşleme veri akışları oluşturuyorsunuz. Eşleme veri akışları oluşturmadan önce en iyi yöntem, etkin spark kümesinde dönüştürme mantığını saniyeler içinde test etmenizi sağlayan hata ayıklama modunu açmaktır.
Hata ayıklamayı açmak için Veri akışı etkinlikleriniz olduğunda veri akışı tuvalinin veya işlem hattı tuvalinin üst çubuğundaki Veri akışı hata ayıklama kaydırıcısını seçin. Onay iletişim kutusu gösterildiğinde Tamam'ı seçin. Küme yaklaşık 5-7 dakika içinde başlar. Kopyalama etkinliği başlatılırken kopyalama etkinliğini kullanarak verileri Azure SQL Veritabanı'den ADLS 2. Nesil'e almaya devam edin.
Kopyalama etkinliğini kullanarak veri alma
Bu bölümde, bir Azure SQL Veritabanı adls 2. nesil depolama hesabına bir tablo alan kopyalama etkinliğine sahip bir işlem hattı oluşturacaksınız. ADF UX aracılığıyla işlem hattı eklemeyi, veri kümesini yapılandırmayı ve işlem hattında hata ayıklamayı öğrenirsiniz. Bu bölümde kullanılan yapılandırma düzeni, ilişkisel bir veri deposundan dosya tabanlı veri deposuna kopyalamaya uygulanabilir.
Azure Data Factory'de işlem hattı, bir görevi birlikte gerçekleştiren etkinliklerin mantıksal bir gruplandırmasıdır. Etkinlik, verileriniz üzerinde gerçekleştirilecek bir işlemi tanımlar. Veri kümesi, bağlı bir hizmette kullanmak istediğiniz verileri gösterir.
Kopyalama etkinliğiyle işlem hattı oluşturma
Fabrika kaynakları bölmesinde artı simgesini seçerek yeni kaynak menüsünü açın. İşlem Hattı'nı seçin.
İşlem hattı tuvalinin Genel sekmesinde, işlem hattınıza 'IngestAndTransformTaxiData' gibi açıklayıcı bir ad verin.
İşlem hattı tuvalinin etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu açın ve Verileri kopyala etkinliğini tuvale sürükleyin. Kopyalama etkinliğine 'IngestIntoADLS' gibi açıklayıcı bir ad verin.
Azure SQL DB kaynak veri kümesini yapılandırma
Kopyalama etkinliğinin Kaynak sekmesinde öğesini seçin. Yeni bir veri kümesi oluşturmak için Yeni'yi seçin. Kaynağınız, daha önce yapılandırılan 'SQLDB' bağlı hizmetinde bulunan tablo
dbo.TripData
olacaktır.Azure SQL Veritabanı arayın ve Devam'ı seçin.
Veri kümenizi 'TripData' olarak çağır. Bağlı hizmetiniz olarak 'SQLDB' öğesini seçin. Tablo adı
dbo.TripData
açılan listesinden tablo adını seçin. Şemayı Bağlantıdan/depodan içeri aktarın. Tamamlanınca Tamam'ı seçin.
Kaynak veri kümenizi başarıyla oluşturdunuz. Kaynak ayarlarında, kullanım sorgusu alanında Tablo varsayılan değerinin seçildiğinden emin olun.
ADLS 2. Nesil havuz veri kümesini yapılandırma
Kopyalama etkinliğinin Havuz sekmesinde öğesini seçin. Yeni bir veri kümesi oluşturmak için Yeni'yi seçin.
Azure Data Lake Storage 2. Nesil arayın ve Devam'ı seçin.
Biçim seç bölmesinde, csv dosyasına yazarken Sınırlanmış Metin'i seçin. Devam'ı seçin.
Havuz veri kümenize 'TripDataCSV' adını verin. Bağlı hizmetiniz olarak 'ADLSGen2' öğesini seçin. Csv dosyanızı yazmak istediğiniz yeri girin. Örneğin, kapsayıcısında
staging-container
dosyayatrip-data.csv
verilerinizi yazabilirsiniz. Çıktı verilerinizin üst bilgi olmasını istediğiniz şekilde İlk satırı üst bilgi olarak true olarak ayarlayın. Henüz hedefte dosya olmadığından Şemayı içeri aktar'ı Yok olarak ayarlayın. Tamamlanınca Tamam'ı seçin.
İşlem hattı hata ayıklama çalıştırmasıyla kopyalama etkinliğini test edin
Kopyalama etkinliğinizin düzgün çalıştığını doğrulamak için işlem hattı tuvalinin üst kısmındaki Hata Ayıkla'yı seçerek bir hata ayıklama çalıştırması yürütebilirsiniz. Hata ayıklama çalıştırması, işlem hattınızı veri fabrikası hizmetinde yayımlamadan önce uçtan uca veya bir kesme noktasına kadar test etmenizi sağlar.
Hata ayıklama çalıştırmanızı izlemek için işlem hattı tuvalinin Çıkış sekmesine gidin. İzleme ekranı her 20 saniyede bir veya yenile düğmesini el ile seçtiğinizde otomatik olarak yeniden başlatılır. Kopyalama etkinliği, Eylemler sütunundaki göz gözlükleri simgesi seçilerek erişilebilen özel bir izleme görünümüne sahiptir.
Kopyalama izleme görünümü, etkinliğin yürütme ayrıntılarını ve performans özelliklerini verir. Okunan/yazılan veriler, okunan/yazılan satırlar, okunan/yazılan dosyalar ve aktarım hızı gibi bilgileri görebilirsiniz. Her şeyi doğru yapılandırdıysanız, ADLS havuzunuzda bir dosyaya yazılmış 49.999 satır görmeniz gerekir.
Sonraki bölüme geçmeden önce, fabrika üst çubuğunda Tümünü yayımla'yı seçerek değişikliklerinizi veri fabrikası hizmetinde yayımlamanız önerilir. Bu laboratuvarda ele alınmasa da Azure Data Factory tam git tümleştirmesini destekler. Git tümleştirmesi sürüm denetimine, depoda yinelemeli kaydetmeye ve veri fabrikasında işbirliğine olanak tanır. Daha fazla bilgi için bkz . Azure Data Factory'de kaynak denetimi.
Veri akışlarını eşlemeyi kullanarak verileri dönüştürme
Verileri Azure Data Lake Storage'a başarıyla kopyaladığınıza göre artık bu verileri bir veri ambarı içinde birleştirmenin ve toplamanın zamanı geldi. Azure Data Factory'nin görsel olarak tasarlanmış dönüştürme hizmeti olan eşleme veri akışını kullanırız. Eşleme veri akışları, kullanıcıların dönüştürme mantığını kodsuz olarak geliştirmesine ve bunları ADF hizmeti tarafından yönetilen Spark kümelerinde yürütmesine olanak tanır.
Bu adımda oluşturulan veri akışı iç, önceki bölümde oluşturulan 'TripDataCSV' veri kümesini dört anahtar sütuna göre 'SQLDB' içinde depolanan bir tabloyla dbo.TripFares
birleştirir. Ardından veriler, belirli alanların ortalamasını hesaplamak için sütuna payment_type
göre toplanır ve bir Azure Synapse Analytics tablosuna yazılır.
İşlem hattınıza veri akışı etkinliği ekleme
İşlem hattı tuvalinin etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu açın ve Veri akışı etkinliğini tuvale sürükleyin.
Açılan yan bölmede Yeni veri akışı oluştur'u ve ardından Eşleme veri akışı'nı seçin. Tamam'ı seçin.
Dönüştürme mantığınızı oluşturduğunuz veri akışı tuvaline yönlendirilirsiniz. Genel sekmesinde veri akışınıza 'JoinAndAggregateData' adını verin.
Seyahat verilerinizin CSV kaynağını yapılandırma
yapmak istediğiniz ilk şey, iki kaynak dönüşümünüzü yapılandırmaktır. İlk kaynak, 'TripDataCSV' DelimitedText veri kümesini gösterir. Kaynak dönüşümü eklemek için tuvaldeki Kaynak Ekle kutusunu seçin.
Kaynağınıza 'TripDataCSV' adını verin ve kaynak açılan listesinden 'TripDataCSV' veri kümesini seçin. Hatırlarsanız, bu veri kümesini oluştururken başlangıçta bir şema içeri aktarmadınız çünkü orada veri yoktu. Artık mevcut olduğundan
trip-data.csv
, veri kümesi ayarları sekmesine gitmek için Düzenle'yi seçin.Şema sekmesine gidin ve Şemayı içeri aktar'ı seçin. Doğrudan dosya deposundan içeri aktarmak için Bağlantıdan/depodan'ı seçin. Dize türünde 14 sütun görünmelidir.
'JoinAndAggregateData' veri akışına geri dönün. Hata ayıklama kümeniz başlatıldıysa (hata ayıklama kaydırıcısının yanındaki yeşil daireyle gösterilir), Veri Önizleme sekmesinde verilerin anlık görüntüsünü alabilirsiniz. Veri önizlemesini getirmek için Yenile'yi seçin.
Not
Veri önizlemesi veri yazmaz.
Seyahat ücretlerinizi SQL Veritabanı kaynağınızı yapılandırma
SQL Veritabanı tablosuna
dbo.TripFares
puan eklediğiniz ikinci kaynaktır. 'TripDataCSV' kaynağınızın altında başka bir Kaynak Ekle kutusu vardır. Yeni bir kaynak dönüşümü eklemek için bunu seçin.Bu kaynağa 'TripFaresSQL' adını verin. Yeni bir SQL Veritabanı veri kümesi oluşturmak için kaynak veri kümesi alanının yanındaki Yeni'yi seçin.
Azure SQL Veritabanı kutucuğunu seçin ve devam'ı seçin. Veri fabrikasındaki bağlayıcıların çoğunun eşleme veri akışında desteklenmemektedir. Verileri bu kaynaklardan birinden dönüştürmek için kopyalama etkinliğini kullanarak desteklenen bir kaynağa alın.
Veri kümenizi 'TripFares' olarak çağır. Bağlı hizmetiniz olarak 'SQLDB' öğesini seçin. Tablo adı
dbo.TripFares
açılan listesinden tablo adını seçin. Şemayı Bağlantıdan/depodan içeri aktarın. Tamamlanınca Tamam'ı seçin.Verilerinizi doğrulamak için Veri Önizleme sekmesinde bir veri önizlemesi getirin.
İç birleşim TripDataCSV ve TripFaresSQL
Yeni dönüşüm eklemek için 'TripDataCSV' öğesinin sağ alt köşesindeki artı simgesini seçin. Birden çok giriş/çıkış altında Katıl'ı seçin.
Birleştirme dönüşümünüzü 'InnerJoinWithTripFares' olarak adlandırın. Sağ akış açılan listesinden 'TripFaresSQL' öğesini seçin. Birleştirme türü olarak İç'i seçin. Eşleme veri akışındaki farklı birleştirme türleri hakkında daha fazla bilgi edinmek için bkz . birleştirme türleri.
Birleştirme koşulları açılan listesi aracılığıyla her akıştan hangi sütunları eşleştirmek istediğinizi seçin. Ek birleştirme koşulu eklemek için, var olan bir koşulun yanındaki artı simgesini seçin. Varsayılan olarak, tüm birleştirme koşulları bir AND işleciyle birleştirilir ve bu da eşleşme için tüm koşulların karşılanması gerektiği anlamına gelir. Bu laboratuvarda , ,
hack_license
vendor_id
ve sütunlarındamedallion
eşleştirmek istiyoruzpickup_datetime
Veri önizlemesiyle birlikte 25 sütunu başarıyla birleştirdiğinizden emin olun.
payment_type göre toplama
Birleştirme dönüştürmenizi tamamladıktan sonra InnerJoinWithTripFares'in yanındaki artı simgesini seçerek bir toplama dönüşümü ekleyin. Şema değiştirici'nin altında Toplama'yı seçin.
Toplu dönüştürmenize 'AggregateByPaymentType' adını verin. Sütuna göre gruplandır'ı seçin
payment_type
.Toplamlar sekmesine gidin. İki toplama belirtin:
- Ödeme türüne göre gruplandırılmış ortalama ücret
- Ödeme türüne göre gruplandırılmış toplam seyahat uzaklığı
İlk olarak, ortalama ücret ifadesini oluşturursunuz. Sütun ekle veya seç etiketli metin kutusuna 'average_fare' yazın.
Toplama ifadesi girmek için Enter ifadesi etiketli mavi kutuyu seçin. Bu kutu, veri akışı ifade oluşturucusunu, giriş şemasını, yerleşik işlevleri ve işlemleri ve kullanıcı tanımlı parametreleri kullanarak veri akışı ifadelerini görsel olarak oluşturmak için kullanılan aracı açar. İfade oluşturucusunun özellikleri hakkında daha fazla bilgi için ifade oluşturucu belgelerine bakın.
Ortalama ücreti almak için toplama işlevini kullanarak
avg()
sütun atamasınıtotal_amount
iletoInteger()
bir tamsayıya toplama. Veri akışı ifade dilinde, bu olarakavg(toInteger(total_amount))
tanımlanır. Kaydet'i seçin ve işiniz bittiğinde bitirin .Ek bir toplama ifadesi eklemek için yanındaki artı simgesini
average_fare
seçin. Sütun ekle'yi seçin.Sütun ekle veya seç etiketli metin kutusuna 'total_trip_distance' yazın. Son adımda olduğu gibi ifadeye girmek için ifade oluşturucusunu açın.
Toplam yolculuk uzaklığı elde etmek için toplama işlevini kullanarak
sum()
sütun atamasınıtrip_distance
iletoInteger()
bir tamsayıya toplama. Veri akışı ifade dilinde, bu olaraksum(toInteger(trip_distance))
tanımlanır. Kaydet'i seçin ve işiniz bittiğinde bitirin .Veri Önizleme sekmesinde dönüştürme mantığınızı test edin. Gördüğünüz gibi, öncekinden daha az satır ve sütun var. Yalnızca bu dönüştürmede tanımlanan üç grup ve toplama sütunu aşağı akışa devam ediyor. Örnekte yalnızca beş ödeme türü grubu olduğundan yalnızca beş satır çıkarılır.
Azure Synapse Analytics havuzu yapılandırma
Dönüştürme mantığımızı tamamladığımıza göre verilerimizi bir Azure Synapse Analytics tablosuna aktarmaya hazırız. Hedef bölümünün altına bir havuz dönüşümü ekleyin.
Havuzunuza 'SQLDWSink' adını verin. Yeni bir Azure Synapse Analytics veri kümesi oluşturmak için havuz veri kümesi alanının yanındaki Yeni'yi seçin.
Azure Synapse Analytics kutucuğunu seçin ve devam'ı seçin.
Veri kümenizi 'AggregatedTaxiData' olarak çağır. Bağlı hizmetiniz olarak 'SQLDW' öğesini seçin. Yeni tablo oluştur'u seçin ve yeni tabloyu
dbo.AggregateTaxiData
olarak adlandırın. Tamamlanınca Tamam'ı seçin.Havuzun Ayarlar sekmesine gidin. Yeni bir tablo oluşturduğumuz için tablo eyleminin altında Tabloyu yeniden oluştur'a ihtiyacımız var. Hazırlamayı etkinleştir'in seçimini kaldırın. Bu seçenek, satır satır veya toplu olarak eklememiz arasında geçiş yapar.
Veri akışınızı başarıyla oluşturdunuz. Şimdi bunu bir işlem hattı etkinliğinde çalıştırmanın zamanı geldi.
İşlem hattınızda uçtan uca hata ayıklama
IngestAndTransformData işlem hattının sekmesine geri dönün. 'IngestIntoADLS' kopyalama etkinliğindeki yeşil kutuya dikkat edin. 'JoinAndAggregateData' veri akışı etkinliğine sürükleyin. Bu, veri akışı etkinliğinin yalnızca kopya başarılı olduğunda çalışmasına neden olan bir 'başarıda' oluşturur.
Kopyalama etkinliğinde yaptığımız gibi, hata ayıklama çalıştırması yürütmek için Hata Ayıkla'yı seçin. Hata ayıklama çalıştırmaları için veri akışı etkinliği, yeni bir küme oluşturmak yerine etkin hata ayıklama kümesini kullanır. Bu işlem hattının yürütülmesi bir dakikadan biraz fazla sürer.
Kopyalama etkinliğinde olduğu gibi, veri akışında da etkinliğin tamamlanmasının ardından gözlük simgesi tarafından erişilen özel bir izleme görünümü vardır.
İzleme görünümünde, her yürütme aşamasında yürütme süreleri ve satırlarla birlikte basitleştirilmiş bir veri akışı grafiği görebilirsiniz. Doğru şekilde yapılırsa, bu etkinlikte 49.999 satırı beş satır halinde toplamış olmanız gerekir.
Bölümleme bilgileri ve yeni/güncelleştirilmiş/bırakılan sütunlar gibi yürütmesiyle ilgili ek ayrıntılar almak için bir dönüştürme seçebilirsiniz.
Şimdi bu laboratuvarın veri fabrikası bölümünü tamamladınız. Kaynaklarınızı tetikleyicilerle kullanıma hazır hale getirmek istiyorsanız yayımlayın. Kopyalama etkinliğini kullanarak Azure SQL Veritabanı'dan Azure Data Lake Storage'a veri alan bir işlem hattını başarıyla çalıştırıp bu verileri bir Azure Synapse Analytics'e toplayabilirsiniz. SQL Server'ın kendisine bakarak verilerin başarıyla yazıldığını doğrulayabilirsiniz.
Azure Veri Paylaşımı ile veri paylaşma
Bu bölümde, Azure portalını kullanarak yeni bir veri paylaşımı ayarlamayı öğreneceksiniz. Bu, Azure Data Lake Storage 2. Nesil ve Azure Synapse Analytics'ten veri kümeleri içeren yeni bir veri paylaşımı oluşturmayı içerir. Ardından, veri tüketicilerine kendileriyle paylaşılan verileri otomatik olarak yenileme seçeneği sunan bir anlık görüntü zamanlaması yapılandıracaksınız. Ardından alıcıları veri paylaşımınıza davet edersiniz.
Bir veri paylaşımı oluşturduktan sonra şapkaları değiştirip veri tüketicisi olursunuz. Veri tüketicisi olarak, veri paylaşımı davetini kabul etme, verilerin alınmasını istediğiniz yeri yapılandırma ve veri kümelerini farklı depolama konumlarıyla eşleme akışında ilerleyeceksiniz. Ardından, sizinle paylaşılan verileri belirtilen hedefe kopyalayan bir anlık görüntü tetikleyeceksiniz.
Veri paylaşma (Veri Sağlayıcısı akışı)
Azure portalını Microsoft Edge veya Google Chrome'da açın.
Sayfanın üst kısmındaki arama çubuğunu kullanarak Veri Paylaşımı arama
Adında 'Sağlayıcı' bulunan veri paylaşımı hesabını seçin. Örneğin, DataProvider0102.
Verilerinizi paylaşmayı başlat'ı seçin
Yeni veri paylaşımınızı yapılandırmaya başlamak için +Oluştur'u seçin.
Paylaşım adı'nın altında, istediğiniz bir ad belirtin. Bu, veri tüketiciniz tarafından görülebilecek paylaşım adıdır, bu nedenle TaxiData gibi açıklayıcı bir ad verdiğinizden emin olun.
Açıklama'nın altında, veri paylaşımının içeriğini açıklayan bir tümce girin. Veri paylaşımı, Azure Synapse Analytics ve Azure Data Lake Storage gibi çeşitli mağazalarda depolanan dünya çapında taksi yolculuğu verilerini içerir.
Kullanım koşulları altında, veri tüketicinizin uymasını istediğiniz bir terim kümesi belirtin. Bazı örnekler şunlardır: "Bu verileri kuruluşunuzun dışına dağıtma" veya "Yasal sözleşmeye bakın".
Devam'ı seçin.
Veri kümesi ekle'yi seçin
Azure Synapse Analytics'ten ADF dönüşümlerinizin indi olduğu bir tablo seçmek için Azure Synapse Analytics'i seçin.
Devam etmeden önce çalıştırmanız gereken bir betik verilir. Sağlanan betik, Azure Veri Paylaşımı MSI'sinin kendi adına kimlik doğrulamasına izin vermek için SQL veritabanında bir kullanıcı oluşturur.
Önemli
Betiği çalıştırmadan önce, kendinizi Azure SQL Veritabanı mantıksal SQL sunucusu için Active Directory Yöneticisi olarak ayarlamanız gerekir.
Yeni bir sekme açın ve Azure portalına gidin. Veritabanında veri paylaşmak istediğiniz bir kullanıcı oluşturmak için sağlanan betiği kopyalayın. Bunu yapmak için Microsoft Entra kimlik doğrulamasını kullanarak Azure portal Sorgu düzenleyicisini kullanarak EDW veritabanında oturum açın. Kullanıcıyı aşağıdaki örnek betikte değiştirmeniz gerekir:
CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
Veri paylaşımınıza veri kümeleri eklediğiniz Azure Veri Paylaşımı geri dönün.
EDW'yi ve ardından tablo için AggregatedTaxiData'yı seçin.
Veri kümesi ekle'yi seçin
Artık veri kümemizin parçası olan bir SQL tablomuz var. Ardından Azure Data Lake Storage'dan ek veri kümeleri ekleyeceğiz.
Veri kümesi ekle'yi seçin ve Azure Data Lake Storage 2. Nesil
İleri'yi seçin
wwtaxidata öğesini genişletin. Boston Taxi Data'nın kapsamını genişletin. Dosya düzeyine kadar paylaşabilirsiniz.
Klasörün tamamını veri paylaşımınıza eklemek için Boston Taxi Data klasörünü seçin.
Veri kümesi ekle'yi seçin
Eklenen veri kümelerini gözden geçirin. Veri paylaşımınıza eklenmiş bir SQL tablonuz ve ADLS 2. Nesil klasörünüz olmalıdır.
Devam'ı seçin
Bu ekranda, veri paylaşımınıza alıcı ekleyebilirsiniz. Eklediğiniz alıcılar, veri paylaşımınıza davetler alır. Bu laboratuvarın amacı doğrultusunda iki e-posta adresi eklemeniz gerekir:
Bu ekranda, veri tüketiciniz için bir Anlık Görüntü Ayarı yapılandırabilirsiniz. Bu, verilerinizin sizin tarafınızdan tanımlanan bir aralıkta düzenli güncelleştirmelerini almalarını sağlar.
Anlık Görüntü Zamanlamasını denetleyin ve Yinelenme açılan listesini kullanarak verilerinizin saatlik yenilemesini yapılandırın.
Oluştur'u belirleyin.
Artık etkin bir veri paylaşımınız var. Veri paylaşımı oluştururken veri sağlayıcısı olarak neler görebileceğinizi gözden geçirebilirsiniz.
Oluşturduğunuz DataProvider adlı veri paylaşımını seçin. Veri Paylaşımı'de Gönderilmiş Paylaşımlar'ı seçerek bu paylaşıma gidebilirsiniz.
Anlık görüntü zamanlaması'nı seçin. İsterseniz anlık görüntü zamanlamasını devre dışı bırakabilirsiniz.
Ardından Veri Kümeleri sekmesini seçin. Bu veri paylaşımı oluşturulduktan sonra bu veri paylaşımına ek veri kümeleri ekleyebilirsiniz.
Abonelikleri paylaş sekmesini seçin. Veri tüketiciniz davetinizi henüz kabul etmediğinden henüz paylaşım aboneliği yok.
Davetler sekmesine gidin. Burada bekleyen davetlerin listesini görürsünüz.
davetini janedoe@fabrikam.comseçin. Sil'i seçin. Alıcınız daveti henüz kabul etmediyse, artık kabul edemez.
Geçmiş sekmesini seçin. Veri tüketiciniz davetinizi henüz kabul etmediğinden ve bir anlık görüntü tetiklediğinden henüz hiçbir şey görüntülenmez.
Veri alma (Veri tüketici akışı)
Veri paylaşımımızı gözden geçirdiğimize göre artık bağlamı değiştirmeye ve veri tüketici şapkamızı takmaya hazırız.
Artık Gelen Kutunuzda Microsoft Azure'dan bir Azure Veri Paylaşımı daveti olmalıdır. Outlook Web Access'i (outlook.com) başlatın ve Azure aboneliğiniz için sağlanan kimlik bilgilerini kullanarak oturum açın.
Almış olmanız gereken e-postada "Daveti >görüntüle" seçeneğini belirleyin. Bu noktada, veri sağlayıcılarının kendi veri paylaşımı davetini kabul ederken veri tüketicisi deneyiminin benzetimini yapacaksınız.
Bir abonelik seçmeniz istenebilir. Bu laboratuvar için çalıştığınız aboneliği seçtiğinizden emin olun.
DataProvider adlı davette öğesini seçin.
Bu Davet ekranında, daha önce veri sağlayıcısı olarak yapılandırdığınız veri paylaşımıyla ilgili çeşitli ayrıntılara dikkat edin. Ayrıntıları gözden geçirin ve sağlandıysa kullanım koşullarını kabul edin.
Laboratuvarınız için zaten var olan Aboneliği ve Kaynak Grubunu seçin.
Veri paylaşımı hesabı için DataConsumer'ı seçin. Yeni bir veri paylaşımı hesabı da oluşturabilirsiniz.
Alınan paylaşım adı'nın yanında, varsayılan paylaşım adının veri sağlayıcısı tarafından belirtilen ad olduğuna dikkat edin. Paylaşıma, almak üzere olduğunuz verileri açıklayan kolay bir ad verin; örneğin TaxiDataShare.
Şimdi kabul et ve yapılandır'ı veya Daha sonra kabul et ve yapılandır'ı seçebilirsiniz. Şimdi kabul edip yapılandırmayı seçerseniz, tüm verilerin kopyalanması gereken bir depolama hesabı belirtin. Daha sonra kabul edip yapılandırmayı seçerseniz, paylaşımdaki veri kümeleri eşlenmez ve bunları el ile eşlemeniz gerekir. Bunu daha sonra kabul edeceğiz.
Kabul Et'i seçin ve daha sonra yapılandırın.
Bu seçenek yapılandırılırken bir paylaşım aboneliği oluşturulur, ancak hiçbir hedef eşlenmediğinden verilerin ineceği yer yoktur.
Ardından veri paylaşımı için veri kümesi eşlemelerini yapılandırın.
Alınan Paylaşım'ı (5. adımda belirttiğiniz ad) seçin.
Tetikleyici anlık görüntüsü gri renktedir ancak paylaşım Etkin'dir.
Veri kümeleri sekmesini seçin. Her veri kümesinin Eşlenmemiş olması, verilerin kopyalanacak hedefi olmadığı anlamına gelir.
Azure Synapse Analytics Tablosu'nu ve ardından + Hedefle Eşle'yi seçin.
Ekranın sağ tarafında Hedef Veri Türü açılan listesini seçin.
SQL verilerini çok çeşitli veri depolarıyla eşleyebilirsiniz. Bu durumda, bir Azure SQL Veritabanı eşleyeceğiz.
(İsteğe bağlı) Hedef veri türü olarak Azure Data Lake Storage 2. Nesil seçin.
(İsteğe bağlı) Üzerinde çalıştığınız Abonelik, Kaynak Grubu ve Depolama hesabını seçin.
(İsteğe bağlı) Verileri csv veya parquet biçiminde data lake'inize almayı seçebilirsiniz.
Hedef veri türü'nin yanındaki Azure SQL Veritabanı'ı seçin.
Üzerinde çalıştığınız Abonelik, Kaynak Grubu ve Depolama hesabını seçin.
Devam etmeden önce, sağlanan betiği çalıştırarak SQL Server'da yeni bir kullanıcı oluşturmanız gerekir. İlk olarak, sağlanan betiği panonuza kopyalayın.
Yeni bir Azure portalı sekmesi açın. Hemen geri dönmeniz gerektiğinden mevcut sekmenizi kapatmayın.
Açtığınız yeni sekmede SQL veritabanları'na gidin.
SQL veritabanını seçin (aboneliğinizde yalnızca bir veritabanı olmalıdır). Veri ambarını seçmemeye dikkat edin.
Sorgu düzenleyicisi (önizleme) seçeneğini belirleyin
Sorgu düzenleyicisinde oturum açmak için Microsoft Entra kimlik doğrulamasını kullanın.
Veri paylaşımınızda sağlanan sorguyu çalıştırın (14. adımda panoya kopyalanır).
Bu komut, Azure Veri Paylaşımı hizmetinin SQL Server'da kimlik doğrulaması yapmak üzere Azure Hizmetleri için Yönetilen Kimlikler'i kullanarak içine veri kopyalayabilmesini sağlar.
Özgün sekmeye dönün ve Hedefe eşle'yi seçin.
Ardından, veri kümesinin parçası olan Azure Data Lake Storage 2. Nesil klasörünü seçin ve bir Azure Blob Depolama hesabıyla eşleyin.
Tüm veri kümeleri eşlendiğinde artık veri sağlayıcısından veri almaya başlayabilirsiniz.
Ayrıntılar'ı seçin.
Veri paylaşımında kopyalanacak hedefler olduğundan tetikleyici anlık görüntüsü artık gri değil.
Tetikleyici anlık görüntüsü ->Tam kopya'yı seçin.
Bu, verileri yeni veri paylaşımı hesabınıza kopyalamaya başlar. Gerçek bir dünya senaryosunda bu veriler üçüncü taraflardan geliyor olabilir.
Verilerin karşı karşıya gelmesi yaklaşık 3-5 dakika sürer. Geçmiş sekmesini seçerek ilerleme durumunu izleyebilirsiniz.
Beklerken özgün veri paylaşımına (DataProvider) gidin ve Abonelikleri ve Geçmişi Paylaş sekmesinin durumunu görüntüleyin. Artık etkin bir abonelik vardır ve veri sağlayıcısı olarak veri tüketicisinin kendisiyle paylaşılan verileri almaya ne zaman başladığını da izleyebilirsiniz.
Veri tüketicisinin veri paylaşımına geri dönün. Tetikleyicinin durumu başarılı olduktan sonra, verilerin ilgili depolara indiğini görmek için hedef SQL veritabanına ve data lake'e gidin.
Tebrikler, laboratuvarı tamamladınız!