Azure Data Factory ve Azure Veri Paylaşımı kullanarak veri tümleştirmesi

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Müşteriler modern veri ambarı ve analiz projelerine başladıkça, yalnızca daha fazla veriye değil, aynı zamanda veri varlıklarında da daha fazla görünürlüğe ihtiyaç duyarlar. Bu atölyede Azure Data Factory ve Azure'da yapılan iyileştirmeler Veri Paylaşımı Azure'da veri tümleştirmesini ve yönetimini nasıl kolaylaştıracakları ele alınıyor.

Kodsuz ETL/ELT'yi etkinleştirmeden verileriniz üzerinde kapsamlı bir görünüm oluşturmaya kadar Azure Data Factory'deki geliştirmeler, veri mühendislerinizin kuruluşunuza güvenle daha fazla veri ve dolayısıyla daha fazla değer getirmesini sağlar. Azure Veri Paylaşımı iş paylaşımını idareli bir şekilde yapmanıza olanak tanır.

Bu atölyede Azure Data Factory'yi (ADF) kullanarak verileri Azure SQL Veritabanı'den Azure Data Lake Storage 2. Nesil'a (ADLS 2. Nesil) alacaksınız. Verileri göle getirdiğinizde, veri fabrikasının yerel dönüştürme hizmeti olan eşleme veri akışları aracılığıyla dönüştürür ve Azure Synapse Analytics'e aktarırsınız. Ardından, Azure Veri Paylaşımı kullanarak tabloyu dönüştürülmüş verilerle ve bazı ek verilerle paylaşırsınız.

Bu laboratuvarda kullanılan veriler New York City taksi verileridir. SQL Veritabanı veritabanınıza aktarmak için taxi-data bacpac dosyasını indirin. GitHub'da Ham dosyayı indir seçeneğini belirleyin.

Önkoşullar

  • Azure aboneliği: Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

  • Azure SQL Veritabanı: Azure SQL Veritabanı yoksa SQL Veritabanı oluşturmayı öğrenin.

  • Azure Data Lake Storage 2. Nesil depolama hesabı: ADLS 2. Nesil depolama hesabınız yoksa ADLS 2. Nesil depolama hesabı oluşturmayı öğrenin.

  • Azure Synapse Analytics: Azure Synapse Analytics çalışma alanınız yoksa Azure Synapse Analytics'i kullanmaya başlamayı öğrenin.

  • Azure Data Factory: Veri fabrikanız yoksa bkz . Veri fabrikası oluşturma.

  • Azure Veri Paylaşımı: Veri paylaşımınız yoksa bkz. Veri paylaşımı oluşturma.

Azure Data Factory ortamınızı ayarlama

Bu bölümde, Azure portalından Azure Data Factory kullanıcı deneyimine (ADF UX) erişmeyi öğreneceksiniz. ADF UX'e girdikten sonra, kullanmakta olduğumuz her veri deposu için üç bağlı hizmet yapılandırırsınız: Azure SQL Veritabanı, ADLS 2. Nesil ve Azure Synapse Analytics.

Azure Data Factory bağlı hizmetlerinde dış kaynaklara bağlantı bilgilerini tanımlayın. Azure Data Factory şu anda 85'in üzerinde bağlayıcıyı desteklemektedir.

Azure Data Factory UX'yi açma

  1. Azure portalını Microsoft Edge veya Google Chrome'da açın.

  2. Sayfanın üst kısmındaki arama çubuğunu kullanarak 'Veri Fabrikaları' araması yapın.

  3. Veri fabrikası kaynağınızı seçerek kaynaklarını sol bölmede açın.

    Veri fabrikaları genel bakış sayfasının Azure portalındaki ekran görüntüsü.

  4. Azure Data Factory Studio'yu Aç'ı seçin. Data Factory Studio'ya doğrudan adf.azure.com de erişilebilir.

    Azure portalında Azure Data Factory giriş sayfasının ekran görüntüsü.

  5. Azure portalında ADF'nin giriş sayfasına yönlendirilirsiniz. Bu sayfa hızlı başlangıçlar, yönerge videoları ve veri fabrikası kavramlarını öğrenmek için öğreticilere bağlantılar içerir. Yazmaya başlamak için sol taraftaki çubuktaki kalem simgesini seçin.

    Portal yapılandırmasının Azure portalından ekran görüntüsü.

Azure SQL Veritabanı bağlı hizmeti oluşturma

  1. Bağlı hizmet oluşturmak için sol taraftaki çubukta Hub'ı yönet'i seçin, Bağlantılar bölmesinde Bağlı hizmetler'i seçin ve yeni bağlı hizmet eklemek için Yeni'yi seçin.

    Azure portalında yeni bir bağlı hizmet oluşturma işleminin ekran görüntüsü.

  2. Yapılandırdığınız ilk bağlı hizmet bir Azure SQL Veritabanı. Veri deposu listesini filtrelemek için arama çubuğunu kullanabilirsiniz. Azure SQL Veritabanı kutucuğunu seçin ve devam'ı seçin.

    Azure portalında yeni bir Azure SQL Veritabanı bağlı hizmet oluşturma işleminin ekran görüntüsü.

  3. SQL Veritabanı yapılandırma bölmesinde, bağlı hizmet adınız olarak 'SQLDB' girin. Veri fabrikasının veritabanınıza bağlanmasına izin vermek için kimlik bilgilerinizi girin. SQL kimlik doğrulaması kullanıyorsanız sunucu adını, veritabanını, kullanıcı adınızı ve parolanızı girin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    Başarıyla test edilmiş bir bağlantıyla yeni bir Azure SQL Veritabanı bağlı hizmeti yapılandırmanın Azure portalının ekran görüntüsü.

Azure Synapse Analytics bağlı hizmeti oluşturma

  1. Azure Synapse Analytics bağlı hizmeti eklemek için aynı işlemi yineleyin. Bağlantılar sekmesinde Yeni'yi seçin. Azure Synapse Analytics kutucuğunu seçin ve devam'ı seçin.

    Azure portalında yeni bir Azure Synapse Analytics bağlı hizmeti oluşturma işleminin ekran görüntüsü.

  2. Bağlı hizmet yapılandırma bölmesinde, bağlı hizmet adınız olarak 'SQLDW' girin. Veri fabrikasının veritabanınıza bağlanmasına izin vermek için kimlik bilgilerinizi girin. SQL kimlik doğrulaması kullanıyorsanız sunucu adını, veritabanını, kullanıcı adınızı ve parolanızı girin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    AZURE portalında SQLDW adlı yeni bir Azure Synapse Analytics bağlı hizmeti yapılandırma işleminin ekran görüntüsü.

Azure Data Lake Storage 2. Nesil bağlı hizmet oluşturma

  1. Bu laboratuvar için gereken son bağlı hizmet bir Azure Data Lake Storage 2. Nesil. Bağlantılar sekmesinde Yeni'yi seçin. Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve devam'ı seçin.

    Azure portalında yeni bir ADLS 2. Nesil bağlı hizmeti oluşturma işleminin ekran görüntüsü.

  2. Bağlı hizmet yapılandırma bölmesinde, bağlı hizmet adınız olarak 'ADLSGen2' girin. Hesap anahtarı kimlik doğrulaması kullanıyorsanız, Depolama hesabı adı açılan listesinden ADLS 2. Nesil depolama hesabınızı seçin. Bağlantıyı test et'i seçerek bağlantı bilgilerinizin doğru olduğunu doğrulayabilirsiniz. Bittiğinde Oluştur’u seçin.

    Azure portalında yeni bir ADLS 2. Nesil bağlı hizmeti yapılandırma işleminin ekran görüntüsü.

Veri akışı hata ayıklama modunu açma

Eşleme veri akışını kullanarak verileri dönüştürme bölümünde eşleme veri akışları oluşturuyorsunuz. Eşleme veri akışları oluşturmadan önce en iyi yöntem, etkin spark kümesinde dönüştürme mantığını saniyeler içinde test etmenizi sağlayan hata ayıklama modunu açmaktır.

Hata ayıklamayı açmak için Veri akışı etkinlikleriniz olduğunda veri akışı tuvalinin veya işlem hattı tuvalinin üst çubuğundaki Veri akışı hata ayıklama kaydırıcısını seçin. Onay iletişim kutusu gösterildiğinde Tamam'ı seçin. Küme yaklaşık 5-7 dakika içinde başlar. Kopyalama etkinliği başlatılırken kopyalama etkinliğini kullanarak verileri Azure SQL Veritabanı'den ADLS 2. Nesil'e almaya devam edin.

Veri akışı hata ayıklama düğmesinin etkin olduğu Fabrika Kaynakları sayfalarının Azure portalının ekran görüntüsü.

Veri akışı hata ayıklama kaydırıcısının bir nesne oluşturulduktan sonra nerede olduğunu gösteren ekran görüntüsü.

Kopyalama etkinliğini kullanarak veri alma

Bu bölümde, bir Azure SQL Veritabanı adls 2. nesil depolama hesabına bir tablo alan kopyalama etkinliğine sahip bir işlem hattı oluşturacaksınız. ADF UX aracılığıyla işlem hattı eklemeyi, veri kümesini yapılandırmayı ve işlem hattında hata ayıklamayı öğrenirsiniz. Bu bölümde kullanılan yapılandırma düzeni, ilişkisel bir veri deposundan dosya tabanlı veri deposuna kopyalamaya uygulanabilir.

Azure Data Factory'de işlem hattı, bir görevi birlikte gerçekleştiren etkinliklerin mantıksal bir gruplandırmasıdır. Etkinlik, verileriniz üzerinde gerçekleştirilecek bir işlemi tanımlar. Veri kümesi, bağlı bir hizmette kullanmak istediğiniz verileri gösterir.

Kopyalama etkinliğiyle işlem hattı oluşturma

  1. Fabrika kaynakları bölmesinde artı simgesini seçerek yeni kaynak menüsünü açın. İşlem Hattı'nı seçin.

    Azure portalında yeni işlem hattı oluşturma işleminin ekran görüntüsü.

  2. İşlem hattı tuvalinin Genel sekmesinde, işlem hattınıza 'IngestAndTransformTaxiData' gibi açıklayıcı bir ad verin.

    Yeni Alma ve Dönüştürme Taxi veri nesnesinin Azure portalındaki ekran görüntüsü.

  3. İşlem hattı tuvalinin etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu açın ve Verileri kopyala etkinliğini tuvale sürükleyin. Kopyalama etkinliğine 'IngestIntoADLS' gibi açıklayıcı bir ad verin.

    Azure portalında veri kopyalama adımı ekleme işleminin ekran görüntüsü.

Azure SQL DB kaynak veri kümesini yapılandırma

  1. Kopyalama etkinliğinin Kaynak sekmesinde öğesini seçin. Yeni bir veri kümesi oluşturmak için Yeni'yi seçin. Kaynağınız, daha önce yapılandırılan 'SQLDB' bağlı hizmetinde bulunan tablo dbo.TripData olacaktır.

    Veri Kaynağını Kopyala seçeneğinde yeni bir veri kümesi oluşturma işleminin Azure portalının ekran görüntüsü.

  2. Azure SQL Veritabanı arayın ve Devam'ı seçin.

    Azure SQL Veritabanı'da yeni veri kümesi oluşturma işleminin Azure portalının ekran görüntüsü.

  3. Veri kümenizi 'TripData' olarak çağır. Bağlı hizmetiniz olarak 'SQLDB' öğesini seçin. Tablo adı dbo.TripData açılan listesinden tablo adını seçin. Şemayı Bağlantıdan/depodan içeri aktarın. Tamamlanınca Tamam'ı seçin.

    Azure SQL Veritabanı'da yeni bir veri kümesi oluşturmanın özellikler sayfasının Azure portalının ekran görüntüsü.

Kaynak veri kümenizi başarıyla oluşturdunuz. Kaynak ayarlarında, kullanım sorgusu alanında Tablo varsayılan değerinin seçildiğinden emin olun.

ADLS 2. Nesil havuz veri kümesini yapılandırma

  1. Kopyalama etkinliğinin Havuz sekmesinde öğesini seçin. Yeni bir veri kümesi oluşturmak için Yeni'yi seçin.

    Veri Kopyalama havuzu seçeneğinde yeni veri kümesi oluşturma işleminin Azure portalının ekran görüntüsü.

  2. Azure Data Lake Storage 2. Nesil arayın ve Devam'ı seçin.

    ADLS 2. Nesil'de yeni veri oluşturma işleminin Azure portalının ekran görüntüsü.

  3. Biçim seç bölmesinde, csv dosyasına yazarken Sınırlanmış Metin'i seçin. Devam'ı seçin.

    ADLS 2. Nesil'de yeni bir veri oluştururken biçim sayfasının Azure portalındaki ekran görüntüsü.

  4. Havuz veri kümenize 'TripDataCSV' adını verin. Bağlı hizmetiniz olarak 'ADLSGen2' öğesini seçin. Csv dosyanızı yazmak istediğiniz yeri girin. Örneğin, kapsayıcısında staging-containerdosyaya trip-data.csv verilerinizi yazabilirsiniz. Çıktı verilerinizin üst bilgi olmasını istediğiniz şekilde İlk satırı üst bilgi olarak true olarak ayarlayın. Henüz hedefte dosya olmadığından Şemayı içeri aktar'ı Yok olarak ayarlayın. Tamamlanınca Tamam'ı seçin.

    ADLS 2. Nesil'de yeni veri oluşturma özellikleri sayfasının Azure portalının ekran görüntüsü.

İşlem hattı hata ayıklama çalıştırmasıyla kopyalama etkinliğini test edin

  1. Kopyalama etkinliğinizin düzgün çalıştığını doğrulamak için işlem hattı tuvalinin üst kısmındaki Hata Ayıkla'yı seçerek bir hata ayıklama çalıştırması yürütebilirsiniz. Hata ayıklama çalıştırması, işlem hattınızı veri fabrikası hizmetinde yayımlamadan önce uçtan uca veya bir kesme noktasına kadar test etmenizi sağlar.

    Hata ayıklama düğmesinin Azure portalındaki ekran görüntüsü.

  2. Hata ayıklama çalıştırmanızı izlemek için işlem hattı tuvalinin Çıkış sekmesine gidin. İzleme ekranı her 20 saniyede bir veya yenile düğmesini el ile seçtiğinizde otomatik olarak yeniden başlatılır. Kopyalama etkinliği, Eylemler sütunundaki göz gözlükleri simgesi seçilerek erişilebilen özel bir izleme görünümüne sahiptir.

    İzleme düğmesinin Azure portalındaki ekran görüntüsü.

  3. Kopyalama izleme görünümü, etkinliğin yürütme ayrıntılarını ve performans özelliklerini verir. Okunan/yazılan veriler, okunan/yazılan satırlar, okunan/yazılan dosyalar ve aktarım hızı gibi bilgileri görebilirsiniz. Her şeyi doğru yapılandırdıysanız, ADLS havuzunuzda bir dosyaya yazılmış 49.999 satır görmeniz gerekir.

    Kopyalama izleme görünümünün performans ayrıntılarının Azure portalındaki ekran görüntüsü.

  4. Sonraki bölüme geçmeden önce, fabrika üst çubuğunda Tümünü yayımla'yı seçerek değişikliklerinizi veri fabrikası hizmetinde yayımlamanız önerilir. Bu laboratuvarda ele alınmasa da Azure Data Factory tam git tümleştirmesini destekler. Git tümleştirmesi sürüm denetimine, depoda yinelemeli kaydetmeye ve veri fabrikasında işbirliğine olanak tanır. Daha fazla bilgi için bkz . Azure Data Factory'de kaynak denetimi.

    Tümünü yayımla düğmesinin Azure portalındaki ekran görüntüsü.

Veri akışlarını eşlemeyi kullanarak verileri dönüştürme

Verileri Azure Data Lake Storage'a başarıyla kopyaladığınıza göre artık bu verileri bir veri ambarı içinde birleştirmenin ve toplamanın zamanı geldi. Azure Data Factory'nin görsel olarak tasarlanmış dönüştürme hizmeti olan eşleme veri akışını kullanırız. Eşleme veri akışları, kullanıcıların dönüştürme mantığını kodsuz olarak geliştirmesine ve bunları ADF hizmeti tarafından yönetilen Spark kümelerinde yürütmesine olanak tanır.

Bu adımda oluşturulan veri akışı iç, önceki bölümde oluşturulan 'TripDataCSV' veri kümesini dört anahtar sütuna göre 'SQLDB' içinde depolanan bir tabloyla dbo.TripFares birleştirir. Ardından veriler, belirli alanların ortalamasını hesaplamak için sütuna payment_type göre toplanır ve bir Azure Synapse Analytics tablosuna yazılır.

İşlem hattınıza veri akışı etkinliği ekleme

  1. İşlem hattı tuvalinin etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu açın ve Veri akışı etkinliğini tuvale sürükleyin.

    Taşı ve Dönüştür menüsündeki veri akışı seçeneğinin Azure portalındaki ekran görüntüsü.

  2. Açılan yan bölmede Yeni veri akışı oluştur'u ve ardından Eşleme veri akışı'nı seçin. Tamam'ı seçin.

    Azure portalında yeni eşleme veri akışı ekleme işleminin ekran görüntüsü.

  3. Dönüştürme mantığınızı oluşturduğunuz veri akışı tuvaline yönlendirilirsiniz. Genel sekmesinde veri akışınıza 'JoinAndAggregateData' adını verin.

    Veri Birleştirme ve Toplama akışının Azure portalındaki ekran görüntüsü.

Seyahat verilerinizin CSV kaynağını yapılandırma

  1. yapmak istediğiniz ilk şey, iki kaynak dönüşümünüzü yapılandırmaktır. İlk kaynak, 'TripDataCSV' DelimitedText veri kümesini gösterir. Kaynak dönüşümü eklemek için tuvaldeki Kaynak Ekle kutusunu seçin.

    Yeni bir veri akışında kaynak ekle düğmesinin Azure portalındaki ekran görüntüsü.

  2. Kaynağınıza 'TripDataCSV' adını verin ve kaynak açılan listesinden 'TripDataCSV' veri kümesini seçin. Hatırlarsanız, bu veri kümesini oluştururken başlangıçta bir şema içeri aktarmadınız çünkü orada veri yoktu. Artık mevcut olduğundantrip-data.csv, veri kümesi ayarları sekmesine gitmek için Düzenle'yi seçin.

    Veri akışı seçeneklerindeki Kaynak veri kümesini düzenle düğmesinin Azure portalındaki ekran görüntüsü.

  3. Şema sekmesine gidin ve Şemayı içeri aktar'ı seçin. Doğrudan dosya deposundan içeri aktarmak için Bağlantıdan/depodan'ı seçin. Dize türünde 14 sütun görünmelidir.

    Şema kaynağı seçiminin Azure portalındaki ekran görüntüsü.

  4. 'JoinAndAggregateData' veri akışına geri dönün. Hata ayıklama kümeniz başlatıldıysa (hata ayıklama kaydırıcısının yanındaki yeşil daireyle gösterilir), Veri Önizleme sekmesinde verilerin anlık görüntüsünü alabilirsiniz. Veri önizlemesini getirmek için Yenile'yi seçin.

    Veri akışı önizlemesinin Azure portalındaki ekran görüntüsü.

Not

Veri önizlemesi veri yazmaz.

Seyahat ücretlerinizi SQL Veritabanı kaynağınızı yapılandırma

  1. SQL Veritabanı tablosuna dbo.TripFarespuan eklediğiniz ikinci kaynaktır. 'TripDataCSV' kaynağınızın altında başka bir Kaynak Ekle kutusu vardır. Yeni bir kaynak dönüşümü eklemek için bunu seçin.

    Azure portalında bir veri akışına başka bir veri kaynağı ekleme işleminin ekran görüntüsü.

  2. Bu kaynağa 'TripFaresSQL' adını verin. Yeni bir SQL Veritabanı veri kümesi oluşturmak için kaynak veri kümesi alanının yanındaki Yeni'yi seçin.

    Veri akışındaki başka bir kopyalama veri adımındaki yeni kaynak veri kümesinin Azure portalındaki ekran görüntüsü.

  3. Azure SQL Veritabanı kutucuğunu seçin ve devam'ı seçin. Veri fabrikasındaki bağlayıcıların çoğunun eşleme veri akışında desteklenmemektedir. Verileri bu kaynaklardan birinden dönüştürmek için kopyalama etkinliğini kullanarak desteklenen bir kaynağa alın.

    Veri akışına yeni bir Azure SQL Veritabanı veri kümesi eklemeye ilişkin Azure portalının ekran görüntüsü.

  4. Veri kümenizi 'TripFares' olarak çağır. Bağlı hizmetiniz olarak 'SQLDB' öğesini seçin. Tablo adı dbo.TripFares açılan listesinden tablo adını seçin. Şemayı Bağlantıdan/depodan içeri aktarın. Tamamlanınca Tamam'ı seçin.

    Veri akışına yeni bir Azure SQL Veritabanı veri kümesi ekleme özelliklerinin Azure portalındaki ekran görüntüsü.

  5. Verilerinizi doğrulamak için Veri Önizleme sekmesinde bir veri önizlemesi getirin.

    Veri akışındaki başka bir veri kaynağının veri önizlemesinin Azure portalındaki ekran görüntüsü.

İç birleşim TripDataCSV ve TripFaresSQL

  1. Yeni dönüşüm eklemek için 'TripDataCSV' öğesinin sağ alt köşesindeki artı simgesini seçin. Birden çok giriş/çıkış altında Katıl'ı seçin.

    Veri akışındaki veri kaynaklarında birleştirme düğmesinin Azure portalındaki ekran görüntüsü.

  2. Birleştirme dönüşümünüzü 'InnerJoinWithTripFares' olarak adlandırın. Sağ akış açılan listesinden 'TripFaresSQL' öğesini seçin. Birleştirme türü olarak İç'i seçin. Eşleme veri akışındaki farklı birleştirme türleri hakkında daha fazla bilgi edinmek için bkz . birleştirme türleri.

    Birleştirme koşulları açılan listesi aracılığıyla her akıştan hangi sütunları eşleştirmek istediğinizi seçin. Ek birleştirme koşulu eklemek için, var olan bir koşulun yanındaki artı simgesini seçin. Varsayılan olarak, tüm birleştirme koşulları bir AND işleciyle birleştirilir ve bu da eşleşme için tüm koşulların karşılanması gerektiği anlamına gelir. Bu laboratuvarda , , hack_licensevendor_idve sütunlarında medallioneşleştirmek istiyoruzpickup_datetime

    Veri akışı katılma ayarlarının Azure portalından ekran görüntüsü.

  3. Veri önizlemesiyle birlikte 25 sütunu başarıyla birleştirdiğinizden emin olun.

    Birleştirilmiş veri kaynaklarına sahip bir veri akışının veri önizlemesinin Azure portalındaki ekran görüntüsü.

payment_type göre toplama

  1. Birleştirme dönüştürmenizi tamamladıktan sonra InnerJoinWithTripFares'in yanındaki artı simgesini seçerek bir toplama dönüşümü ekleyin. Şema değiştirici'nin altında Toplama'yı seçin.

    Yeni toplama düğmesinin Azure portalındaki ekran görüntüsü.

  2. Toplu dönüştürmenize 'AggregateByPaymentType' adını verin. Sütuna göre gruplandır'ı seçin payment_type .

    Azure portalında toplama ayarlarının ekran görüntüsü.

  3. Toplamlar sekmesine gidin. İki toplama belirtin:

    • Ödeme türüne göre gruplandırılmış ortalama ücret
    • Ödeme türüne göre gruplandırılmış toplam seyahat uzaklığı

    İlk olarak, ortalama ücret ifadesini oluşturursunuz. Sütun ekle veya seç etiketli metin kutusuna 'average_fare' yazın.

    Toplama ayarlarındaki Gruplandırma ölçütü seçeneğinin Azure portalındaki ekran görüntüsü.

  4. Toplama ifadesi girmek için Enter ifadesi etiketli mavi kutuyu seçin. Bu kutu, veri akışı ifade oluşturucusunu, giriş şemasını, yerleşik işlevleri ve işlemleri ve kullanıcı tanımlı parametreleri kullanarak veri akışı ifadelerini görsel olarak oluşturmak için kullanılan aracı açar. İfade oluşturucusunun özellikleri hakkında daha fazla bilgi için ifade oluşturucu belgelerine bakın.

    Ortalama ücreti almak için toplama işlevini kullanarak avg() sütun atamasını total_amount ile toInteger()bir tamsayıya toplama. Veri akışı ifade dilinde, bu olarak avg(toInteger(total_amount))tanımlanır. Kaydet'i seçin ve işiniz bittiğinde bitirin .

    Visual Expression Builder'ın Azure portalında avg(toInteger(total_amount)) toplam işlevini gösteren ekran görüntüsü.

  5. Ek bir toplama ifadesi eklemek için yanındaki artı simgesini average_fareseçin. Sütun ekle'yi seçin.

    Seçeneğe göre gruplandırılmış toplama ayarlarındaki Sütun ekle düğmesinin Azure portalındaki ekran görüntüsü.

  6. Sütun ekle veya seç etiketli metin kutusuna 'total_trip_distance' yazın. Son adımda olduğu gibi ifadeye girmek için ifade oluşturucusunu açın.

    Toplam yolculuk uzaklığı elde etmek için toplama işlevini kullanarak sum() sütun atamasını trip_distance ile toInteger()bir tamsayıya toplama. Veri akışı ifade dilinde, bu olarak sum(toInteger(trip_distance))tanımlanır. Kaydet'i seçin ve işiniz bittiğinde bitirin .

    Seçeneğe göre gruplandırılmış toplama ayarlarındaki iki sütunun Azure portalındaki ekran görüntüsü.

  7. Veri Önizleme sekmesinde dönüştürme mantığınızı test edin. Gördüğünüz gibi, öncekinden daha az satır ve sütun var. Yalnızca bu dönüştürmede tanımlanan üç grup ve toplama sütunu aşağı akışa devam ediyor. Örnekte yalnızca beş ödeme türü grubu olduğundan yalnızca beş satır çıkarılır.

    Azure portalında toplanan veri önizlemesinin ekran görüntüsü.

Azure Synapse Analytics havuzu yapılandırma

  1. Dönüştürme mantığımızı tamamladığımıza göre verilerimizi bir Azure Synapse Analytics tablosuna aktarmaya hazırız. Hedef bölümünün altına bir havuz dönüşümü ekleyin.

    Veri akışındaki havuz ekle düğmesinin Azure portalındaki ekran görüntüsü.

  2. Havuzunuza 'SQLDWSink' adını verin. Yeni bir Azure Synapse Analytics veri kümesi oluşturmak için havuz veri kümesi alanının yanındaki Yeni'yi seçin.

    Havuz ayarlarındaki yeni havuz veri kümesi düğmesinin Azure portalındaki ekran görüntüsü.

  3. Azure Synapse Analytics kutucuğunu seçin ve devam'ı seçin.

    Yeni bir veri havuzu için yeni bir Azure Synapse Analytics veri kümesinin Azure portalındaki ekran görüntüsü.

  4. Veri kümenizi 'AggregatedTaxiData' olarak çağır. Bağlı hizmetiniz olarak 'SQLDW' öğesini seçin. Yeni tablo oluştur'u seçin ve yeni tabloyu dbo.AggregateTaxiDataolarak adlandırın. Tamamlanınca Tamam'ı seçin.

    Azure portalında veri havuzu için yeni bir tablo oluşturma işleminin ekran görüntüsü.

  5. Havuzun Ayarlar sekmesine gidin. Yeni bir tablo oluşturduğumuz için tablo eyleminin altında Tabloyu yeniden oluştur'a ihtiyacımız var. Hazırlamayı etkinleştir'in seçimini kaldırın. Bu seçenek, satır satır veya toplu olarak eklememiz arasında geçiş yapar.

    Veri havuzu ayarlarının Azure portalındaki Tabloyu yeniden oluştur seçeneğinin ekran görüntüsü.

Veri akışınızı başarıyla oluşturdunuz. Şimdi bunu bir işlem hattı etkinliğinde çalıştırmanın zamanı geldi.

İşlem hattınızda uçtan uca hata ayıklama

  1. IngestAndTransformData işlem hattının sekmesine geri dönün. 'IngestIntoADLS' kopyalama etkinliğindeki yeşil kutuya dikkat edin. 'JoinAndAggregateData' veri akışı etkinliğine sürükleyin. Bu, veri akışı etkinliğinin yalnızca kopya başarılı olduğunda çalışmasına neden olan bir 'başarıda' oluşturur.

    Yeşil başarı işlem hattının Azure portalındaki ekran görüntüsü.

  2. Kopyalama etkinliğinde yaptığımız gibi, hata ayıklama çalıştırması yürütmek için Hata Ayıkla'yı seçin. Hata ayıklama çalıştırmaları için veri akışı etkinliği, yeni bir küme oluşturmak yerine etkin hata ayıklama kümesini kullanır. Bu işlem hattının yürütülmesi bir dakikadan biraz fazla sürer.

    Başarılı işlem hattı için veri akışı hata ayıklama düğmesinin Azure portalının ekran görüntüsü.

  3. Kopyalama etkinliğinde olduğu gibi, veri akışında da etkinliğin tamamlanmasının ardından gözlük simgesi tarafından erişilen özel bir izleme görünümü vardır.

    İşlem hattındaki çıkış izleyicisinin Azure portalındaki ekran görüntüsü.

  4. İzleme görünümünde, her yürütme aşamasında yürütme süreleri ve satırlarla birlikte basitleştirilmiş bir veri akışı grafiği görebilirsiniz. Doğru şekilde yapılırsa, bu etkinlikte 49.999 satırı beş satır halinde toplamış olmanız gerekir.

    İşlem hattındaki çıkış izleyicisi ayrıntılarının Azure portalındaki ekran görüntüsü.

  5. Bölümleme bilgileri ve yeni/güncelleştirilmiş/bırakılan sütunlar gibi yürütmesiyle ilgili ek ayrıntılar almak için bir dönüştürme seçebilirsiniz.

    İşlem hattı çıkış izleyicisinde akış bilgilerinin Azure portalındaki ekran görüntüsü.

Şimdi bu laboratuvarın veri fabrikası bölümünü tamamladınız. Kaynaklarınızı tetikleyicilerle kullanıma hazır hale getirmek istiyorsanız yayımlayın. Kopyalama etkinliğini kullanarak Azure SQL Veritabanı'dan Azure Data Lake Storage'a veri alan bir işlem hattını başarıyla çalıştırıp bu verileri bir Azure Synapse Analytics'e toplayabilirsiniz. SQL Server'ın kendisine bakarak verilerin başarıyla yazıldığını doğrulayabilirsiniz.

Azure Veri Paylaşımı ile veri paylaşma

Bu bölümde, Azure portalını kullanarak yeni bir veri paylaşımı ayarlamayı öğreneceksiniz. Bu, Azure Data Lake Storage 2. Nesil ve Azure Synapse Analytics'ten veri kümeleri içeren yeni bir veri paylaşımı oluşturmayı içerir. Ardından, veri tüketicilerine kendileriyle paylaşılan verileri otomatik olarak yenileme seçeneği sunan bir anlık görüntü zamanlaması yapılandıracaksınız. Ardından alıcıları veri paylaşımınıza davet edersiniz.

Bir veri paylaşımı oluşturduktan sonra şapkaları değiştirip veri tüketicisi olursunuz. Veri tüketicisi olarak, veri paylaşımı davetini kabul etme, verilerin alınmasını istediğiniz yeri yapılandırma ve veri kümelerini farklı depolama konumlarıyla eşleme akışında ilerleyeceksiniz. Ardından, sizinle paylaşılan verileri belirtilen hedefe kopyalayan bir anlık görüntü tetikleyeceksiniz.

Veri paylaşma (Veri Sağlayıcısı akışı)

  1. Azure portalını Microsoft Edge veya Google Chrome'da açın.

  2. Sayfanın üst kısmındaki arama çubuğunu kullanarak Veri Paylaşımı arama

    Azure portalı arama çubuğunda veri paylaşımlarını arama işleminin Azure portalının ekran görüntüsü.

  3. Adında 'Sağlayıcı' bulunan veri paylaşımı hesabını seçin. Örneğin, DataProvider0102.

  4. Verilerinizi paylaşmayı başlat'ı seçin

    Verilerinizi paylaşmaya başlayın düğmesinin Azure portalındaki ekran görüntüsü.

  5. Yeni veri paylaşımınızı yapılandırmaya başlamak için +Oluştur'u seçin.

  6. Paylaşım adı'nın altında, istediğiniz bir ad belirtin. Bu, veri tüketiciniz tarafından görülebilecek paylaşım adıdır, bu nedenle TaxiData gibi açıklayıcı bir ad verdiğinizden emin olun.

  7. Açıklama'nın altında, veri paylaşımının içeriğini açıklayan bir tümce girin. Veri paylaşımı, Azure Synapse Analytics ve Azure Data Lake Storage gibi çeşitli mağazalarda depolanan dünya çapında taksi yolculuğu verilerini içerir.

  8. Kullanım koşulları altında, veri tüketicinizin uymasını istediğiniz bir terim kümesi belirtin. Bazı örnekler şunlardır: "Bu verileri kuruluşunuzun dışına dağıtma" veya "Yasal sözleşmeye bakın".

    Gönderilen Paylaşımlar'daki Veri Paylaşımı ayrıntılarının Azure portalındaki ekran görüntüsü.

  9. Devam'ı seçin.

  10. Veri kümesi ekle'yi seçin

    Gönderilen Paylaşımlar'daki Veri Paylaşımı Veri kümesi ekle düğmesinin Azure portalındaki ekran görüntüsü.

  11. Azure Synapse Analytics'ten ADF dönüşümlerinizin indi olduğu bir tablo seçmek için Azure Synapse Analytics'i seçin.

  12. Devam etmeden önce çalıştırmanız gereken bir betik verilir. Sağlanan betik, Azure Veri Paylaşımı MSI'sinin kendi adına kimlik doğrulamasına izin vermek için SQL veritabanında bir kullanıcı oluşturur.

    Önemli

    Betiği çalıştırmadan önce, kendinizi Azure SQL Veritabanı mantıksal SQL sunucusu için Active Directory Yöneticisi olarak ayarlamanız gerekir.

  13. Yeni bir sekme açın ve Azure portalına gidin. Veritabanında veri paylaşmak istediğiniz bir kullanıcı oluşturmak için sağlanan betiği kopyalayın. Bunu yapmak için Microsoft Entra kimlik doğrulamasını kullanarak Azure portal Sorgu düzenleyicisini kullanarak EDW veritabanında oturum açın. Kullanıcıyı aşağıdaki örnek betikte değiştirmeniz gerekir:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Veri paylaşımınıza veri kümeleri eklediğiniz Azure Veri Paylaşımı geri dönün.

  15. EDW'yi ve ardından tablo için AggregatedTaxiData'yı seçin.

  16. Veri kümesi ekle'yi seçin

    Artık veri kümemizin parçası olan bir SQL tablomuz var. Ardından Azure Data Lake Storage'dan ek veri kümeleri ekleyeceğiz.

  17. Veri kümesi ekle'yi seçin ve Azure Data Lake Storage 2. Nesil

    ADLS 2. Nesil veri kümesi ekleme işleminin Azure portalındaki ekran görüntüsü.

  18. İleri'yi seçin

  19. wwtaxidata öğesini genişletin. Boston Taxi Data'nın kapsamını genişletin. Dosya düzeyine kadar paylaşabilirsiniz.

  20. Klasörün tamamını veri paylaşımınıza eklemek için Boston Taxi Data klasörünü seçin.

  21. Veri kümesi ekle'yi seçin

  22. Eklenen veri kümelerini gözden geçirin. Veri paylaşımınıza eklenmiş bir SQL tablonuz ve ADLS 2. Nesil klasörünüz olmalıdır.

  23. Devam'ı seçin

  24. Bu ekranda, veri paylaşımınıza alıcı ekleyebilirsiniz. Eklediğiniz alıcılar, veri paylaşımınıza davetler alır. Bu laboratuvarın amacı doğrultusunda iki e-posta adresi eklemeniz gerekir:

    1. Içinde olduğunuz Azure aboneliğinin e-posta adresi.

      Alıcı ekleme Veri Paylaşımı Azure portalının ekran görüntüsü.

    2. adlı janedoe@fabrikam.comkurgusal veri tüketicisine ekleyin.

  25. Bu ekranda, veri tüketiciniz için bir Anlık Görüntü Ayarı yapılandırabilirsiniz. Bu, verilerinizin sizin tarafınızdan tanımlanan bir aralıkta düzenli güncelleştirmelerini almalarını sağlar.

  26. Anlık Görüntü Zamanlamasını denetleyin ve Yinelenme açılan listesini kullanarak verilerinizin saatlik yenilemesini yapılandırın.

  27. Oluştur'u belirleyin.

    Artık etkin bir veri paylaşımınız var. Veri paylaşımı oluştururken veri sağlayıcısı olarak neler görebileceğinizi gözden geçirebilirsiniz.

  28. Oluşturduğunuz DataProvider adlı veri paylaşımını seçin. Veri Paylaşımı'de Gönderilmiş Paylaşımlar'ı seçerek bu paylaşıma gidebilirsiniz.

  29. Anlık görüntü zamanlaması'nı seçin. İsterseniz anlık görüntü zamanlamasını devre dışı bırakabilirsiniz.

  30. Ardından Veri Kümeleri sekmesini seçin. Bu veri paylaşımı oluşturulduktan sonra bu veri paylaşımına ek veri kümeleri ekleyebilirsiniz.

  31. Abonelikleri paylaş sekmesini seçin. Veri tüketiciniz davetinizi henüz kabul etmediğinden henüz paylaşım aboneliği yok.

  32. Davetler sekmesine gidin. Burada bekleyen davetlerin listesini görürsünüz.

    Bekleyen davetlerin Azure portalındaki ekran görüntüsü.

  33. davetini janedoe@fabrikam.comseçin. Sil'i seçin. Alıcınız daveti henüz kabul etmediyse, artık kabul edemez.

  34. Geçmiş sekmesini seçin. Veri tüketiciniz davetinizi henüz kabul etmediğinden ve bir anlık görüntü tetiklediğinden henüz hiçbir şey görüntülenmez.

Veri alma (Veri tüketici akışı)

Veri paylaşımımızı gözden geçirdiğimize göre artık bağlamı değiştirmeye ve veri tüketici şapkamızı takmaya hazırız.

Artık Gelen Kutunuzda Microsoft Azure'dan bir Azure Veri Paylaşımı daveti olmalıdır. Outlook Web Access'i (outlook.com) başlatın ve Azure aboneliğiniz için sağlanan kimlik bilgilerini kullanarak oturum açın.

Almış olmanız gereken e-postada "Daveti >görüntüle" seçeneğini belirleyin. Bu noktada, veri sağlayıcılarının kendi veri paylaşımı davetini kabul ederken veri tüketicisi deneyiminin benzetimini yapacaksınız.

E-posta davetinin Outlook ekran görüntüsü.

Bir abonelik seçmeniz istenebilir. Bu laboratuvar için çalıştığınız aboneliği seçtiğinizden emin olun.

  1. DataProvider adlı davette öğesini seçin.

  2. Bu Davet ekranında, daha önce veri sağlayıcısı olarak yapılandırdığınız veri paylaşımıyla ilgili çeşitli ayrıntılara dikkat edin. Ayrıntıları gözden geçirin ve sağlandıysa kullanım koşullarını kabul edin.

  3. Laboratuvarınız için zaten var olan Aboneliği ve Kaynak Grubunu seçin.

  4. Veri paylaşımı hesabı için DataConsumer'ı seçin. Yeni bir veri paylaşımı hesabı da oluşturabilirsiniz.

  5. Alınan paylaşım adı'nın yanında, varsayılan paylaşım adının veri sağlayıcısı tarafından belirtilen ad olduğuna dikkat edin. Paylaşıma, almak üzere olduğunuz verileri açıklayan kolay bir ad verin; örneğin TaxiDataShare.

    Veri paylaşımını Kabul Et ve Yapılandır sayfasının Azure portalındaki ekran görüntüsü.

  6. Şimdi kabul et ve yapılandır'ı veya Daha sonra kabul et ve yapılandır'ı seçebilirsiniz. Şimdi kabul edip yapılandırmayı seçerseniz, tüm verilerin kopyalanması gereken bir depolama hesabı belirtin. Daha sonra kabul edip yapılandırmayı seçerseniz, paylaşımdaki veri kümeleri eşlenmez ve bunları el ile eşlemeniz gerekir. Bunu daha sonra kabul edeceğiz.

  7. Kabul Et'i seçin ve daha sonra yapılandırın.

    Bu seçenek yapılandırılırken bir paylaşım aboneliği oluşturulur, ancak hiçbir hedef eşlenmediğinden verilerin ineceği yer yoktur.

    Ardından veri paylaşımı için veri kümesi eşlemelerini yapılandırın.

  8. Alınan Paylaşım'ı (5. adımda belirttiğiniz ad) seçin.

    Tetikleyici anlık görüntüsü gri renktedir ancak paylaşım Etkin'dir.

  9. Veri kümeleri sekmesini seçin. Her veri kümesinin Eşlenmemiş olması, verilerin kopyalanacak hedefi olmadığı anlamına gelir.

    Eşlenmemiş veri kümelerinin Azure portalındaki ekran görüntüsü.

  10. Azure Synapse Analytics Tablosu'nu ve ardından + Hedefle Eşle'yi seçin.

  11. Ekranın sağ tarafında Hedef Veri Türü açılan listesini seçin.

    SQL verilerini çok çeşitli veri depolarıyla eşleyebilirsiniz. Bu durumda, bir Azure SQL Veritabanı eşleyeceğiz.

    Veri kümelerini hedefle eşlemenin Azure portalındaki ekran görüntüsü.

    (İsteğe bağlı) Hedef veri türü olarak Azure Data Lake Storage 2. Nesil seçin.

    (İsteğe bağlı) Üzerinde çalıştığınız Abonelik, Kaynak Grubu ve Depolama hesabını seçin.

    (İsteğe bağlı) Verileri csv veya parquet biçiminde data lake'inize almayı seçebilirsiniz.

  12. Hedef veri türü'nin yanındaki Azure SQL Veritabanı'ı seçin.

  13. Üzerinde çalıştığınız Abonelik, Kaynak Grubu ve Depolama hesabını seçin.

    Veri kümelerini hedef Azure SQL Veritabanı eşlemenin Azure portalının ekran görüntüsü.

  14. Devam etmeden önce, sağlanan betiği çalıştırarak SQL Server'da yeni bir kullanıcı oluşturmanız gerekir. İlk olarak, sağlanan betiği panonuza kopyalayın.

  15. Yeni bir Azure portalı sekmesi açın. Hemen geri dönmeniz gerektiğinden mevcut sekmenizi kapatmayın.

  16. Açtığınız yeni sekmede SQL veritabanları'na gidin.

  17. SQL veritabanını seçin (aboneliğinizde yalnızca bir veritabanı olmalıdır). Veri ambarını seçmemeye dikkat edin.

  18. Sorgu düzenleyicisi (önizleme) seçeneğini belirleyin

  19. Sorgu düzenleyicisinde oturum açmak için Microsoft Entra kimlik doğrulamasını kullanın.

  20. Veri paylaşımınızda sağlanan sorguyu çalıştırın (14. adımda panoya kopyalanır).

    Bu komut, Azure Veri Paylaşımı hizmetinin SQL Server'da kimlik doğrulaması yapmak üzere Azure Hizmetleri için Yönetilen Kimlikler'i kullanarak içine veri kopyalayabilmesini sağlar.

  21. Özgün sekmeye dönün ve Hedefe eşle'yi seçin.

  22. Ardından, veri kümesinin parçası olan Azure Data Lake Storage 2. Nesil klasörünü seçin ve bir Azure Blob Depolama hesabıyla eşleyin.

    Veri kümelerini hedef Azure Blob Depolama eşlemenin Azure portalının ekran görüntüsü.

    Tüm veri kümeleri eşlendiğinde artık veri sağlayıcısından veri almaya başlayabilirsiniz.

    Azure portalında eşlenen alınan paylaşımların ekran görüntüsü.

  23. Ayrıntılar'ı seçin.

    Veri paylaşımında kopyalanacak hedefler olduğundan tetikleyici anlık görüntüsü artık gri değil.

  24. Tetikleyici anlık görüntüsü ->Tam kopya'yı seçin.

    Tetikleyici anlık görüntüsü, tam kopyalama seçeneğinin Azure portalındaki ekran görüntüsü.

    Bu, verileri yeni veri paylaşımı hesabınıza kopyalamaya başlar. Gerçek bir dünya senaryosunda bu veriler üçüncü taraflardan geliyor olabilir.

    Verilerin karşı karşıya gelmesi yaklaşık 3-5 dakika sürer. Geçmiş sekmesini seçerek ilerleme durumunu izleyebilirsiniz.

    Beklerken özgün veri paylaşımına (DataProvider) gidin ve Abonelikleri ve Geçmişi Paylaş sekmesinin durumunu görüntüleyin. Artık etkin bir abonelik vardır ve veri sağlayıcısı olarak veri tüketicisinin kendisiyle paylaşılan verileri almaya ne zaman başladığını da izleyebilirsiniz.

  25. Veri tüketicisinin veri paylaşımına geri dönün. Tetikleyicinin durumu başarılı olduktan sonra, verilerin ilgili depolara indiğini görmek için hedef SQL veritabanına ve data lake'e gidin.

Tebrikler, laboratuvarı tamamladınız!