Eşleme veri akışlarını kullanarak delta lake'te verileri dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Factory kullanmaya yeni başlıyorsanız bkz. Azure Data Factory'ye giriş.

Bu öğreticide, Veri akışı tuvalini kullanarak Azure Data Lake Storage (ADLS) 2. Nesil'de verileri analiz edip dönüştürmenize ve Delta Lake'te depolamanıza olanak sağlayan veri akışları oluşturursunuz.

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
  • Azure depolama hesabı. ADLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.

Bu öğreticide dönüştürdüğümiz dosya MoviesDB.csv ve burada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz . Azure portalı ile blobları karşıya yükleme. Örnekler, 'sample-data' adlı bir kapsayıcıya başvuruyor.

Veri fabrikası oluşturma

Bu adımda bir veri fabrikası oluşturacak ve Data Factory UX'yi açarak veri fabrikasında işlem hattı oluşturacaksınız.

  1. Microsoft Edge veya Google Chrome'u açın. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.

  2. Sol menüde Kaynak>oluştur Integration>Data Factory'yi seçin

  3. Yeni veri fabrikası sayfasındaki Ad alanına ADFTutorialDataFactory girin

  4. Veri fabrikasını oluşturmak istediğiniz Azure aboneliğinizi seçin.

  5. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    a. Var olanı kullan’ı seçin ve ardından açılır listeden var olan bir kaynak grubu belirleyin.

    b. Yeni oluştur’u seçin ve bir kaynak grubunun adını girin.

    Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.

  6. Sürüm bölümünde V2'yi seçin.

  7. Konum bölümünden veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve SQL Veritabanı) ve işlem (örneğin, Azure HDInsight) diğer bölgelerde olabilir.

  8. Oluştur'u belirleyin.

  9. Oluşturma işlemi tamamlandıktan sonra Bildirim merkezi'nde bildirimi görürsünüz. Data factory sayfasına gitmek için Kaynağa git'i seçin.

  10. Data Factory Kullanıcı Arabirimini (UI) ayrı bir sekmede başlatmak için Geliştir ve İzle’yi seçin.

Veri akışı etkinliğiyle işlem hattı oluşturma

Bu adımda, veri akışı etkinliği içeren bir işlem hattı oluşturursunuz.

  1. Giriş sayfasında Düzenle'yi seçin.

    ADF giriş sayfasını gösteren ekran görüntüsü.

  2. İşlem hattının Genel sekmesinde, işlem hattının Adı için DeltaLake girin.

  3. Etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu genişletin. bölmeden Veri Akışı etkinliğini sürükleyip işlem hattı tuvaline bırakın.

    Veri Akışı etkinliğini bırakabileceğiniz işlem hattı tuvalini gösteren ekran görüntüsü.

  4. Ekleme Veri Akışı açılır penceresinde Yeni Veri Akışı oluştur'u seçin ve veri akışınıza DeltaLake adını verin. İşiniz bittiğinde Son'u seçin.

    Yeni bir veri akışı oluştururken veri akışınızı adlandırdığınız yeri gösteren ekran görüntüsü.

  5. İşlem hattı tuvalinin üst çubuğunda hata ayıklama kaydırıcısını Veri Akışı kaydırın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz . Hata Ayıklama Modu.

    Veri akışı hata ayıklama kaydırıcısının nerede olduğunu gösteren ekran görüntüsü.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Bu öğreticide iki veri akışı oluşturacaksınız. İlk veri akışı, filmler CSV dosyasından yeni bir Delta Lake oluşturmak için havuza alınan basit bir kaynaktır. Son olarak, Delta Lake'teki verileri güncelleştirmek için aşağıdaki akış tasarımını oluşturursunuz.

Son akış

Öğretici hedefleri

  1. Önkoşullardan MoviesCSV veri kümesi kaynağını kullanın ve bu kaynaktan yeni bir Delta Lake oluşturabilirsiniz.
  2. 1988 filmlerinin derecelendirmelerini '1' olarak güncelleştirecek mantığı oluşturun.
  3. 1950'den tüm filmleri silin.
  4. 1960'tan itibaren filmleri çoğaltarak 2021 için yeni filmler ekleyin.

Boş bir veri akışı tuvalinden başlama

  1. Veri akışı düzenleyicisi penceresinin üst kısmındaki kaynak dönüştürmeyi seçin ve ardından Kaynak ayarları penceresindeki Veri kümesi özelliğinin yanındaki + Yeni'yi seçin:

    Veri akışına yeni bir kaynak veri kümesinin nereye ekleneceğini gösteren ekran görüntüsü.

  2. Görüntülenen Yeni veri kümesi penceresinden Azure Data Lake Storage 2. Nesil seçin ve ardından Devam'ı seçin.

    Yeni veri kümesi penceresinden Azure Data Lake Storage 2. Nesil seçileceği yeri gösteren ekran görüntüsü.

  3. Veri kümesi türü için Sınırlanmış Metin'i seçin ve yeniden Devam'ı seçin.

    Veri kümesinin biçiminin seçileceği yeri gösteren ekran görüntüsü.

  4. Veri kümesini "MoviesCSV" olarak adlandırın ve dosyaya yeni bir bağlı hizmet oluşturmak için Bağlı hizmet'in altında + Yeni'yi seçin.

  5. Daha önce Önkoşullar bölümünde oluşturduğunuz depolama hesabınızın ayrıntılarını sağlayın ve buraya yüklediğiniz MoviesCSV dosyasına göz atın ve dosyayı seçin.

  6. Bağlı hizmetinizi ekledikten sonra İlk satır üst bilgi onay kutusunu seçin ve ardından tamam'ı seçerek kaynağı ekleyin.

  7. Veri akışı ayarları penceresinin Projeksiyon sekmesine gidin ve veri türlerini algıla'yı seçin.

  8. Şimdi veri akışı düzenleyicisi penceresinde Kaynak'ı seçin + ve aşağı kaydırarak Hedef bölümünün altındaki Havuz'a gidin ve veri akışınıza yeni bir havuz ekleyin.

    Veri akışı için havuz hedefinin ekleneceği yeri gösteren ekran görüntüsü.

  9. Havuz eklendikten sonra görünen havuz ayarlarının Havuz sekmesinde, Havuz türü için Satır içi'ni ve satır içi veri kümesi türü için Delta'yı seçin. Ardından Bağlı hizmet için Azure Data Lake Storage 2. Nesil seçin.

    Satır içi delta veri kümesinin Havuz ayrıntılarını gösteren ekran görüntüsü.

  10. Depolama kapsayıcınızda hizmetin Delta Lake'i oluşturmasını istediğiniz bir klasör adı seçin.

  11. Son olarak, işlem hattı tasarımcısına geri dönün ve işlem hattını tuvalde yalnızca bu veri akışı etkinliğiyle hata ayıklama modunda yürütmek için Hata Ayıkla'yı seçin. Bu, yeni Delta Lake'inizi Azure Data Lake Storage 2. Nesil oluşturur.

  12. Şimdi ekranın sol tarafındaki Fabrika Kaynakları menüsünden yeni bir kaynak eklemek için öğesini + ve ardından Veri akışı'nı seçin.

    Veri fabrikasında yeni bir veri akışının nerede oluşturulacağını gösteren ekran görüntüsü.

  13. Daha önce olduğu gibi, MoviesCSV dosyasını kaynak olarak yeniden seçin ve ardından Projeksiyon sekmesinden Veri türlerini algıla'yı yeniden seçin.

  14. Bu kez, kaynağı oluşturduktan sonra veri akışı düzenleyicisi penceresinde öğesini seçin + ve kaynağınıza bir Filtre dönüştürmesi ekleyin.

    Veri akışına Filtre koşulunun nereye ekleneceğini gösteren ekran görüntüsü.

  15. Filtre ayarları penceresinde, yalnızca 1950, 1960 ve 1988 ile eşleşen film satırlarına izin veren bir Koşula filtre ekleyin.

    Veri kümesinin Year sütununa nereye filtre ekleneceğini gösteren ekran görüntüsü.

  16. Şimdi her 1988 filmi için derecelendirmeleri '1' olarak güncelleştirmek için Türetilmiş sütun dönüşümü ekleyin.

    Türetilmiş sütun için ifadenin girileceği yeri gösteren ekran görüntüsü.

  17. Update, insert, delete, and upsert ilkeler değişiklik Satırı dönüşümünde oluşturulur. Türetilmiş sütununuzdan sonra bir değişiklik satırı dönüştürmesi ekleyin.

  18. Satır değiştirme ilkeleriniz şöyle görünmelidir.

    Satırı değiştirme

  19. Artık her değişiklik satırı türü için uygun ilkeyi ayarladığınıza göre, havuz dönüşümünde uygun güncelleştirme kurallarının ayarlandığını denetleyin

    Havuz

  20. Burada Azure Data Lake Storage 2. Nesil veri gölünüzde Delta Lake havuzunu kullanıyoruz ve eklemelere, güncelleştirmelere, silmelere izin verdik.

  21. Anahtar sütunlarının Film birincil anahtar sütunundan ve yıl sütunundan oluşan bileşik bir anahtar olduğunu unutmayın. Bunun nedeni, 1960 satırlarını çoğaltarak sahte 2021 filmleri oluşturmamızdır. Bu, benzersizlik sağlayarak mevcut satırları ararken çakışmaları önler.

tamamlanan örneği indirme

Aşağıda delta işlem hattı için örnek bir çözüm ve göldeki satırları güncelleştirme/silme için veri akışı verilmiştir.

Veri akışı ifade dili hakkında daha fazla bilgi edinin.