Modül 2: Data Factory'de veri akışıyla verileri dönüştürme

Bu modülün veri akışı oluşturması, dönüştürmeleri uygulaması ve Bronz tablosundaki ham verileri Gold Lakehouse tablosuna taşıması yaklaşık 25 dakika sürer.

Son modülden Bronze Lakehouse tablonuza yüklenen ham veriler sayesinde artık bu verileri hazırlayabilir ve her satıcı ve belirli bir gün içindeki seyahatleri için indirimler içeren başka bir tabloyla birleştirerek zenginleştirebilirsiniz. Bu son Gold Lakehouse tablosu yüklendi ve tüketime hazır.

Veri akışındaki üst düzey adımlar aşağıdaki gibidir:

  • 1. Modül: Data Factory ile işlem hattı oluşturma bölümünde Kopyalama etkinliği tarafından oluşturulan Lakehouse tablosundan ham verileri alın.
  • Lakehouse tablosundan içeri aktarılan verileri dönüştürün.
  • İndirim verilerini içeren bir CSV dosyasına Bağlan.
  • İndirim verilerini dönüştürme.
  • Seyahatler ve indirim verilerini birleştirin.
  • Çıktı sorgusunu Gold Lakehouse tablosuna yükleyin.

Lakehouse tablosundan veri alma

  1. Kenar çubuğunda Oluştur'u ve ardından Veri Akışı 2. Nesil'i seçerek yeni bir veri akışı 2. nesil oluşturun. Screenshot showing the Fabric Create page with the Dataflow Gen2 button highlighted.

  2. Yeni veri akışı menüsünden Veri al'ı ve ardından Diğer... öğesini seçin.

    Screenshot showing the Dataflow menu with Get data button highlighted and the More... option highlighted from its menu.

  3. Lakehouse bağlayıcısını arayın ve seçin.

    Screenshot showing the selection of the Lakehouse data source from the Choose data source menu.

  4. Veri kaynağına Bağlan iletişim kutusu görüntülenir ve oturum açmış olan kullanıcıya bağlı olarak sizin için otomatik olarak yeni bir bağlantı oluşturulur. İleri'yi seçin.

    Screenshot showing the configuration of the data source settings for your new Lakehouse with your current signed in user, and the Next button selected.

  5. Veri seç iletişim kutusu görüntülenir. Önceki modülde hedef için oluşturduğunuz Lakehouse'u bulmak için gezinti bölmesini kullanın ve Tutorial_Lakehouse veri tablosunu seçin.

    Screenshot showing the Lakehouse browser with the workspace, lakehouse, and table created with the Copy activity in module 1.

  6. (İsteğe bağlı) Tuvaliniz verilerle doldurulduktan sonra, bu veri profili oluşturma için yararlı olduğundan sütun profili bilgilerini ayarlayabilirsiniz. Doğru dönüştürmeyi uygulayabilir ve buna göre doğru veri değerlerini hedefleyebilirsiniz.

    Bunu yapmak için şerit bölmesinde Seçenekler'i seçin, sonra Sütun profili'nin altındaki ilk üç seçeneği belirleyin ve ardından Tamam'ı seçin.

    Screenshot showing the column options selection for your data.

Lakehouse'dan içeri aktarılan verileri dönüştürme

  1. İkinci sütunun (IpepPickupDatetime) sütun başlığındaki veri türü simgesini seçerek açılan menüyü görüntüleyin ve sütunu Tarih/Saat türünden Tarih türüne dönüştürmek için menüden veri türünü seçin. Screenshot showing the selection of the Date data type for the IpepPickupDatetime column.

  2. (İsteğe bağlı) Şeridin Giriş sekmesinde Sütunları yönet grubunda Sütunları seç seçeneğini belirleyin.

    Screenshot showing the Choose columns button on the Home tab of the dataflow editor.

  3. (İsteğe bağlı) Sütunları seç iletişim kutusunda, burada listelenen bazı sütunların seçimini kaldırın ve ardından Tamam'ı seçin.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Screenshot showing the Choose columns dialog with the identified columns deselected.

  4. storeAndFwdFlag sütununun filtre ve sıralama açılan menüsünü seçin. (Bir uyarı görürsenizListe eksik olabilir, tüm verileri görmek için Daha fazla yükle'yi seçin.)

    Screenshot showing the filter and sort dialog for the column.

  5. Yalnızca indirimin uygulandığı satırları göstermek için 'Y' seçeneğini belirleyin ve ardından Tamam'ı seçin.

    Screenshot showing the values filter with only 'Y' selected.

  6. IpepPickupDatetime sütun sıralama ve filtre açılan menüsünü seçin, ardından Tarih filtreleri'ni seçin ve Tarih ve Tarih/Saat türleri için sağlanan Arasında... filtresini seçin.

    Screenshot showing the selection of the Date filters option in the column sort and format dropdown.

  7. Satırları filtrele iletişim kutusunda 1 Ocak 2015 ile 31 Ocak 2015 arasındaki tarihleri seçin ve ardından Tamam'ı seçin.

    Screenshot showing the selection of the dates in January 2015.

İndirim verileri içeren bir CSV dosyasına Bağlan

Şimdi, yolculuklardaki veriler hazır olduğunda, her gün ve VendorID için ilgili indirimleri içeren verileri yüklemek ve verileri seyahat verileriyle birleştirmeden önce hazırlamak istiyoruz.

  1. Veri akışı düzenleyicisi menüsündeki Giriş sekmesinden Veri al seçeneğini ve ardından Metin/CSV'yi seçin.

    Screenshot showing the selection of the Get data menu from the Home tab, with Text/CSV highlighted.

  2. Veri kaynağına Bağlan iletişim kutusunda aşağıdaki ayrıntıları sağlayın:

    • Dosya yolu veya URL - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Kimlik doğrulama türü - Anonim

    Sonra İleri'yi seçin.

    Screenshot showing the Text/CSV settings for the connection.

  3. Dosya verilerini önizleme iletişim kutusunda Oluştur'u seçin.

    Screenshot showing the Preview file data dialog with the Create button highlighted.

İndirim verilerini dönüştürme

  1. Verileri gözden geçirirken üst bilgilerin ilk satırda olduğunu görüyoruz. İlk satırı üst bilgi olarak kullan'ı seçmek için önizleme kılavuzu alanının sol üst kısmındaki tablonun bağlam menüsünü seçerek bunları üst bilgi düzeyine yükseltin.

    Screenshot showing the selection of the Use first row as headers option from the table context menu.

    Not

    Üst bilgileri tanıttıktan sonra, veri akışı düzenleyicisinin üst kısmındaki Uygulanan adımlar bölmesine sütunlarınızın veri türlerine yeni bir adım eklendiğini görebilirsiniz.

  2. VendorID sütununa sağ tıklayın ve görüntülenen bağlam menüsünden Diğer sütunları özetle seçeneğini belirleyin. Bu, sütunları, sütunların satır haline geldiği öznitelik-değer çiftlerine dönüştürmenizi sağlar.

    Screenshot showing the context menu for the VendorID column with the Unpivot other columns selection highlighted.

  3. Tablo özetlenmemiş durumdaysa, Öznitelik ve Değer sütunlarını çift tıklayıp Öznitelik'i Tarih ve Değer'i İndirim olarak değiştirerek yeniden adlandırın.

    Screenshot showing the table columns after renaming Attribute to Date and Value to Discount.

  4. Sütun adının sol kısmındaki veri türü menüsünü seçip Tarih'i seçerek Date sütununun veri türünü değiştirin.

    Screenshot showing the selection of the Date data type for the Date column.

  5. İndirim sütununu ve ardından menüden Dönüştür sekmesini seçin. Sayı sütunu'nu seçin ve ardından alt menüden Standart sayısal dönüşümler'i ve ardından Böl'e tıklayın.

    Screenshot showing the selection of the Divide option to transform data in the Discount column.

  6. Böl iletişim kutusunda 100 değerini girin.

    Screenshot showing the Divide dialog with the value 100 entered and the OK button highlighted.

Seyahatler ve indirim verilerini birleştirme

Sonraki adım, her iki tabloyu da seyahate uygulanması gereken indirimi ve ayarlanmış toplamı içeren tek bir tabloda birleştirmektir.

  1. İlk olarak, her iki sorgunuzu da görebilmek için Diyagram görünümü düğmesini değiştirin.

    Screenshot showing the Diagram view toggle button with both queries created in this tutorial displayed.

  2. nyc_taxi sorgusunu seçin ve Giriş sekmesinde Birleştir menüsünü seçin ve Sorguları birleştir'i ve ardından Sorguları yeni olarak birleştir'i seçin.

    Screenshot showing the Merge queries as new selection for the nyc_taxi query.

  3. Birleştir iletişim kutusunda, Sağ taraftaki birleştirme açılan tablosundan Generated-NYC-Taxi-Green-Discounts öğesini seçin ve ardından iki tablo arasındaki sütunların önerilen eşlemesini görmek için iletişim kutusunun sağ üst kısmındaki "ampul" simgesini seçin.

    Screenshot showing the configuration of the Merge dialog with suggested column mappings displayed.

    Her iki tablodaki VendorID ve tarih sütunlarını eşleyip önerilen iki sütun eşlemesinin her birini tek tek seçin. Her iki eşleme de eklendiğinde, eşleşen sütun başlıkları her tabloda vurgulanır.

  4. Sonuçları görüntülemek için birden çok veri kaynağındaki verilerin birleştirilmesine izin vermenizi isteyen bir ileti gösterilir. Birleştir iletişim kutusunda Tamam'ı seçin.

    Screenshot showing the request to approve combining data from multiple data sources, with the OK button highlighted.

  5. Tablo alanında başlangıçta şu uyarıyı görürsünüz: "Birden çok kaynaktaki verilerin birleştirilmesi bir kaynaktan diğerine veri gösterebileceğinden değerlendirme iptal edildi. Verileri gösterme olasılığı uygunsa Devam'ı seçin." Birleştirilmiş verileri görüntülemek için Devam'ı seçin.

    Screenshot showing the warning about combining data from multiple data sources with the Continue button highlighted.

  6. Yeni Birleştirme sorgusunun daha önce oluşturduğunuz iki sorguyla ilişkisini gösteren Diyagram görünümünde yeni bir sorgunun nasıl oluşturulduğuna dikkat edin. Düzenleyicinin tablo bölmesine baktığımızda, tablo değerlerini içeren yeni bir sütunun mevcut olduğunu görmek için Sorgu sütununu birleştir listesinin sağında kaydırın. Bu , "Oluşturulan NYC Taxi-Green-Discounts" sütunudur ve türü [Table] şeklindedir. Sütun üst bilgisinde, iki oku ters yönde gösteren ve tablodan sütun seçmenize olanak sağlayan bir simge bulunur. İndirim dışındaki tüm sütunların seçimini kaldırın ve ardından Tamam'ı seçin.

    Screenshot showing the merged query with the column selection menu displayed for the newly generated column Generated-NYC-Taxi-Green-Discounts.

  7. Şimdi satır düzeyindeki indirim değeriyle, indirimden sonraki toplam tutarı hesaplamak için yeni bir sütun oluşturabiliriz. Bunu yapmak için düzenleyicinin üst kısmındaki Sütun ekle sekmesini seçin ve Genel grubundan Özel sütun'u seçin.

    Screenshot showing the Add custom column button highlighted on the General section of the Add column tab.

  8. Özel sütun iletişim kutusunda, yeni sütununuzun nasıl hesaplanması gerektiğini tanımlamak için Power Query formül dilini (M olarak da bilinir) kullanabilirsiniz. Yeni sütun adı için TotalAfterDiscount girin, Veri türü için Para Birimi'ni seçin ve Özel sütun formülü için aşağıdaki M ifadesini sağlayın:

    if [totalAmount] > 0 then [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    Ardından Tamam'ı seçin.

    Screenshot showing the Custom column configuration screen with the New column name, Data type and Custom column formula highlighted.

  9. Yeni totalAfterDiscount sütununu ve ardından düzenleyici penceresinin üst kısmındaki Dönüştür sekmesini seçin. Sayı sütunu grubunda Yuvarlama açılan listesini ve ardından Yuvarla...'yi seçin.

    Screenshot showing the Round... option on the Transform tab of the editor window.

  10. Yuvarla iletişim kutusunda ondalık basamak sayısı için 2 girin ve Tamam'ı seçin.

    Screenshot showing the Round dialog with 2 for the number of decimal places and the OK button highlighted.

  11. IpepPickupDatetime veri türünü Tarih/Saat olarak değiştirin.

    Screenshot showing the selection of the Date/Time data type for the IpepPickupDatetime column.

  12. Son olarak, henüz genişletildiyse düzenleyicinin sağ tarafındaki Sorgu ayarları bölmesini genişletin ve sorguyu Birleştir'den Çıkış'a yeniden adlandırın.

    Screenshot showing the renaming of the query from Merge to Output.

Çıkış sorgusunu Lakehouse'daki bir tabloya yükleme

Çıkış sorgusu artık tamamen hazır ve çıktıya hazır verilerle sorgunun çıkış hedefini tanımlayabiliriz.

  1. Daha önce oluşturulan Çıktı birleştirme sorgusunu seçin. Ardından düzenleyicide Giriş sekmesini ve Sorgu gruplandırma bölümünden Veri hedefi ekle'yi seçerek Lakehouse hedefini seçin.

    Screenshot showing the Add data destination button with Lakehouse highlighted.

  2. Veri hedefine Bağlan iletişim kutusunda bağlantınız zaten seçili olmalıdır. Devam etmek için İleri'yi seçin.

  3. Hedef hedef seç iletişim kutusunda, verileri yüklemek istediğiniz Lakehouse'a gidin ve yeni tabloyu nyc_taxi_with_discounts adlandırın, sonra yeniden İleri'yi seçin.

    Screenshot showing the Choose destination target dialog with Table name nyc_taxi_with_discounts.

  4. Hedef ayarlarını seçin iletişim kutusunda varsayılan Güncelleştirme yöntemini değiştir'i bırakın, sütunlarınızın doğru eşlenip eşlenmediğini bir kez daha denetleyin ve Ayarları kaydet'i seçin.

    Screenshot showing the Choose destination settings dialog with the Save settings button highlighted.

  5. Ana düzenleyici penceresine dönün, Çıkış tablosunun Sorgu ayarları bölmesinde çıkış hedefinizi gördüğünüzden emin olun ve yayımla'yı seçin.

    Önemli

    Çalışma alanında ilk Veri Akışı 2. Nesil oluşturulduğunda Lakehouse ve Warehouse öğeleri, ilgili SQL analiz uç noktası ve anlam modelleri ile birlikte sağlanır. Bu öğeler çalışma alanında tüm veri akışları tarafından paylaşılır ve Veri Akışı 2. Nesil'in çalışması için gereklidir, silinmemelidir ve kullanıcılar tarafından doğrudan kullanılması amaçlanmamıştır. Öğeler, Veri Akışı 2. Nesil'in uygulama ayrıntılarıdır. Öğeler çalışma alanında görünmez, ancak Not Defteri, SQL uç noktası, Lakehouse ve Warehouse deneyimleri gibi diğer deneyimlerde erişilebilir olabilir. Öğeleri adlarındaki ön eklerine göre tanıyabilirsiniz. Öğelerin ön eki 'DataflowsStaging' şeklindedir.

  6. (İsteğe bağlı) Çalışma alanı sayfasında, satırı seçtikten sonra görüntülenen veri akışı adının sağındaki üç noktayı seçip Özellikler'i seçerek veri akışınızı yeniden adlandırabilirsiniz.

    Screenshot showing the Properties option selected on the menu for a dataflow where it can be renamed.

  7. Veri akışının satırını seçtikten sonra yenile simgesini seçin ve tamamlandığında Yeni Lakehouse tablonuzun Veri hedefi ayarlarında yapılandırıldığı şekilde oluşturulduğunu görmeniz gerekir.

    Screenshot showing the selection of the refresh button to refresh the dataflow.

  8. Orada yüklenen yeni tabloyu görüntülemek için Lakehouse'unuzu denetleyin.

Microsoft Fabric'te Data Factory kullanarak ilk veri tümleştirmenize yönelik uçtan uca öğreticimizin bu ikinci modülünde şunları yapmayı öğrendiniz:

  • Yeni bir Veri Akışı 2. Nesil oluşturun.
  • Örnek verileri içeri aktarma ve dönüştürme.
  • Metin/CSV verilerini içeri aktarma ve dönüştürme.
  • Her iki veri kaynağındaki verileri yeni bir sorguyla birleştirin.
  • Verileri dönüştürün ve sorguda yeni sütunlar oluşturun.
  • Sorgu için çıkış hedef kaynağını yapılandırın.
  • Yeni veri akışınızı yeniden adlandırın ve yenileyin.

Veri işlem hattınızı tümleştirmek için sonraki bölüme geçin.