Eşleme veri akışlarını kullanarak delta lake'te verileri dönüştürme
UYGULANANLAR: Azure Data Factory Azure Synapse Analytics
İpucu
Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!
Azure Data Factory kullanmaya yeni başlıyorsanız bkz. Azure Data Factory'ye giriş.
Bu öğreticide, Veri akışı tuvalini kullanarak Azure Data Lake Storage (ADLS) 2. Nesil'de verileri analiz edip dönüştürmenize ve Delta Lake'te depolamanıza olanak sağlayan veri akışları oluşturursunuz.
Önkoşullar
- Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
- Azure depolama hesabı. ADLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.
Bu öğreticide dönüştürdüğümiz dosya MoviesDB.csv ve burada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz . Azure portalı ile blobları karşıya yükleme. Örnekler, 'sample-data' adlı bir kapsayıcıya başvuruyor.
Veri fabrikası oluşturma
Bu adımda bir veri fabrikası oluşturacak ve Data Factory UX'yi açarak veri fabrikasında işlem hattı oluşturacaksınız.
Microsoft Edge veya Google Chrome'u açın. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.
Sol menüde Kaynak>oluştur Integration>Data Factory'yi seçin
Yeni veri fabrikası sayfasındaki Ad alanına ADFTutorialDataFactory girin
Veri fabrikasını oluşturmak istediğiniz Azure aboneliğinizi seçin.
Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:
a. Var olanı kullan’ı seçin ve ardından açılır listeden var olan bir kaynak grubu belirleyin.
b. Yeni oluştur’u seçin ve bir kaynak grubunun adını girin.
Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.
Sürüm bölümünde V2'yi seçin.
Konum bölümünden veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve SQL Veritabanı) ve işlem (örneğin, Azure HDInsight) diğer bölgelerde olabilir.
Oluştur'u belirleyin.
Oluşturma işlemi tamamlandıktan sonra Bildirim merkezi'nde bildirimi görürsünüz. Data factory sayfasına gitmek için Kaynağa git'i seçin.
Data Factory Kullanıcı Arabirimini (UI) ayrı bir sekmede başlatmak için Geliştir ve İzle’yi seçin.
Veri akışı etkinliğiyle işlem hattı oluşturma
Bu adımda, veri akışı etkinliği içeren bir işlem hattı oluşturursunuz.
Giriş sayfasında Düzenle'yi seçin.
İşlem hattının Genel sekmesinde, işlem hattının Adı için DeltaLake girin.
Etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu genişletin. bölmeden Veri Akışı etkinliğini sürükleyip işlem hattı tuvaline bırakın.
Ekleme Veri Akışı açılır penceresinde Yeni Veri Akışı oluştur'u seçin ve veri akışınıza DeltaLake adını verin. İşiniz bittiğinde Son'u seçin.
İşlem hattı tuvalinin üst çubuğunda hata ayıklama kaydırıcısını Veri Akışı kaydırın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz . Hata Ayıklama Modu.
Veri akışı tuvalinde dönüştürme mantığı oluşturma
Bu öğreticide iki veri akışı oluşturacaksınız. İlk veri akışı, filmler CSV dosyasından yeni bir Delta Lake oluşturmak için havuza alınan basit bir kaynaktır. Son olarak, Delta Lake'teki verileri güncelleştirmek için aşağıdaki akış tasarımını oluşturursunuz.
Öğretici hedefleri
- Önkoşullardan MoviesCSV veri kümesi kaynağını kullanın ve bu kaynaktan yeni bir Delta Lake oluşturabilirsiniz.
- 1988 filmlerinin derecelendirmelerini '1' olarak güncelleştirecek mantığı oluşturun.
- 1950'den tüm filmleri silin.
- 1960'tan itibaren filmleri çoğaltarak 2021 için yeni filmler ekleyin.
Boş bir veri akışı tuvalinden başlama
Veri akışı düzenleyicisi penceresinin üst kısmındaki kaynak dönüştürmeyi seçin ve ardından Kaynak ayarları penceresindeki Veri kümesi özelliğinin yanındaki + Yeni'yi seçin:
Görüntülenen Yeni veri kümesi penceresinden Azure Data Lake Storage 2. Nesil seçin ve ardından Devam'ı seçin.
Veri kümesi türü için Sınırlanmış Metin'i seçin ve yeniden Devam'ı seçin.
Veri kümesini "MoviesCSV" olarak adlandırın ve dosyaya yeni bir bağlı hizmet oluşturmak için Bağlı hizmet'in altında + Yeni'yi seçin.
Daha önce Önkoşullar bölümünde oluşturduğunuz depolama hesabınızın ayrıntılarını sağlayın ve buraya yüklediğiniz MoviesCSV dosyasına göz atın ve dosyayı seçin.
Bağlı hizmetinizi ekledikten sonra İlk satır üst bilgi onay kutusunu seçin ve ardından tamam'ı seçerek kaynağı ekleyin.
Veri akışı ayarları penceresinin Projeksiyon sekmesine gidin ve veri türlerini algıla'yı seçin.
Şimdi veri akışı düzenleyicisi penceresinde Kaynak'ı seçin + ve aşağı kaydırarak Hedef bölümünün altındaki Havuz'a gidin ve veri akışınıza yeni bir havuz ekleyin.
Havuz eklendikten sonra görünen havuz ayarlarının Havuz sekmesinde, Havuz türü için Satır içi'ni ve satır içi veri kümesi türü için Delta'yı seçin. Ardından Bağlı hizmet için Azure Data Lake Storage 2. Nesil seçin.
Depolama kapsayıcınızda hizmetin Delta Lake'i oluşturmasını istediğiniz bir klasör adı seçin.
Son olarak, işlem hattı tasarımcısına geri dönün ve işlem hattını tuvalde yalnızca bu veri akışı etkinliğiyle hata ayıklama modunda yürütmek için Hata Ayıkla'yı seçin. Bu, yeni Delta Lake'inizi Azure Data Lake Storage 2. Nesil oluşturur.
Şimdi ekranın sol tarafındaki Fabrika Kaynakları menüsünden yeni bir kaynak eklemek için öğesini + ve ardından Veri akışı'nı seçin.
Daha önce olduğu gibi, MoviesCSV dosyasını kaynak olarak yeniden seçin ve ardından Projeksiyon sekmesinden Veri türlerini algıla'yı yeniden seçin.
Bu kez, kaynağı oluşturduktan sonra veri akışı düzenleyicisi penceresinde öğesini seçin + ve kaynağınıza bir Filtre dönüştürmesi ekleyin.
Filtre ayarları penceresinde, yalnızca 1950, 1960 ve 1988 ile eşleşen film satırlarına izin veren bir Koşula filtre ekleyin.
Şimdi her 1988 filmi için derecelendirmeleri '1' olarak güncelleştirmek için Türetilmiş sütun dönüşümü ekleyin.
Update, insert, delete, and upsert
ilkeler değişiklik Satırı dönüşümünde oluşturulur. Türetilmiş sütununuzdan sonra bir değişiklik satırı dönüştürmesi ekleyin.Satır değiştirme ilkeleriniz şöyle görünmelidir.
Artık her değişiklik satırı türü için uygun ilkeyi ayarladığınıza göre, havuz dönüşümünde uygun güncelleştirme kurallarının ayarlandığını denetleyin
Burada Azure Data Lake Storage 2. Nesil veri gölünüzde Delta Lake havuzunu kullanıyoruz ve eklemelere, güncelleştirmelere, silmelere izin verdik.
Anahtar sütunlarının Film birincil anahtar sütunundan ve yıl sütunundan oluşan bileşik bir anahtar olduğunu unutmayın. Bunun nedeni, 1960 satırlarını çoğaltarak sahte 2021 filmleri oluşturmamızdır. Bu, benzersizlik sağlayarak mevcut satırları ararken çakışmaları önler.
tamamlanan örneği indirme
Aşağıda delta işlem hattı için örnek bir çözüm ve göldeki satırları güncelleştirme/silme için veri akışı verilmiştir.
İlgili içerik
Veri akışı ifade dili hakkında daha fazla bilgi edinin.