Hızlı Başlangıç: Eşleme veri akışlarını kullanarak verileri dönüştürme
Bu hızlı başlangıçta Azure Synapse Analytics'i kullanarak eşleme veri akışını kullanarak verileri Azure Data Lake Storage 2. Nesil (ADLS 2. Nesil) kaynağından ADLS 2. Nesil havuzuna dönüştüren bir işlem hattı oluşturacaksınız. Bu hızlı başlangıçtaki yapılandırma deseni, eşleme veri akışı kullanılarak veriler dönüştürülürken genişletilebilir
Bu hızlı başlangıçta aşağıdaki adımları gerçekleştirin:
- Azure Synapse Analytics'te Veri Akışı etkinliğiyle işlem hattı oluşturun.
- Dört dönüştürme ile bir eşleme veri akışı oluşturun.
- İşlem hattında test çalıştırması yapma.
- Veri Akışı etkinliğini izleme
Önkoşullar
Azure aboneliği: Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
Azure Synapse çalışma alanı: Hızlı Başlangıç: Synapse çalışma alanı oluşturma bölümündeki yönergeleri izleyerek Azure portal kullanarak bir Synapse çalışma alanı oluşturun.
Azure depolama hesabı: ADLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.
Bu öğreticide dönüştürdüğümuz dosya MoviesDB.csv , burada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz. blobları Azure portal ile karşıya yükleme. Örnekler , 'sample-data' adlı bir kapsayıcıya başvuruda bulunacaktır.
Synapse Studio gidin
Azure Synapse çalışma alanınız oluşturulduktan sonra Synapse Studio açmanın iki yolu vardır:
- synapse çalışma alanınızı Azure portal açın. Başlarken'in altındaki Aç Synapse Studio kartında Aç'ı seçin.
- Azure Synapse Analytics'i açın ve çalışma alanınızda oturum açın.
Bu hızlı başlangıçta örnek olarak "adftest2020" adlı çalışma alanını kullanacağız. Otomatik olarak Synapse Studio giriş sayfasına gidersiniz.
Veri Akışı etkinliğiyle işlem hattı oluşturma
İşlem hattı, bir etkinlik kümesinin yürütülmesi için mantıksal akışı içerir. Bu bölümde, Veri Akışı etkinliği içeren bir işlem hattı oluşturacaksınız.
Tümleştir sekmesine gidin. İşlem hatları üst bilgisinin yanındaki artı simgesini ve ardından İşlem Hattı'nı seçin.
İşlem hattının Özellikler ayarları sayfasında, Ad için TransformMovies girin.
Etkinliklerbölmesindeki Taşı ve Dönüştür altında Veri akışı'nı işlem hattı tuvaline sürükleyin.
Veri akışı ekleme sayfasında Yeni veri akışı oluştur ->Veri akışı'nı seçin. İşiniz bittiğinde Tamam'a tıklayın.
Özellikler sayfasında veri akışınızı TransformMovies olarak adlandırın.
Veri akışı tuvalinde dönüştürme mantığı oluşturma
Veri Akışı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda, ADLS depolama alanında MoviesDB.csv alan ve 1910 ile 2000 arasında ortalama komedi derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı ADLS depolama alanına geri yazacaksınız.
Veri akışı tuvalinin üzerinde Veri akışı hata ayıklama kaydırıcısını açık konuma getirin. Hata ayıklama modu, dinamik Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerinin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz. Hata Ayıklama Modu.
Veri akışı tuvalinde , Kaynak Ekle kutusuna tıklayarak bir kaynak ekleyin.
Kaynağınıza MoviesDB adını verin. Yeni kaynak veri kümesi oluşturmak için Yeni'ye tıklayın.
Azure Data Lake Storage 2. Nesil'ı seçin. Devam'a tıklayın.
Sınırlandırılmış Metin'i seçin. Devam'a tıklayın.
Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.
Bağlı hizmet oluşturma ekranında ADLS 2. Nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu hızlı başlangıçta, depolama hesabımıza bağlanmak için Hesap anahtarını kullanıyoruz. Kimlik bilgilerinizin doğru girildiğini doğrulamak için Bağlantıyı sına'ya tıklayabilirsiniz. Bitirdiğinizde Oluştur'a tıklayın.
Veri kümesi oluşturma ekranına döndüğünüzde , Dosya yolu alanının altında dosyanızın bulunduğu yeri girin. Bu hızlı başlangıçta, "MoviesDB.csv" dosyası "sample-data" kapsayıcısında bulunur. Dosyada üst bilgiler olduğundan İlk satır üst bilgi olarak seçeneğini işaretleyin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. İşiniz bittiğinde Tamam'a tıklayın.
Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'ye tıklayın. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.
Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesine tıklayarak yeni bir dönüşüm ekleyin. Eklediğiniz ilk dönüştürme bir Filtre'dir.
Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusuna tıklayın. Burada filtreleme koşulunuzu belirteceksiniz.
Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz. Veri Akışı ifade oluşturucusu.
Bu hızlı başlangıçta, 1910 ve 2000 yılları arasında çıkan tür komedi filmlerini filtrelemek istiyorsunuz. Year şu anda bir dize olduğundan, işlevini kullanarak bir tamsayıya
toInteger()
dönüştürmeniz gerekir. 1910 ve 200-değişmez yıl değerleriyle karşılaştırmak için büyüktür veya eşittir (>=) ve küçük veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri (ve) işleciyle birleştirin&&
. İfade şu şekilde ortaya çıkar:toInteger(year) >= 1910 && toInteger(year) <= 2000
Hangi filmlerin
rlike()
komedi olduğunu bulmak için işlevini kullanarak sütun türlerinde 'Comedy' desenini bulabilirsiniz. İfadeyirlike
elde etmek için yıl karşılaştırmasıyla ilişkilendirin:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'ye tıklayarak mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğiniz konusunda birden fazla doğru yanıt vardır.
İfadenizle işiniz bittiğinde Kaydet ve Son'a tıklayın.
Filtrenin düzgün çalıştığını doğrulamak için Bir Veri Önizlemesi getirin.
Ekleyeceğiniz bir sonraki dönüştürme, Şema değiştiricisi altında bir Toplama dönüştürmesi olacaktır.
Toplama dönüştürmenize AggregateComedyRatings adını verin. Gruplandırma ölçütü sekmesinde, toplamaları filmin çıktığı yıla göre gruplandırmak için açılan listeden yılı seçin.
Toplamlar sekmesine gidin. Sol metin kutusunda toplama sütununu AverageComedyRating olarak adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için sağ ifade kutusuna tıklayın.
Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanın
avg()
. Derecelendirme bir dize olduğundan veavg()
sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıyatoInteger()
dönüştürmemiz gerekir. Bu ifade şöyle görünür:avg(toInteger(Rating))
İşiniz bittiğinde Kaydet ve Son'a tıklayın.
Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. Yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.
Ardından, Hedef'in altına bir Havuz dönüşümü eklemek istiyorsunuz.
Havuza Havuz adını verin. Havuz veri kümenizi oluşturmak için Yeni'ye tıklayın.
Azure Data Lake Storage 2. Nesil'ı seçin. Devam'a tıklayın.
Sınırlandırılmış Metin'i seçin. Devam'a tıklayın.
Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için 7. adımda oluşturduğunuz ADLS 2. Nesil bağlı hizmetini seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu hızlı başlangıçta, 'sample-data' kapsayıcısında 'output' klasörüne yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satırı üst bilgi olarak true olarak ayarlayın ve İçeri Aktarma şeması için Yok'a tıklayın. İşiniz bittiğinde Tamam'a tıklayın.
Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.
Veri Akışı çalıştırma ve izleme
Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetikleyeceksiniz. Veri önizlemesi veri yazmasa da hata ayıklama çalıştırması havuz hedefinize veri yazar.
İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.
Veri Akışı etkinliklerinin işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır, ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra gözlük simgesine tıklayarak izleme bölmesini açın.
İzleme bölmesinde, her dönüştürme adımında harcanan satır sayısını ve zamanı görebilirsiniz.
Verilerin sütunları ve bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürmeye tıklayın.
Bu hızlı başlangıcı doğru şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verileri doğrulayabilirsiniz.
Sonraki adımlar
Azure Synapse Analytics desteği hakkında bilgi edinmek için aşağıdaki makalelere ilerleyin: