Hızlı Başlangıç: Eşleme veri akışlarını kullanarak verileri dönüştürme

Bu hızlı başlangıçta Azure Synapse Analytics'i kullanarak eşleme veri akışını kullanarak verileri Azure Data Lake Storage 2. Nesil (ADLS 2. Nesil) kaynağından ADLS 2. Nesil havuzuna dönüştüren bir işlem hattı oluşturacaksınız. Bu hızlı başlangıçtaki yapılandırma deseni, eşleme veri akışı kullanılarak veriler dönüştürülürken genişletilebilir

Bu hızlı başlangıçta aşağıdaki adımları gerçekleştirin:

  • Azure Synapse Analytics'te Veri Akışı etkinliğiyle işlem hattı oluşturun.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattında test çalıştırması yapma.
  • Veri Akışı etkinliğini izleme

Önkoşullar

  • Azure aboneliği: Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.

  • Azure Synapse çalışma alanı: Hızlı Başlangıç: Synapse çalışma alanı oluşturma bölümündeki yönergeleri izleyerek Azure portal kullanarak bir Synapse çalışma alanı oluşturun.

  • Azure depolama hesabı: ADLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.

    Bu öğreticide dönüştürdüğümuz dosya MoviesDB.csv , burada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz. blobları Azure portal ile karşıya yükleme. Örnekler , 'sample-data' adlı bir kapsayıcıya başvuruda bulunacaktır.

Azure Synapse çalışma alanınız oluşturulduktan sonra Synapse Studio açmanın iki yolu vardır:

  • synapse çalışma alanınızı Azure portal açın. Başlarken'in altındaki Aç Synapse Studio kartında Aç'ı seçin.
  • Azure Synapse Analytics'i açın ve çalışma alanınızda oturum açın.

Bu hızlı başlangıçta örnek olarak "adftest2020" adlı çalışma alanını kullanacağız. Otomatik olarak Synapse Studio giriş sayfasına gidersiniz.

giriş sayfasını Synapse Studio

Veri Akışı etkinliğiyle işlem hattı oluşturma

İşlem hattı, bir etkinlik kümesinin yürütülmesi için mantıksal akışı içerir. Bu bölümde, Veri Akışı etkinliği içeren bir işlem hattı oluşturacaksınız.

  1. Tümleştir sekmesine gidin. İşlem hatları üst bilgisinin yanındaki artı simgesini ve ardından İşlem Hattı'nı seçin.

    Yeni işlem hattı oluşturma

  2. İşlem hattının Özellikler ayarları sayfasında, Ad için TransformMovies girin.

  3. Etkinliklerbölmesindeki Taşı ve Dönüştür altında Veri akışı'nı işlem hattı tuvaline sürükleyin.

  4. Veri akışı ekleme sayfasında Yeni veri akışı oluştur ->Veri akışı'nı seçin. İşiniz bittiğinde Tamam'a tıklayın.

    Veri akışı oluşturma

  5. Özellikler sayfasında veri akışınızı TransformMovies olarak adlandırın.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Veri Akışı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda, ADLS depolama alanında MoviesDB.csv alan ve 1910 ile 2000 arasında ortalama komedi derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı ADLS depolama alanına geri yazacaksınız.

  1. Veri akışı tuvalinin üzerinde Veri akışı hata ayıklama kaydırıcısını açık konuma getirin. Hata ayıklama modu, dinamik Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerinin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz. Hata Ayıklama Modu.

    Hata ayıklamayı şu şekilde kaydırın:

  2. Veri akışı tuvalinde , Kaynak Ekle kutusuna tıklayarak bir kaynak ekleyin.

  3. Kaynağınıza MoviesDB adını verin. Yeni kaynak veri kümesi oluşturmak için Yeni'ye tıklayın.

    Yeni kaynak veri kümesi oluşturma

  4. Azure Data Lake Storage 2. Nesil'ı seçin. Devam'a tıklayın.

    Azure Data Lake Storage 2. Nesil seçin

  5. Sınırlandırılmış Metin'i seçin. Devam'a tıklayın.

  6. Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.

  7. Bağlı hizmet oluşturma ekranında ADLS 2. Nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu hızlı başlangıçta, depolama hesabımıza bağlanmak için Hesap anahtarını kullanıyoruz. Kimlik bilgilerinizin doğru girildiğini doğrulamak için Bağlantıyı sına'ya tıklayabilirsiniz. Bitirdiğinizde Oluştur'a tıklayın.

    Kaynak bağlı hizmet oluşturma

  8. Veri kümesi oluşturma ekranına döndüğünüzde , Dosya yolu alanının altında dosyanızın bulunduğu yeri girin. Bu hızlı başlangıçta, "MoviesDB.csv" dosyası "sample-data" kapsayıcısında bulunur. Dosyada üst bilgiler olduğundan İlk satır üst bilgi olarak seçeneğini işaretleyin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. İşiniz bittiğinde Tamam'a tıklayın.

    Kaynak veri kümesi ayarları

  9. Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'ye tıklayın. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.

    Veri önizlemesi

  10. Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesine tıklayarak yeni bir dönüşüm ekleyin. Eklediğiniz ilk dönüştürme bir Filtre'dir.

    Filtre ekleme

  11. Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusuna tıklayın. Burada filtreleme koşulunuzu belirteceksiniz.

  12. Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz. Veri Akışı ifade oluşturucusu.

    Bu hızlı başlangıçta, 1910 ve 2000 yılları arasında çıkan tür komedi filmlerini filtrelemek istiyorsunuz. Year şu anda bir dize olduğundan, işlevini kullanarak bir tamsayıya toInteger() dönüştürmeniz gerekir. 1910 ve 200-değişmez yıl değerleriyle karşılaştırmak için büyüktür veya eşittir (>=) ve küçük veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri (ve) işleciyle birleştirin && . İfade şu şekilde ortaya çıkar:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Hangi filmlerin rlike() komedi olduğunu bulmak için işlevini kullanarak sütun türlerinde 'Comedy' desenini bulabilirsiniz. İfadeyi rlike elde etmek için yıl karşılaştırmasıyla ilişkilendirin:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Filtreleme koşulunu belirtme

    Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'ye tıklayarak mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğiniz konusunda birden fazla doğru yanıt vardır.

    İfadenizle işiniz bittiğinde Kaydet ve Son'a tıklayın.

  13. Filtrenin düzgün çalıştığını doğrulamak için Bir Veri Önizlemesi getirin.

  14. Ekleyeceğiniz bir sonraki dönüştürme, Şema değiştiricisi altında bir Toplama dönüştürmesi olacaktır.

    Toplama Ekleme

  15. Toplama dönüştürmenize AggregateComedyRatings adını verin. Gruplandırma ölçütü sekmesinde, toplamaları filmin çıktığı yıla göre gruplandırmak için açılan listeden yılı seçin.

    Toplama ayarları 1

  16. Toplamlar sekmesine gidin. Sol metin kutusunda toplama sütununu AverageComedyRating olarak adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için sağ ifade kutusuna tıklayın.

    Toplama ayarları 2

  17. Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanınavg(). Derecelendirme bir dize olduğundan ve avg() sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıya toInteger() dönüştürmemiz gerekir. Bu ifade şöyle görünür:

    avg(toInteger(Rating))

    İşiniz bittiğinde Kaydet ve Son'a tıklayın.

    Ortalama komedi derecelendirmesi

  18. Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. Yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.

    Toplama Veri Önizlemesi

  19. Ardından, Hedef'in altına bir Havuz dönüşümü eklemek istiyorsunuz.

    Havuz Ekle

  20. Havuza Havuz adını verin. Havuz veri kümenizi oluşturmak için Yeni'ye tıklayın.

  21. Azure Data Lake Storage 2. Nesil'ı seçin. Devam'a tıklayın.

  22. Sınırlandırılmış Metin'i seçin. Devam'a tıklayın.

  23. Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için 7. adımda oluşturduğunuz ADLS 2. Nesil bağlı hizmetini seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu hızlı başlangıçta, 'sample-data' kapsayıcısında 'output' klasörüne yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satırı üst bilgi olarak true olarak ayarlayın ve İçeri Aktarma şeması için Yok'a tıklayın. İşiniz bittiğinde Tamam'a tıklayın.

    Havuz veri kümesi özellikleri

Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.

Veri Akışı çalıştırma ve izleme

Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetikleyeceksiniz. Veri önizlemesi veri yazmasa da hata ayıklama çalıştırması havuz hedefinize veri yazar.

  1. İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.

    İşlem hattında hata ayıklama

  2. Veri Akışı etkinliklerinin işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır, ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra gözlük simgesine tıklayarak izleme bölmesini açın.

    Hata ayıklama çıkışı

  3. İzleme bölmesinde, her dönüştürme adımında harcanan satır sayısını ve zamanı görebilirsiniz.

    Dönüştürme izleme

  4. Verilerin sütunları ve bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürmeye tıklayın.

    Dönüştürme ayrıntıları

Bu hızlı başlangıcı doğru şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verileri doğrulayabilirsiniz.

Sonraki adımlar

Azure Synapse Analytics desteği hakkında bilgi edinmek için aşağıdaki makalelere ilerleyin: