Öğretici: Event Hubs verilerini parquet biçiminde yakalama ve Azure Synapse Analytics ile analiz etme

Bu öğreticide, Içinde Event Hubs verilerini parquet biçiminde Azure Data Lake Storage 2. Nesil yakalayan bir iş oluşturmak için Kod düzenleyicisi olmayan Stream Analytics'in nasıl kullanılacağı gösterilmektedir.

Bu öğreticide şunların nasıl yapıldığını öğreneceksiniz:

  • Olay hub'ına örnek olaylar gönderen bir olay oluşturucu dağıtma
  • Kod yok düzenleyicisini kullanarak Stream Analytics işi oluşturma
  • Giriş verilerini ve şemayı gözden geçirme
  • Olay hub'ı verilerinin yakalanacağı Azure Data Lake Storage 2. Nesil yapılandırma
  • Stream Analytics işini çalıştırma
  • Parquet dosyalarını sorgulamak için Azure Synapse Analytics'i kullanma

Önkoşullar

Başlamadan önce aşağıdaki adımları tamamladığınızdan emin olun:

Stream Analytics işi oluşturmak için kod düzenleyicisi kullanma

  1. TollApp olay oluşturucusunun dağıtıldığı Kaynak Grubunu bulun.

  2. Azure Event Hubs ad alanını seçin.

  3. Event Hubs Ad Alanı sayfasında, soldaki menüde Varlıklar'ın altında Event Hubs'ı seçin.

  4. Örnek seçin entrystream .

    Olay hub'ının seçimini gösteren ekran görüntüsü.

  5. Event Hubs örneği sayfasında, soldaki menünün Özellikler bölümünde verileri işle'yi seçin.

  6. Verileri Parquet biçiminde ADLS 2. Nesil'e yakala kutucuğunda Başlat'ı seçin.

    **Verileri AdLS 2. Nesil'e Parquet biçiminde yakala** kutucuğunun seçimini gösteren ekran görüntüsü.

  7. İşinizi parquetcapture adlandırıp Oluştur'u seçin.

    Yeni Stream Analytics iş sayfasının ekran görüntüsü.

  8. Olay hub'ı yapılandırma sayfasında aşağıdaki ayarları onaylayın ve bağlan'ı seçin.

    • Tüketici Grubu: Varsayılan

    • Giriş verilerinizin serileştirme türü: JSON

    • İşin olay hub'ınıza bağlanmak için kullanacağı kimlik doğrulama modu: Bağlantı dizesi.

      Olay hub'ınızın yapılandırma sayfasının ekran görüntüsü.

  9. Birkaç saniye içinde örnek giriş verilerini ve şemayı görürsünüz. Alanları bırakmayı, alanları yeniden adlandırmayı veya veri türünü değiştirmeyi seçebilirsiniz.

    Verilerin alanlarını ve önizlemesini gösteren ekran görüntüsü.

  10. Tuvalinizde Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve belirterek yapılandırın

    • Azure Data Lake 2. Nesil hesabınızın bulunduğu abonelik
    • Depolama hesabı adı; Önkoşullar bölümünde yapılan Azure Synapse Analytics çalışma alanınızda kullanılan ADLS 2. Nesil hesabıyla aynı olmalıdır.
    • Parquet dosyalarının oluşturulacağı kapsayıcı.
    • Yol deseni {date}/{time} olarak ayarlandı
    • Varsayılan yyyy-aa-gg ve SS olarak tarih ve saat deseni.
    • Bağlan'ı seçin

    Data Lake Storage yapılandırma ayarlarını gösteren ekran görüntüsü.

  11. İşinizi kaydetmek için üst şeritte Kaydet'i seçin ve ardından işinizi çalıştırmak için Başlat'ı seçin. İş başlatıldıktan sonra sağ köşedeki X işaretini seçerek Stream Analytics iş sayfasını kapatın.

    Stream Analytics İşini Başlat sayfasını gösteren ekran görüntüsü.

  12. Ardından kod düzenleyicisi olmadan oluşturulan tüm Stream Analytics işlerinin listesini görürsünüz. İki dakika içinde işiniz Çalışıyor durumuna geçer. Oluşturuldu - Başlatılıyor ->> Çalışıyor'dan durumun değiştiğini görmek için sayfadaki Yenile düğmesini seçin.

    Stream Analytics işlerinin listesini gösteren ekran görüntüsü.

Azure Data Lake Storage 2. Nesil hesabınızda çıkışı görüntüleme

  1. Önceki adımda kullandığınız Azure Data Lake Storage 2. Nesil hesabını bulun.

  2. Önceki adımda kullandığınız kapsayıcıyı seçin. Önceki adımda kullanılan {date}/{time} yol deseni temelinde oluşturulan parquet dosyalarını görürsünüz.

    Azure Data Lake Storage 2. Nesil'de yakalanan parquet dosyalarını gösteren ekran görüntüsü.

Yakalanan verileri Azure Synapse Analytics ile Parquet biçiminde sorgulama

Azure Synapse Spark kullanarak sorgulama

  1. Azure Synapse Analytics çalışma alanınızı bulun ve Synapse Studio açın.

  2. Henüz yoksa çalışma alanınızda sunucusuz bir Apache Spark havuzu oluşturun.

  3. Synapse Studio Geliştirme hub'ına gidin ve yeni bir Not Defteri oluşturun.

  4. Yeni bir kod hücresi oluşturun ve bu hücreye aşağıdaki kodu yapıştırın. container ve adlsname değerlerini önceki adımda kullanılan kapsayıcının adı ve ADLS 2. Nesil hesabıyla değiştirin.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Araç çubuğundaki Ekle için açılan listeden Spark havuzunuzu seçin.

  6. Sonuçları görmek için Tümünü Çalıştır'ı seçin

    Azure Synapse Analytics'teki spark çalıştırma sonuçlarının ekran görüntüsü.

Sunucusuz SQL kullanarak Azure Synapse sorgulama

  1. Geliştirme merkezinde yeni bir SQL betiği oluşturun.

    Yeni SQL betiği menüsünün seçili olduğu Geliştir sayfasını gösteren ekran görüntüsü.

  2. Aşağıdaki betiği yapıştırın ve Yerleşik sunucusuz SQL uç noktasını kullanarak çalıştırın. container ve adlsname değerlerini önceki adımda kullanılan kapsayıcının adı ve ADLS 2. Nesil hesabıyla değiştirin.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Azure Synapse Analytics'teki SQL betiği sonuçlarının ekran görüntüsü.

Kaynakları temizleme

  1. Event Hubs örneğinizi bulun ve İşlem Verileri bölümünde Stream Analytics işlerinin listesine bakın. Çalışan tüm işleri durdurun.
  2. TollApp olay oluşturucuyu dağıtırken kullandığınız kaynak grubuna gidin.
  3. Kaynak grubunu sil'i seçin. Silme işlemini onaylamak için kaynak grubunun adını yazın.

Sonraki adımlar

Bu öğreticide, Parquet biçiminde Event Hubs veri akışlarını yakalamak için kod düzenleyicisi olmadan Stream Analytics işi oluşturmayı öğrendiniz. Ardından hem Synapse Spark hem de Synapse SQL kullanarak parquet dosyalarını sorgulamak için Azure Synapse Analytics'i kullandınız.