Depolama hesabındaki verileri analiz etme

Bu öğreticide, depolama hesabında bulunan verileri analiz etmeyi öğreneceksiniz.

Genel bakış

Şu ana kadar verilerin çalışma alanında bulunan veritabanlarında bulunduğu senaryoları ele aldık. Şimdi depolama hesaplarındaki dosyalarla nasıl çalışabileceğinizi göstereceğiz. Bu senaryoda, çalışma alanını oluştururken belirttiğimiz çalışma alanının ve kapsayıcının birincil depolama hesabını kullanacağız.

  • Depolama hesabının adı: contosolake
  • Depolama hesabındaki kapsayıcının adı: kullanıcılar

Depolama hesabınızda CSV ve Parquet dosyaları oluşturma

Aşağıdaki kodu not defterinde yeni bir kod hücresinde çalıştırın. Depolama hesabında bir CSV dosyası ve bir parquet dosyası oluşturur.

İpucu

Bu tablo hızlı başlangıçta daha önce oluşturulmuştur ve adımları burada bulabilirsiniz.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Depolama hesabındaki verileri analiz etme

Çalışma alanınızın varsayılan Azure Data Lake Storage (ADLS) 2. Nesil hesabındaki verileri analiz edebilir veya "Yönet" "Bağlı Hizmetler" > "Yeni" > aracılığıyla bir ADLS 2. Nesil veya Blob depolama hesabını çalışma alanınıza bağlayabilirsiniz (sonraki adımlar birincil ADLS 2. Nesil hesabına başvurur).

  1. Synapse Studio'da Veri hub'ına gidin ve Bağlı'yı seçin.

  2. Azure Data Lake Storage 2. Nesil> yworkspace (Birincil - contosolake) bölümüne gidin.

  3. Kullanıcıları (Birincil) seçin. NYCTaxi klasörünü görmeniz gerekir. İçinde PassengerCountStats_csvformat ve PassengerCountStats_parquetformat adlı iki klasör görmeniz gerekir.

  4. PassengerCountStats_parquetformat klasörünü açın. İçinde gibi part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquetbir ada sahip bir parquet dosyası vardır.

  5. .parquet öğesine sağ tıklayın, Yeni not defteri'ni ve ardından DataFrame'e Yükle'yi seçin. Aşağıdaki gibi bir hücreyle yeni bir not defteri oluşturulur:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Spark1 adlı Spark havuzuna ekleyin. Hücreyi çalıştırın. Çekirdek eksikliğiyle ilgili bir hatayla karşılaşırsanız, başka bir oturum bu spark havuzunu bu spark havuzunu kullanıyor olabilir. Tüm mevcut oturumları iptal edin ve yeniden deneyin.

  7. Kullanıcılar klasörüne geri dön'e tıklayın. .parquet dosyasına yeniden sağ tıklayın ve ardından Yeni SQL betiği>SELECT TOP 100 satır'ı seçin. Aşağıdaki gibi bir SQL betiği oluşturur:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    Betik penceresinde Bağlan alanının Yerleşik sunucusuz SQL havuzuna ayarlandığından emin olun.

  8. Betiği çalıştırın.

Sonraki adımlar