OneLake'i Azure Synapse Analytics ile tümleştirme

Azure Synapse, kurumsal veri depolama ve Büyük Veri analizlerini bir araya getiren sınırsız bir analiz hizmetidir. Bu öğreticide, Azure Synapse Analytics kullanarak OneLake'e nasıl bağlandığınız gösterilmektedir.

Apache Spark kullanarak Synapse'ten veri yazma

Azure Synapse Analytics'ten OneLake'e örnek veriler yazmak için Apache Spark'ı kullanmak için bu adımları izleyin.

  1. Synapse çalışma alanınızı açın ve tercih ettiğiniz parametrelerle bir Apache Spark havuzu oluşturun.

    Screenshot showing where to select New in the Apache Spark pool screen.

  2. Yeni bir Apache Spark not defteri oluşturun.

  3. Not defterini açın, dili PySpark (Python) olarak ayarlayın ve yeni oluşturduğunuz Spark havuzuna bağlayın.

  4. Ayrı bir sekmede Microsoft Fabric lakehouse'unuza gidin ve en üst düzey Tablolar klasörünü bulun.

  5. Tablolar klasörüne sağ tıklayın ve Özellikler'i seçin.

    Screenshot showing where to open the Properties pane lakehouse explorer.

  6. Özellikler bölmesinden ABFS yolunu kopyalayın.

    Screenshot showing where to copy the ABFS path.

  7. Azure Synapse not defterine geri dönüp ilk yeni kod hücresinde lakehouse yolunu sağlayın. Bu göl evi, verilerinizin daha sonra yazıldığı yerdir. Hücreyi çalıştırın.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. Yeni bir kod hücresinde, Azure açık veri kümesindeki verileri bir veri çerçevesine yükleyin. Bu veri kümesi, göl kutunuza yüklediğiniz veri kümesidir. Hücreyi çalıştırın.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. Yeni bir kod hücresinde verilerinizi filtreleyin, dönüştürün veya hazırlayın. Bu senaryoda daha hızlı yükleme yapmak, diğer veri kümeleriyle birleştirmek veya belirli sonuçlara göre filtreleme yapmak için veri kümenizi kırpabilirsiniz. Hücreyi çalıştırın.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. Yeni bir kod hücresinde, OneLake yolunuzu kullanarak filtrelenmiş veri çerçevenizi Fabric lakehouse'unuzda yeni bir Delta-Parquet tablosuna yazın. Hücreyi çalıştırın.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Son olarak, yeni bir kod hücresinde, OneLake'den yeni yüklenen dosyanızı okuyarak verilerinizin başarıyla yazıldığını test edin. Hücreyi çalıştırın.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Tebrikler. Artık Azure Synapse Analytics'te Apache Spark kullanarak OneLake'te veri okuyabilir ve yazabilirsiniz.

SQL kullanarak Synapse'ten veri okuma

Azure Synapse Analytics'ten OneLake'ten veri okumak için SQL sunucusuz kullanmak için bu adımları izleyin.

  1. Bir Fabric lakehouse açın ve Synapse'ten sorgulamak istediğiniz tabloyu belirleyin.

  2. Tabloya sağ tıklayın ve Özellikler'i seçin.

  3. Tablonun ABFS yolunu kopyalayın.

    Screenshot showing where to copy the ABFS path.

  4. Synapse çalışma alanınızı Synapse Studio'da açın.

  5. Yeni bir SQL betiği oluşturun.

  6. SQL sorgu düzenleyicisinde aşağıdaki sorguyu girin ve yerine ABFS_PATH_HERE daha önce kopyaladığınız yolu girin.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Tablonuzun ilk 10 satırını görüntülemek için sorguyu çalıştırın.

Tebrikler. Artık Azure Synapse Analytics'te SQL sunucusuz kullanarak OneLake'ten veri okuyabilirsiniz.