Azure Databricks 上的 PySpark

發行項
06/25/2024

Azure Databricks 建置在 Apache Spark 之上，這是巨量數據和機器學習的整合分析引擎。 PySpark 可協助您使用 Python 程式設計語言與 Apache Spark 進行介面，這是一種容易學習、實作和維護的彈性語言。它也提供 Databricks 中數據視覺效果的許多選項。 PySpark 結合了 Python 和 Apache Spark 的強大功能。

本文提供 Databricks 上 PySpark 基本概念的概觀。

Spark 概念簡介

請務必先瞭解重要的 Apache Spark 概念，再深入探索使用 PySpark。

DataFrames

DataFrame 是 Apache Spark 中的主要物件。 DataFrame 是組織成具名數據行的數據集。您可以將 DataFrame 想像成電子表格或 SQL 數據表、一系列記錄的二維標籤數據結構（類似於資料表中的數據列），以及不同類型的數據行。 DataFrame 提供一組豐富的函式（例如，選取數據行、篩選、聯結和匯總），可讓您有效率地執行一般數據操作和分析工作。

一些重要的 DataFrame 元素包括：

架構：架構會定義 DataFrame 的數據行名稱和類型。數據格式對於架構定義和強制執行有不同的語意。某些數據源會提供架構資訊，而其他數據源則依賴手動架構定義或允許架構推斷。用戶可以手動定義架構，也可以從數據源讀取架構。
數據列：Spark 以物件表示 DataFrame Row 中的記錄。雖然 Delta Lake 等基礎數據格式會使用數據行來儲存數據，以優化 Spark 快取，並使用數據列來隨機顯示數據。
數據行：Spark 中的數據行類似於電子錶格中的數據行，而且可以代表簡單的類型，例如字串或整數，但也代表數位、對應或 Null 等複雜類型。您可以撰寫查詢，以選取、操作或移除數據源中的數據行。可能的數據源包括數據表、檢視、檔案或其他DataFrame。數據行永遠不會從數據集或 DataFrame 中移除，它們只會透過 .drop 語句中的 select 轉換或遺漏，從結果中省略。

資料處理

Apache Spark 會使用延遲評估來處理使用 DataFrame 定義的轉換和動作。這些概念對於瞭解使用Spark的數據處理至關重要。

轉換：在Spark中，您會將處理邏輯表示為轉換，這些是使用DataFrame載入和操作資料的指示。常見的轉換包括讀取數據、聯結、匯總和型別轉換。如需 Azure Databricks 中轉換的相關信息，請參閱轉換數據。

延遲評估：Spark 會識別最有效率的實體計劃來評估轉換所指定的邏輯，藉此優化數據處理。不過，在呼叫動作之前，Spark 不會對轉換採取行動。 Spark 不會以指定的確切順序評估每個轉換，而是等到動作觸發所有轉換的計算為止。這稱為延遲評估或延遲載入，這可讓您鏈結多個作業，因為Spark會以延後的方式處理其執行，而不是在定義它們時立即執行它們。

注意

延遲評估表示 DataFrame 會將邏輯查詢儲存為針對數據源的一組指示，而不是記憶體內部結果。這與急切執行大不相同，這是 pandas DataFrames 所使用的模型。

動作：動作會指示Spark從一或多個DataFrame上的一系列轉換計算結果。動作作業會傳回值，而且可以是下列任一項：

在主控台或編輯器中輸出資料的動作，例如 display 或 show
收集資料的動作（傳 Row 回物件），例如 take(n)、和 first 或 head
寫入數據源的動作，例如 saveAsTable
觸發計算的匯總，例如 count

重要

在生產數據管線中，寫入數據通常是唯一應該存在的動作。所有其他動作都會中斷查詢優化，並可能導致瓶頸。

數據框架不可變是什麼意思？

DataFrame 是針對一或多個數據源定義的轉換和動作集合，但最終 Apache Spark 會將查詢解析回原始數據源，因此數據本身不會變更，而且不會變更任何 DataFrame。換句話說，DataFrame 是不可變的。因此，在執行轉換之後，傳回新的 DataFrame，必須儲存至變數，才能在後續作業中存取它。如果您想要評估轉換的中繼步驟，請呼叫動作。

API 和連結庫

與 Spark 的所有 API 一樣，PySpark 隨附許多可啟用和支援強大功能的 API 和連結庫，包括：

使用 Spark SQL 和 DataFrame 處理具有 關係型查詢的結構化數據。 Spark SQL 可讓您混合 SQL 查詢與 Spark 程式。使用 Spark DataFrame，您可以使用 Python 和 SQL 有效率地讀取、寫入、轉換和分析數據，這表示您一律會利用 Spark 的完整功能。請參閱 PySpark 用戶入門。
使用 結構化串流進行可調整的數據流處理。您可以以對靜態數據表示批次計算的方式表示串流計算，而Spark SQL引擎會以累加方式執行串流計算，並在串流數據繼續送達時持續執行。請參閱結構化串流概觀。
Pandas 數據結構和數據分析工具，可在 Spark 上使用 Pandas API 在 Apache Spark 上運作。 Spark 上的 Pandas API 可讓您將 Pandas 工作負載調整為任何大小，方法是將其分散到多個節點，以及搭配使用 pandas 的單一程式代碼基底（測試、較小的數據集）和 Spark（生產、分散式數據集）。請參閱 Spark 上的 Pandas API 概觀。
具有 機器學習（MLLib） 的機器學習演算法。 MLlib 是以 Spark 為基礎的可調整機器學習連結庫，可提供一組統一的 API，可協助使用者建立和調整實用的機器學習管線。請參閱機器學習連結庫概觀。
使用 GraphX 的圖形和圖形平行計算。 GraphX 引進新的有向多圖形，並附加至每個頂點和邊緣的屬性，並公開圖形計算運算符、演算法和產生器，以簡化圖形分析工作。請參閱 GraphX 概觀。

Spark 教學課程

如需 Databricks 上的 PySpark 使用範例，請參閱下列文章：

Apache Spark 檔也有學習 Spark 的快速入門和指南，包括下列各項：

PySpark 參考

Azure Databricks 會維護自己的 PySpark API 版本和對應的參考，您可以在下列各節中找到：

共用方式為