チュートリアル: glm を使用してデータを分析する

[アーティクル]
07/05/2024

Azure Databricks で一般化線形モデル (GLM) を使用して線形回帰とロジスティック回帰を実行する方法について説明します。 glm は、R の glm() と同様に、一般化された線形モデルに適合します。

構文: glm(formula, data, family...)

パラメーター:

formula: たとえば ResponseVariable ~ Predictor1 + Predictor2 に適合するモデルのシンボリック記述。サポートされている演算子は ~、+、-、. です。
data: 任意の SparkDataFrame
family: String、線形回帰の場合は "gaussian"、ロジスティック回帰の場合は "binomial"
lambda: Numeric、正則化パラメーター
alpha: Numeric、Elastic Net 混合パラメーター

Output: MLlib PipelineModel

このチュートリアルでは、ダイヤモンドデータセットで線形およびロジスティック回帰を実行する方法について説明します。

ダイヤモンドデータを読み込んでトレーニングセットとテストセットに分割する

require(SparkR)

# Read diamonds.csv dataset as SparkDataFrame
diamonds <- read.df("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv",
                  source = "com.databricks.spark.csv", header="true", inferSchema = "true")
diamonds <- withColumnRenamed(diamonds, "", "rowID")

# Split data into Training set and Test set
trainingData <- sample(diamonds, FALSE, 0.7)
testData <- except(diamonds, trainingData)

# Exclude rowIDs
trainingData <- trainingData[, -1]
testData <- testData[, -1]

print(count(diamonds))
print(count(trainingData))
print(count(testData))

head(trainingData)

`glm()` を使用した線形回帰モデルのトレーニング

このセクションでは、トレーニングデータを使用して線形回帰モデルをトレーニングすることによって、特徴からダイヤモンドの価格を予測する方法について説明します。

カテゴリの特徴 (カット - 理想的、プレミアム、とても良い...) と継続的な特徴 (深さ、カラット) が混在しています。これらの特徴は SparkR によって自動的にエンコードされるため、手動でエンコードする必要はありません。

# Family = "gaussian" to train a linear regression model
lrModel <- glm(price ~ ., data = trainingData, family = "gaussian")

# Print a summary of the trained model
summary(lrModel)

テストデータに対して predict() を使用して、新しいデータでモデルがどの程度適切に動作するかを確認します。

構文: predict(model, newData)

パラメーター:

model: MLlib モデル
newData: SparkDataFrame、通常はテストセット

出力: SparkDataFrame

# Generate predictions using the trained model
predictions <- predict(lrModel, newData = testData)

# View predictions against mpg column
display(select(predictions, "price", "prediction"))

モデルを評価します。

errors <- select(predictions, predictions$price, predictions$prediction, alias(predictions$price - predictions$prediction, "error"))
display(errors)

# Calculate RMSE
head(select(errors, alias(sqrt(sum(errors$error^2 , na.rm = TRUE) / nrow(errors)), "RMSE")))

`glm()` を使用したロジスティック回帰モデルのトレーニング

このセクションでは、同じデータセットにロジスティック回帰を作成し、その特徴の一部に基づいて、ダイヤモンドのカットを予測する方法について説明します。

MLlib のロジスティック回帰では、二項分類がサポートされます。この例のアルゴリズムをテストするには、2 つのラベルを使用するようにデータをサブセットします。

# Subset data to include rows where diamond cut = "Premium" or diamond cut = "Very Good"
trainingDataSub <- subset(trainingData, trainingData$cut %in% c("Premium", "Very Good"))
testDataSub <- subset(testData, testData$cut %in% c("Premium", "Very Good"))

# Family = "binomial" to train a logistic regression model
logrModel <- glm(cut ~ price + color + clarity + depth, data = trainingDataSub, family = "binomial")

# Print summary of the trained model
summary(logrModel)

# Generate predictions using the trained model
predictionsLogR <- predict(logrModel, newData = testDataSub)

# View predictions against label column
display(select(predictionsLogR, "label", "prediction"))

モデルを評価します。

errorsLogR <- select(predictionsLogR, predictionsLogR$label, predictionsLogR$prediction, alias(abs(predictionsLogR$label - predictionsLogR$prediction), "error"))
display(errorsLogR)

次の方法で共有

チュートリアル: glm を使用してデータを分析する

ダイヤモンドデータを読み込んでトレーニングセットとテストセットに分割する

`glm()` を使用した線形回帰モデルのトレーニング

`glm()` を使用したロジスティック回帰モデルのトレーニング

フィードバック

その他のリソース

次の方法で共有

チュートリアル: glm を使用してデータを分析する

ダイヤモンド データを読み込んでトレーニング セットとテスト セットに分割する

glm() を使用した線形回帰モデルのトレーニング

glm() を使用したロジスティック回帰モデルのトレーニング

フィードバック

その他のリソース

ダイヤモンドデータを読み込んでトレーニングセットとテストセットに分割する

`glm()` を使用した線形回帰モデルのトレーニング

`glm()` を使用したロジスティック回帰モデルのトレーニング