SQL Server ビッグデータクラスターに対する Spark Machine Learning の概要

[アーティクル]
03/21/2023

適用対象: SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 ビッグデータクラスターのアドオンは廃止されます。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日に終了します。ソフトウェアアシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグデータオプション」を参照してください。

この記事では、SQL Server ビッグデータクラスターでの機械学習に Spark を効果的に使用する方法について説明します。

SQL Server ビッグデータクラスターでの Spark Machine Learning

SQL Server ビッグデータクラスターでは、次のようなさまざまなテクノロジスタックを使用して機械学習のシナリオとソリューションを実現します: SQL Server Machine Learning Services や Apache Spark ML。

各テクノロジスタックを使用するタイミングをしっかりと理解するには、「SQL Server ビッグデータクラスター用の機械学習ガイド」を参照してください。このガイドでは、Apache Spark ML について説明します。

ビッグデータベースの機械学習シナリオの場合、ビッグデータホスティングおよび Apache Spark ML の機能に対して HDFS を使用することが、コスト効率が高く、スケーラブルで強力なアプローチになります。しかし、これは Spark Machine Learning で達成できることを網羅した可能性リストとはかけ離れています。機能の完全なリストについては、Spark MLlib に関するページを参照してください。

次のセクションでは、SQL Server ビッグデータクラスターで Spark を使用する場合の、キュレーションされたシナリオとリファレンスの一覧を提供します。

SQL Server ビッグデータクラスターに対する Spark Machine Learning の構成要素

Learn	内容	Link
Apache Spark 向け SQL Server ビッグデータクラスターランタイム	これにより、各リリースに含まれるものが示されます	Apache Spark 向け SQL Server ビッグデータクラスターランタイムに関するガイド
記憶域プール	HDFS と Spark を一緒に格納して使用することで、機械学習用のデータのロックを解除する方法	SQL Server ビッグデータクラスターにおける記憶域プールとは
ノートブックベースのエクスペリエンスと選択したツールを使用する	選択したツールを使用して Spark Livy エンドポイントに接続します	SQL Server ビッグデータクラスター上の Azure Data Studio で Spark ジョブを送信する SQL Server ビッグデータクラスター上の Visual Studio Code で Spark ジョブを送信する SQL Server のビッグデータクラスターで sparklyr を使用する
追加のパッケージをインストールする方法	パッケージが標準で提供されていない場合は、それをインストールします	Spark ライブラリ管理
トラブルシューティング方法	問題が発生した場合	`pyspark` ノートブックのトラブルシューティング SQL Server ビッグデータクラスター上の Spark History Server の Spark アプリケーションのデバッグと診断
機械学習バッチジョブを送信する方法	コマンドラインを使用して ML トレーニングとバッチスコアリングを実行します	コマンドラインツールを使用して Spark ジョブを送信する
SQL Server と Spark の間でデータをすばやく移動する方法	Spark ML シナリオ用に SQL Server のソース、宛先を作成します。 HDFS の使用は必須ではありません	SQL Server と Azure SQL 用の Apache Spark コネクタを使用する
Spark モデルの運用化	トレーニング後、MLeap を使用して運用化します	SQL Server ビッグデータクラスターで Spark の機械学習モデルを作成、エクスポート、およびスコア付けする
データラングリング	Spark の強力なデータラングリング機能と共に、PROSE をご提供します	PROSE コードアクセラレータを使用したデータラングリング

次のステップ

詳細については、「SQL Server ビッグデータクラスターの概要」を参照してください。

次の方法で共有

SQL Server ビッグデータクラスターに対する Spark Machine Learning の概要

SQL Server ビッグデータクラスターでの Spark Machine Learning

SQL Server ビッグデータクラスターに対する Spark Machine Learning の構成要素

次のステップ

フィードバック

その他のリソース

次の方法で共有

SQL Server ビッグ データ クラスターに対する Spark Machine Learning の概要

SQL Server ビッグ データ クラスターでの Spark Machine Learning

SQL Server ビッグ データ クラスターに対する Spark Machine Learning の構成要素

次のステップ

フィードバック

その他のリソース

SQL Server ビッグデータクラスターに対する Spark Machine Learning の概要

SQL Server ビッグデータクラスターでの Spark Machine Learning

SQL Server ビッグデータクラスターに対する Spark Machine Learning の構成要素