Data Science Virtual Machine を作成する

完了

Learn サンドボックスをアクティブにする

このモジュールの [サンドボックスのアクティブ化] ボタンを使用して、Learn サンドボックスをアクティブにします。 アクティブにすると、1 つのプロジェクト ドメインに関連するリソースのコンテナーである Azure リソース グループが作成されます。 このリソース グループは 1 時間使用することができます。 このリソース グループを使用して Data Science Virtual Machine を作成し、それに接続して、プログラムを実行します。

Data Science Virtual Machine を作成する

Azure Data Science Virtual Machine (DSVM) を使用して専門分野の調査をすると決めたら、オペレーティング システムとして Windows Server 2019 または Ubuntu Server 20.04 LTS のどちらを使用するか決める必要があります。 DSVM に必要なハードウェアおよびネットワークのリソースも計画する必要があります。

オペレーティング システムの選択肢

次の 2 つの DSVM イメージがあります。

  • Windows Server 2019
  • Ubuntu Server 20.04 LTS

どちらのイメージにも、データ サイエンスとディープ ラーニング用のさまざまなツールが含まれています。 Python プログラマーは、Visual Studio Code または PyCharm を使用して、PyTorch、TensorFlow、ONNX でプログラミングすることができます。 R ユーザーは CRAN-R を使用することができます。 C#、TypeScript、F# のユーザーは Visual Studio Code を使用できます。 Windows イメージ上では、Visual Studio を使用して ML.NET でプログラミングし、SQL Server を使用してそのデータを格納および取得することができます。

Jupyter は、複数言語のカーネルで両方のマシンにインストールされます。 Ubuntu イメージ上では、マルチユーザー アクセスを提供するために JupyterHub がインストールされています。

プロセッサ、RAM、ディスクの選択肢

Azure 仮想マシンには、次の種類でグループ化されたさまざまなサイズが用意されています。

Type 特性
汎用 バランスのとれた CPU 対メモリ比。
GPU 1 つまたは複数の GPU。 統計的機械学習トレーニングと推論に最適です。
メモリ最適化 高いメモリ対 CPU 比。 インメモリ分析に適しています。
ストレージ最適化 ディスクと I/O の高スループット。 ビッグ データに適しています。
ハイパフォーマンス コンピューティング 強力な CPU を搭載したマシン。 GPU がサポートされていないツールに適しています。
コンピューティング最適化 高い CPU 対メモリ比。 データ サイエンスには適していない場合があります。 GPU またはハイパフォーマンス コンピューティングをお勧めします。

使用可能な GPU 処理を活用するように、DSVM ではドライバー、ライブラリのバージョン、構成で事前構成されています。

1 つの種類内で、マシンは通常、文字ベースのシリーズに関連付けられています。 たとえば、GPU のサイズは通常 "N" で始まります。NC6、NC12s v3、NC24、NV12 などです。

DSVM を作成する前に、ストレージに関する戦略を決めておく必要があります。 OS は、Premium SSD、Standard SSD、または Standard HDD にインストールできます。 さらに、1 つ以上のデータ ディスクを作成またはアタッチすることができます。 ここでも、ハードドライブのテクノロジを選択することで、SSD の高速性とギガバイトあたりのコストをトレード オフすることができます。

要件の変化に応じて、DSVM をサイズ変更することができます。 たとえば、データの取得と理解を主眼とする場合は、汎用またはメモリ最適化サイズを選択することができます。 モデリングがボトルネックになる場合は、GPU オファリングにサイズ変更することができます。