Data Science Virtual Machine とは

完了

Data Science Virtual Machine (DSVM) は、Azure クラウド プラットフォーム上で実行されます。 DSVM イメージ

  • Windows Server 2019
  • Ubuntu Server 20.04 LTS

が利用可能です。 Azure 仮想マシンのさまざまなシリーズとサイズで DSVM を実行できます。 DSVM の一般的な選択肢は以下のとおりです。

一般的なシリーズ 使用事例
汎用 バランスのとれた CPU/メモリ比
メモリ最適化 E シリーズ メモリ内データ分析
N シリーズ GPU コンピューティング 機械学習の実験と推論

N シリーズの仮想マシンには、NVIDIA Tesla アクセラレータを使用するプラットフォームと NVIDIA GRID 2.0 テクノロジが搭載されています。 GPU アクセラレーションを使用できる DSVM のツールとライブラリは、適切なドライバーとライブラリ バージョンを使用して事前構成されています。

Data Science Virtual Machine のしくみ

オペレーティング システムとハードウェア プラットフォームを指定すると、Azure は仮想マシンと関連リソースを作成します。 関連リソースには、ストレージ アカウント、ネットワーク セキュリティ グループなどが含まれます。

仮想マシンを起動すると、Azure は指定されたハードウェアの種類にイメージを復元し、オペレーティング システムを起動します。 すると、このモジュールで示すように接続が可能となります。 接続した後は、他のマシンを使用するのと同じ方法でその仮想マシンを使用します。 作業が完了したら、オペレーティング システムの機能か Azure portal を使用してマシンをシャットダウンします。

コストと料金は、指定したハードウェアの種類 (コンピューティング能力、RAM、ストレージ) によって決まります。 仮想マシンが実行されている時間に対してのみ課金されます (30 秒単位)。

Data Science Virtual Machine を使用する条件

DSVM の目標は、データ サイエンスと機械学習用の、摩擦のない事前構成された環境を実現することです。 このエクスペリエンスは、あらゆるスキル レベルのデータの専門家が習熟して使用することができます。

同等のワークスペースを独自にロールアウトしなくても、DSVM を設定するだけで済みます。 この選択により、インストール、構成、パッケージ管理にかかる時間を、数日、あるいは "数週間" も節約できる可能性があります。 DSVM が割り当てられたら、直ちにデータ サイエンス プロジェクトに関する作業を開始できます。

サンプル ユース ケース

DSVM は、複数のユース ケースに適しています。

データ サイエンス ワークロードをクラウドに移行する

DSVM は、データ サイエンス チームのベースライン構成を提供します。 この構成により、チームのすべてのデータ サイエンティストが、実験を検証し、コラボレーションを促進するための一貫したセットアップを行うことができます。 また、システム管理者の負担の軽減を通したコストの削減にも繋がります。 これらの負担軽減により、高度な分析用のソフトウェア パッケージの評価、インストール、保守に必要な時間が短縮されます。

データ サイエンスのトレーニングと教育

データ サイエンスのクラスを教える企業のトレーナーや教育担当者は、通常、仮想マシン イメージを提供します。 そのイメージにより、受講者が一貫したセットアップを行い、サンプルが予想どおりに動作するようにすることができます。

DSVM は、サポートと非互換性の問題を軽減する一貫したセットアップでオンデマンドの環境を作成します。 このような環境を頻繁に構築する必要がある場合 (特に短期間のトレーニング クラスの場合)、非常にメリットがあります。

大規模なプロジェクトのためのオンデマンドで柔軟な容量

データ サイエンスのハッカソン/競技または大規模なデータ モデリングと探索では、通常は短期間での、スケールアウト ハードウェア容量が必要になります。 DSVM は、データ サイエンス環境を必要に応じて迅速にレプリケートすることに役立ちます。 これらのレプリケートされた環境はその後、各自のシナリオの要件に応じて高性能のコンピューティング リソース上で実行できます。

短期的な実験と評価

DSVM を使用して、新しいデータ サイエンス ツールの評価や学習を行うことができます。 DSVM には、サンプルとチュートリアルが事前インストールされています。

GPU を使用したディープ ラーニング

DSVM では、トレーニング モデルは GPU ベースのハードウェア上でディープ ラーニング アルゴリズムを使用できます。 DSVM は、Azure プラットフォームの VM スケーリング機能を活用して、ユーザーがクラウドで GPU ベースのハードウェアを使用することを支援します。

大規模モデルをトレーニングするときや、同じ OS ディスクを保持しつつ高速計算が必要なときに、GPU ベースの VM に切り替えることができます。 DSVM では、任意の N シリーズ GPU 対応仮想マシン SKU を選択できます。 Azure 無料アカウントでは、GPU 対応の仮想マシン SKU がサポートされません。

GPU アクセラレーションをサポートするツールとフレームワークに関しては、DSVM は適切なドライバー、GPU ツール、およびフレームワーク バージョンと構成で構成されます。 Python を使用する場合は、いくつかの構成済み conda 環境が利用可能で、混乱を避けることができます。 インスタンスに関しては、PyTorch と TensorFlow は別々の環境で動作します。

Ubuntu または Windows エディションの DSVM を、GPU ベースでない Azure 仮想マシンにデプロイすることもできます。 この場合、すべてのディープ ラーニング フレームワークが CPU モデルにフォール バックされます。

トレンドを予測するために銀行データを調査するというここでのシナリオは、次のユース ケースのいくつかと関係しています: コラボレーション、容量、探索。 CRAN-R や既存のデータ ディスクなどの使い慣れたツールを使用できるようになるため、あなたは、Ubuntu DSVM が適していると判断しました。 また、データを利用するまでのしばらくの間は、新しいテクノロジの学習に投資する必要がありません。