Data Science Virtual Machine の概要

2 分

Data Science Virtual Machine (DSVM) は、データサイエンス専用に構築されたカスタマイズ済みの仮想マシン (VM) イメージです。 DSVM は Azure クラウドプラットフォーム上で実行されます。多くのよく使われるデータサイエンスツールが事前にインストールおよび構成されており、高度な分析のためのインテリジェントなアプリケーションの構築をすぐに始めることができます。

データを扱っているなら、データラングリングには時間がかかることをご存知でしょう。データの変換には、さまざまなタスクごとに異なるツールが必要です。データの操作では、CPU/GPU が大量のストレージと RAM を必要とするという課題が生じ、レプリケートが困難になります。データとツールの共有が困難になり、脆弱なデータ転送や "スニーカーネット" を通したドライブの共有が発生する可能性があります。

目的:

好きなオペレーティングシステムで作業する。
使い慣れたツールで作業する。
強力なマシンで作業する。
仕事仲間と簡単に作業を共有する。

お客様は、独自のマシンを購入または構築して、好きなように構成することができます。事前コストを負担する用意があり、マシンに頻繁に負荷がかかる可能性があることを理解している場合は、マシンの購入が最適な選択であるかもしれません。その場合でも、自分自身や同僚のためのマシンへの安全なリモートアクセスの確保が課題になる可能性があります。少なくとも、それは継続的な管理タスクになります。

DSVM では、マシンの実行時に支払いをするだけで済みます。マシンのシャットダウンを忘れる心配がある場合は、好きな時刻に毎日のシャットダウンをスケジュール設定することができます。マシンのコマンドラインインターフェイスに接続するか、グラフィカルデスクトップを使用することができます。

Jupyter ノートブックが実行されている Data Science Virtual Machine のデスクトップのスクリーンショット。

DSVM には、事前にインストールと構成が完了している多数のアプリケーション、プログラミングツール、ライブラリが含まれています。 GPU コンピューティングリソースを搭載したハードウェア上で DSVM を実行することを選択した場合は、これらのツールが GPU を利用します。 Python、R、Julia、Node、および .NET 開発者のために、DSVM にはインストール済みの基本言語が用意されています。また、一般的なパッケージ、開発環境、Jupyter カーネルも用意されています。

この演習では、あなたは銀行アナリストであり、投資のトレンドを予測するために、何らかの統計分析を行う必要があるとしましょう。あなたは、この分析から何が得られるかをまだ知りませんが、シグナルを抽出して、大きな影響を与える可能性のあるモデルを開発できるようになりたいと考えています。

このようなプロセスの早い段階では、どのツールやアプローチが重要になるのかがはっきりとはわかりません。しかし、データ量は非常に大きいため、ローカルでデータを扱いながら、同僚と作業内容を共有することは困難です。

学習の目的

このモジュールでは、次のことを行います。

DSVM 用に使用可能なオペレーティングシステムとハードウェアリソースを照合する
Ubuntu Server 20.04 LTS を実行する DSVM を指定および作成する
SSH を使用して DSVM のコマンドラインに接続する
X2Go クライアントを使用して DSVM のグラフィカルデスクトップに接続する
DSVM 内で実行されている Python conda 環境の使用方法を示す
カスタム Python 環境を一覧表示し、その 1 つをアクティブにして、Jupyter Notebook サーバーを実行する

前提条件

仮想マシンの基本的な理解

続行

学習の目的

前提条件

フィードバック