Data Science Virtual Machine の概要

完了

Data Science Virtual Machine (DSVM) は、データ サイエンス専用に構築されたカスタマイズ済みの仮想マシン (VM) イメージです。 DSVM は Azure クラウド プラットフォーム上で実行されます。 多くのよく使われるデータ サイエンス ツールが事前にインストールおよび構成されており、高度な分析のためのインテリジェントなアプリケーションの構築をすぐに始めることができます。

データを扱っているなら、データ ラングリングには時間がかかることをご存知でしょう。 データの変換には、さまざまなタスクごとに異なるツールが必要です。 データの操作では、CPU/GPU が大量のストレージと RAM を必要とするという課題が生じ、レプリケートが困難になります。 データとツールの共有が困難になり、脆弱なデータ転送や "スニーカーネット" を通したドライブの共有が発生する可能性があります。

目的:

  • 好きなオペレーティング システムで作業する。
  • 使い慣れたツールで作業する。
  • 強力なマシンで作業する。
  • 仕事仲間と簡単に作業を共有する。

お客様は、独自のマシンを購入または構築して、好きなように構成することができます。 事前コストを負担する用意があり、マシンに頻繁に負荷がかかる可能性があることを理解している場合は、マシンの購入が最適な選択であるかもしれません。 その場合でも、自分自身や同僚のためのマシンへの安全なリモート アクセスの確保が課題になる可能性があります。 少なくとも、それは継続的な管理タスクになります。

DSVM では、マシンの実行時に支払いをするだけで済みます。 マシンのシャットダウンを忘れる心配がある場合は、好きな時刻に毎日のシャットダウンをスケジュール設定することができます。 マシンのコマンド ライン インターフェイスに接続するか、グラフィカル デスクトップを使用することができます。

Jupyter ノートブックが実行されている Data Science Virtual Machine のデスクトップのスクリーンショット。

DSVM には、事前にインストールと構成が完了している多数のアプリケーション、プログラミング ツール、ライブラリが含まれています。 GPU コンピューティング リソースを搭載したハードウェア上で DSVM を実行することを選択した場合は、これらのツールが GPU を利用します。 Python、R、Julia、Node、および .NET 開発者のために、DSVM にはインストール済みの基本言語が用意されています。 また、一般的なパッケージ、開発環境、Jupyter カーネルも用意されています。

この演習では、あなたは銀行アナリストであり、投資のトレンドを予測するために、何らかの統計分析を行う必要があるとしましょう。 あなたは、この分析から何が得られるかをまだ知りませんが、シグナルを抽出して、大きな影響を与える可能性のあるモデルを開発できるようになりたいと考えています。

このようなプロセスの早い段階では、どのツールやアプローチが重要になるのかがはっきりとはわかりません。 しかし、データ量は非常に大きいため、ローカルでデータを扱いながら、同僚と作業内容を共有することは困難です。

学習の目的

このモジュールでは、次のことを行います。

  • DSVM 用に使用可能なオペレーティング システムとハードウェア リソースを照合する
  • Ubuntu Server 20.04 LTS を実行する DSVM を指定および作成する
  • SSH を使用して DSVM のコマンド ラインに接続する
  • X2Go クライアントを使用して DSVM のグラフィカル デスクトップに接続する
  • DSVM 内で実行されている Python conda 環境の使用方法を示す
  • カスタム Python 環境を一覧表示し、その 1 つをアクティブにして、Jupyter Notebook サーバーを実行する

前提条件

  • 仮想マシンの基本的な理解