Schnellstart: Einrichten von Data Science Virtual Machine für Linux (Ubuntu)

Schneller Einstieg in Ubuntu 20.04 Data Science Virtual Machine (DSVM) und Azure DSVM for PyTorch.

Voraussetzungen

Um eine Ubuntu 20.04 Data Science Virtual Machine oder eine Azure DSVM for PyTorch zu erstellen, müssen Sie über ein Azure-Abonnement verfügen. Testen Sie Azure kostenlos.

Kostenlose Azure-Konten unterstützen keine GPU-fähigen VM-SKUs.

Erstellen Ihrer Data Science Virtual Machine für Linux

So erstellen Sie eine DSVM-Instanz für Ubuntu 20.04 oder eine Azure DSVM-Instanz für PyTorch:

  1. Öffnen Sie das Azure-Portal. Möglicherweise erhalten Sie eine Aufforderung, sich bei Ihrem Azure-Konto anzumelden, wenn Sie sich noch nicht angemeldet haben.

  2. Suchen Sie die VM-Auflistung, indem Sie Data Science VM eingeben. Wählen Sie dann Data Science Virtual Machine – Ubuntu 20.04 oder Azure DSVM für PyTorch aus.

  3. Klicken Sie auf Erstellen.

  4. Füllen Sie im Bereich Virtuellen Computer erstellen die Registerkarte Grundlagen aus:

    • Abonnement:Wenn Sie über mehrere Abonnements verfügen, wählen Sie eines aus, über das der Computer erstellt und abgerechnet wird. Sie müssen für dieses Abonnement über Berechtigungen zum Erstellen von Ressourcen verfügen.

    • Ressourcengruppe: Erstellen Sie eine neue Gruppe, oder verwenden Sie eine bereits vorhandene.

    • Name des virtuellen Computers: Geben Sie den Namen der VM ein. Dieser Name wird in Ihrem Azure-Portal verwendet.

    • Region: Wählen Sie das am besten geeignete Rechenzentrum aus. Für den schnellsten Netzwerkzugriff eignet sich das Rechenzentrum, in dem die meisten Ihrer Daten gehostet werden oder das sich am nächsten zu Ihrem Standort befindet, am besten. Weitere Informationen finden Sie unter Azure-Regionen.

    • Image: Lassen Sie den Standardwert unverändert.

    • Größe: Diese Option sollte automatisch mit einer Größe ausgefüllt werden, die für allgemeine Workloads geeignet ist. Weitere Informationen finden Sie unter Größen für virtuelle Linux-Computer in Azure.

    • Authentifizierungstyp: Wählen Sie für eine schnellere Einrichtung die Option Kennwort aus.

      Hinweis

      Wenn Sie JupyterHub verwenden möchten, achten Sie darauf, dass Kennwort ausgewählt ist, da JupyterHub nicht für die Verwendung von öffentlichen SSH-Schlüsseln (Secure Shell Protocol, SSH) konfiguriert ist.

    • Benutzername: Geben Sie den Benutzernamen des Administrators ein. Sie verwenden diesen Benutzernamen, um sich bei Ihrer VM anzumelden. Er muss nicht mit Ihrem Azure-Benutzernamen übereinstimmen. Verwenden Sie keine Großbuchstaben.

      Wichtig

      Wenn Sie in Ihrem Benutzernamen Großbuchstaben verwenden, funktioniert JupyterHub nicht, und es wird die Meldung „500 – Interner Serverfehler“ angezeigt.

    • Kennwort: Geben Sie das Kennwort ein, das Sie für die Anmeldung bei Ihrer VM verwenden möchten.

  5. Klicken Sie auf Überprüfen + erstellen.

  6. Gehen Sie im Bereich Überprüfen + erstellen wie folgt vor:

    • Stellen Sie sicher, dass alle eingegebenen Informationen richtig sind.
    • Klicken Sie auf Erstellen.

    Der Bereitstellungsvorgang dauert ungefähr 5 Minuten. Sie können den Status Ihrer VM über das Azure-Portal einsehen.

Zugreifen auf die Data Science VM-Instanz unter Ubuntu

Es gibt vier Methoden für den Zugriff auf die DSVM-Instanz unter Ubuntu:

  • SSH für Terminalsitzungen
  • xrdp für grafische Sitzungen
  • X2Go für grafische Sitzungen
  • JupyterHub und JupyterLab für Jupyter-Notebooks

SSH

Wenn Sie Ihren virtuellen Computer mit der SSH-Authentifizierung konfiguriert haben, können Sie sich mit den Kontoanmeldeinformationen anmelden, die Sie im Abschnitt Grundlagen von Schritt 4 für die text-shell-Schnittstelle erstellt haben. Weitere Informationen finden Sie unter Weitere Informationen zum Herstellen einer Verbindung mit einer Linux-VM.

xrdp

Das Standardtool für den Zugriff auf grafische Linux-Sitzungen heißt xrdp. Obwohl die Distribution dieses Tool standardmäßig nicht enthält, wird in diesen Anweisungen erläutert, wie es installiert wird.

X2Go

Hinweis

Der X2Go-Client hat bei Tests besser abgeschnitten als die X11-Weiterleitung. Es wird empfohlen, den X2Go-Client als grafische Desktop-Benutzeroberfläche zu nutzen.

Die Linux-VM wurde bereits mit X2Go Server bereitgestellt und ist bereit, Clientverbindungen zu akzeptieren. Führen Sie auf dem Client die folgenden Schritte aus, um eine Verbindung mit dem grafischen Desktop des virtuellen Linux-Computers herzustellen:

  1. Laden Sie den X2Go-Client für Ihre Clientplattform von X2Goherunter, und installieren Sie ihn.

  2. Notieren Sie sich die öffentliche IP-Adresse der VM. Öffnen Sie im Azure-Portal die VM, die Sie erstellt haben, um diese Informationen zu finden.

    Screenshot: Die öffentliche IP-Adresse der VM

  3. Führen Sie den X2Go-Client aus. Wenn der Bereich Neue Sitzung nicht automatisch geöffnet wird, wählen Sie Sitzung>Neue Sitzung aus.

  4. Geben Sie im daraufhin angezeigten Konfigurationsbereich die folgenden Konfigurationsparameter ein:

    • Sitzung (Session):
      • Host: Geben Sie die IP-Adresse Ihrer VM ein, die Sie zuvor notiert haben.
      • Anmeldung: Geben Sie den Benutzernamen für die Linux-VM ein.
      • SSH-Port: Übernehmen Sie den Standardwert 22.
      • Sitzungstyp: Ändern Sie den Wert in XFCE. Derzeit unterstützt die Linux-VM nur den XFCE-Desktop.
    • Medien: Sie können die Soundunterstützung und die Clientdruckausgabe deaktivieren, wenn Sie diese Funktionen nicht benötigen.
    • Freigegebene Ordner: Verwenden Sie diese Registerkarte, um das Clientcomputerverzeichnis hinzuzufügen, das Sie auf der VM bereitstellen möchten.

    Screenshot: Einstellungen für eine neue X2Go-Sitzung

  5. Wählen Sie OK aus.

  6. Aktivieren Sie das Feld im rechten Bereich des X2Go-Bereichs, um den Anmeldebereich für Ihre VM anzuzeigen.

  7. Geben Sie das Kennwort für Ihren virtuellen Computer ein.

  8. Wählen Sie OK aus.

  9. Möglicherweise müssen Sie X2Go-Berechtigungen erteilen, um Ihre Firewall zu umgehen, um den Verbindungsvorgang abzuschließen.

  10. Nun sollte die grafische Benutzeroberfläche für Ihre Ubuntu-DSVM-Instanz angezeigt werden.

JupyterHub und JupyterLab

Die Ubuntu-DSVM führt JupyterHub, einen Jupyter-Mehrbenutzerserver, aus. Gehen Sie dazu folgendermaßen vor:

  1. Notieren Sie sich die öffentliche IP-Adresse Ihrer VM. Um diesen Wert zu finden, suchen und wählen Sie Ihren virtuellen Computer im Azure-Portal aus, wie in diesem Screenshot gezeigt.

    Screenshot: Felds für die öffentliche IP-Adresse Ihrer VM

  2. Öffnen Sie auf Ihrem lokalen Computer einen Webbrowser, und wechseln Sie zu https://your-vm-ip:8000. Ersetzen Sie Ihre VM-IP durch die IP-Adresse, die Sie zuvor notiert haben.

  3. Ihr Browser verhindert wahrscheinlich, dass Sie den Bereich direkt öffnen. Möglicherweise wird Ihnen mitgeteilt, dass ein Zertifikatsfehler auftritt. Der DSVM bietet Sicherheit mit einem selbstsignierten Zertifikat. Bei den meisten Browsern können Sie nach dieser Warnung weiterklicken. In vielen Browsern wird während der gesamten Websitzung eine visuelle Warnung zum Zertifikat angezeigt.

    Wenn die ERR_EMPTY_RESPONSE-Fehlermeldung in Ihrem Browser angezeigt wird, stellen Sie sicher, dass Sie über die explizite Verwendung des HTTPS-Protokolls auf den Computer zugreifen. HTTP oder nur die Webadresse funktionieren in diesem Schritt nicht. Wenn Sie die Webadresse ohne https:// in die Adresszeile eingeben, wird in den meisten Browsern der Standardwert http verwendet und dieser Fehler angezeigt.

  4. Geben Sie den Benutzernamen und das Kennwort ein, die Sie zum Erstellen der VM verwendet haben, und melden Sie sich an, wie in diesem Screenshot gezeigt.

    Screenshot: JupyterHub-Anmeldebereich

    Wenn Sie in dieser Phase einen 500-Fehler erhalten, haben Sie wahrscheinlich Großbuchstaben in Ihrem Benutzernamen verwendet. Dieses Problem ist eine bekannte Interaktion zwischen JupyterHub und dem von ihm verwendeten PAM-Authentifikator.

    Wenn ein Fehler mit dem Hinweis angezeigt wird, dass die Seite nicht erreichbar ist, müssen wahrscheinlich die Berechtigungen der Netzwerksicherheitsgruppe (NSG) angepasst werden. Suchen Sie im Azure-Portal die NSG-Ressource in Ihrer Ressourcengruppe. Wenn Sie über das öffentliche Internet auf JupyterHub zugreifen möchten, muss Port 8000 geöffnet sein. (Die Abbildung zeigt, dass diese VM für den Just-In-Time-Zugriff konfiguriert ist. Dies wird dringend empfohlen. Weitere Informationen finden Sie unter Sichern Ihrer Verwaltungsports mit Just-in-Time-Zugriff (JIT).

    Screenshot: NSG-Konfigurationswerte

  5. Durchsuchen Sie die verfügbaren Beispiel-Notebooks.

JupyterLab, die nächste Generation von Jupyter-Notebooks, und JupyterHub, sind ebenfalls verfügbar. Um darauf zuzugreifen, melden Sie sich bei JupyterHub an. Navigieren Sie dann zur URL https://your-vm-ip:8000/user/your-username/lab. Ersetzen Sie your-username durch den Benutzernamen, den Sie bei der Konfiguration der VM ausgewählt haben. Auch hier können potenzielle Zertifikatfehler zunächst den Zugriff auf die Website blockieren.

Um JupyterLab als Standard-Notebookserver festzulegen, fügen Sie diese Zeile zu /etc/jupyterhub/jupyterhub_config.py hinzu:

c.Spawner.default_url = '/lab'

Nächste Schritte

  • Besuchen Sie die exemplarische Vorgehensweise Data Science mit einer Linux Data Science Virtual Machine in Azure und erfahren Sie, wie Sie mehrere allgemeine Data Science-Aufgaben mit der hier bereitgestellten Linux-DSVM ausführen.
  • Probieren Sie die in diesem Artikel beschriebenen Tools aus, um die verschiedenen Data Science-Tools auf dem DSVM zu erkunden. Sie können auch dsvm-more-info in der Shell auf der VM ausführen, um eine grundlegende Einführung und Hinweise auf weitere Informationen zu den Tools, die auf der VM installiert sind, zu erhalten.
  • Erfahren Sie, wie Sie mithilfe des Team Data Science-Prozesses systematisch Analyselösungen erstellen.
  • Weitere Informationen finden Sie in der entsprechenden Referenzdokumentation für diese VM.