Identifizieren von Azure Machine Learning-Ressourcen

Abgeschlossen

Als Ressourcen werden in Azure Machine Learning die Infrastrukturkomponenten bezeichnet, die Sie zum Ausführen eines Machine Learning-Workflows benötigen. Im Idealfall sollten die Ressourcen von einem Administrator erstellt und verwaltet werden.

Zu den Ressourcen in Azure Machine Learning gehören:

  • Der Arbeitsbereich
  • Computeressourcen
  • Datenspeicher

Erstellen und Verwalten des Arbeitsbereichs

Der Arbeitsbereich ist die Ressource der obersten Ebene für Azure Machine Learning. Data Scientists benötigen Zugriff auf den Arbeitsbereich, um Modelle zu trainieren, nachzuverfolgen und an den Endpunkten bereitzustellen.

Sie sollten jedoch darauf achten, wer vollständigen Zugriff auf den Arbeitsbereich hat. Neben den Verweisen auf Computeressourcen und Datenspeicher befinden sich im Arbeitsbereich auch alle Protokolle, Metriken, Ausgaben, Modelle und Momentaufnahmen Ihres Codes.

Erstellen und Verwalten von Computeressourcen

Eine der wichtigsten Ressourcen, die Sie beim Training oder bei der Bereitstellung eines Modells benötigen, ist die Computeressource. Es gibt fünf Arten von Computeressourcen im Azure Machine Learning-Arbeitsbereich:

  • Compute-Instanzen: Sind vergleichbar mit virtuellen Computern in der Cloud und werden vom Arbeitsbereich verwaltet. Ideal für die Verwendung als Entwicklungsumgebung zum Ausführen von (Jupyter-) Notebooks.
  • Computecluster: Dies sind bedarfsgesteuerte Cluster mit CPU- oder GPU-Computeknoten in der Cloud, die vom Arbeitsbereich verwaltet werden. Ideal für den Einsatz in der Produktion, da sie automatisch an Ihre Anforderungen angepasst werden.
  • Kubernetes-Cluster: Dieser ermöglicht Ihnen das Erstellen oder Anfügen eines Azure Kubernetes Service-Clusters (AKS). Ideal zum Bereitstellen trainierter Machine Learning-Modelle in Produktionsszenarien.
  • Angefügte Computeressourcen: Diese ermöglichen Ihnen das Anfügen weiterer Azure-Computeressourcen an den Arbeitsbereich, z. B. Azure Databricks oder Synapse Spark-Pools.
  • Serverloses Computing: Dies ist eine vollständig verwaltete, bedarfsgesteuerte Computinglösung, die Sie für Trainingsaufträge verwenden können.

Hinweis

Da Azure Machine Learning die Lösung für serverloses Computing für Sie erstellt und verwaltet, wird sie im Studio auf der Seite mit Computingressourcen nicht aufgeführt. Erfahren Sie über die Verwendung von serverlosem Computing für das Modelltraining.

Die Computerressource ist zwar die wichtigste Ressource bei der Arbeit mit Machine Learning-Workloads, sie kann aber auch die kostenintensivste Ressource sein. Es empfiehlt sich daher, nur Administratoren das Erstellen und Verwalten von Computeressourcen zu gestatten. Data Scientists sollte es nicht gestattet sein, Computeressourcen zu bearbeiten. Stattdessen sollten sie nur die verfügbaren Computerressourcen zum Ausführen ihrer Workloads verwenden können.

Erstellen und Verwalten von Datenspeichern

Der Arbeitsbereich selbst speichert keine Daten. Stattdessen werden alle Daten in Datenspeichern gespeichert, bei denen es sich um Verweise auf Azure-Datendienste handelt. Die Informationen zur Verbindungsherstellung mit einem Datendienst, den ein Datenspeicher repräsentiert, werden in Azure Key Vault gespeichert.

Beim Erstellen eines Arbeitsbereichs wird ein Azure Storage-Konto erstellt und automatisch mit dem Arbeitsbereich verbunden. Dadurch haben Sie Ihrem Arbeitsbereich bereits vier Datenspeicher hinzugefügt:

  • workspaceartifactstore: Stellt eine Verbindung mit dem azureml-Container des Azure Storage-Kontos her, das mit dem Arbeitsbereich erstellt wurde. Wird zum Speichern von Computing- und Experimentprotokollen beim Ausführen von Aufträgen verwendet.
  • workspaceworkingdirectory: Stellt eine Verbindung mit der Dateifreigabe des Azure Storage-Kontos her, das mit dem Arbeitsbereich erstellt wurde, der vom Abschnitt Notebooks des Studios verwendet wird. Wenn Sie Dateien oder Ordner hochladen, auf die von einer Compute-Instanz zugegriffen werden soll, werden diese Dateien und Ordner in diese Dateifreigabe hochgeladen.
  • workspaceblobstore: Stellt eine Verbindung mit dem Blob Storage des Azure Storage-Kontos her, das mit dem Arbeitsbereich erstellt wurde. Hier besonders der Container azureml-blobstore-.... Dieser ist als Standarddatenspeicher festgelegt. Wenn Sie also eine Datenressource erstellen und Daten hochladen, werden die Daten in diesem Container gespeichert.
  • workspacefilestore: Stellt eine Verbindung mit der Dateifreigabe des Azure Storage-Kontos her, das mit dem Arbeitsbereich erstellt wurde. Hier besonders die Dateifreigabe azureml-filestore-....

Darüber hinaus können Sie Datenspeicher erstellen, um eine Verbindung mit weiteren Azure-Datendiensten herzustellen. In den meisten Fällen werden Ihre Datenspeicher mit einem Azure Storage-Konto oder mit Azure Data Lake Storage (Gen2) verbunden, da diese Datendienste am häufigsten in Data Science-Projekten verwendet werden.