Identifizieren von Azure Machine Learning-Objekten

Abgeschlossen

Als Data Scientist arbeiten Sie hauptsächlich mit Objekten im Azure Machine Learning-Arbeitsbereich. Objekte werden in verschiedenen Phasen eines Projekts erstellt und verwendet und umfassen Folgendes:

  • Modelle
  • Umgebungen
  • Daten
  • Komponenten

Erstellen und Verwalten von Modellen

Das Endprodukt beim Modelltraining ist das Modell selbst. Sie können Machine Learning-Modelle mithilfe verschiedener Frameworks trainieren, zum Beispiel mit Scikit-learn oder PyTorch. Eine gängige Methode zum Speichern solcher Modelle ist die Paketierung des Modells als Python-Pickle-Datei (.pkl-Erweiterung).

Alternativ können Sie auch die Open-Source-Plattform MLflow verwenden, um Ihr Modell im MLModel-Format zu speichern.

Unabhängig vom gewählten Format repräsentieren die Binärdateien das Modell und alle zugehörigen Metadaten. Für die dauerhafte Speicherung dieser Dateien können Sie ein Modell im Arbeitsbereich erstellen oder registrieren.

Wenn Sie ein Modell im Arbeitsbereich erstellen, geben Sie Name und Version an. Die Versionsverwaltung ist besonders nützlich, wenn Sie das registrierte Modell bereitstellen, denn sie ermöglicht die Nachverfolgung des spezifischen Modells, das Sie verwenden möchten.

Erstellen und Verwalten von Umgebungen

Beim Cloud Computing müssen Sie sicherstellen, dass Ihr Code auf jeder Ihnen zur Verfügung stehenden Computeressource ausgeführt werden kann. Unabhängig davon, ob Sie ein Skript auf einer Compute-Instanz oder in einem Computecluster ausführen möchten, sollte der Code erfolgreich ausgeführt werden.

Angenommen, Sie arbeiten in Python oder R und verwenden Open-Source-Frameworks zum Trainieren eines Modells auf Ihrem lokalen Gerät. Wenn Sie eine Bibliothek wie Scikit-learn oder PyTorch verwenden möchten, müssen Sie diese auf Ihrem Gerät installieren.

Ebenso müssen Sie beim Schreiben von Code, der Frameworks oder Bibliotheken verwendet, sicherstellen, dass die erforderlichen Komponenten auf dem Computer installiert sind, der den Code ausführt. Zur Auflistung aller erforderlichen Voraussetzungen können Sie Umgebungen erstellen. Wenn Sie eine Umgebung erstellen, müssen Sie Name und Version angeben.

Umgebungen geben Softwarepakete, Umgebungsvariablen und Softwareeinstellungen für die Ausführung von Skripts an. Eine Umgebung wird als Image in einer Azure Container Registry-Instanz gespeichert, die zusammen mit dem Arbeitsbereich erstellt wird, wenn dieser erstmalig verwendet wird.

Wann immer Sie ein Skript ausführen möchten, können Sie die Umgebung angeben, die vom Computeziel verwendet werden soll. Die Umgebung installiert alle erforderlichen Komponenten auf dem Computer, bevor das Skript ausgeführt wird. Dadurch wird Ihr Code stabil und kann für verschiedene Computeziele wiederverwendet werden.

Erstellen und Verwalten von Daten

Während Datenspeicher die Informationen zur Verbindungsherstellung mit Azure-Datenspeicherdiensten enthalten, beziehen sich Datenobjekte auf eine bestimmte Datei oder einen Ordner.

Sie können Datenobjekte zum einfachen Zugriff auf Daten verwenden, ohne dass Sie sich bei jedem Zugriff neu authentifizieren müssen.

Wenn Sie ein Datenobjekt im Arbeitsbereich erstellen, geben Sie den Pfad zur Datei oder zum Ordner sowie Name und Version an.

Erstellen und Verwalten von Komponenten

Zum Trainieren von Machine Learning-Modellen schreiben Sie Code. In verschiedenen Projekten kann es Code geben, den Sie wiederverwenden können. Anstatt Code von Grund auf neu zu schreiben, sollten Sie Codeschnipsel aus anderen Projekten wiederverwenden.

Zur Vereinfachung der gemeinsamen Nutzung von Code können Sie eine Komponente in einem Arbeitsbereich erstellen. Um eine Komponente zu erstellen, müssen Sie Name, Version, Code und Umgebung angeben, die zur Ausführung des Codes benötigt werden.

Sie können Komponenten bei der Erstellung von Pipelines verwenden. Eine Komponente repräsentiert daher oft einen Schritt in einer Pipeline, z. B. zur Normalisierung von Daten, zum Trainieren eines Regressionsmodells oder zum Testen des trainierten Modells anhand eines Validierungsdatasets.