Trainieren von Machine Learning-Modellen

Apache Spark – ein Teil von Microsoft Fabric – ermöglicht maschinelles Lernen mit Big Data. Mit Apache Spark können Sie wertvolle Erkenntnisse aus großen Mengen strukturierter, unstrukturierter und sich schnell verändernder Daten gewinnen. Beim Trainieren von Machine Learning-Modellen mit Apache Spark in Microsoft Fabric stehen Ihnen mehrere Open-Source-Bibliothek-Optionen zur Verfügung: Apache Spark MLlib, SynapseML und andere.

Apache SparkML und MLlib

Apache Spark – ein Teil von Microsoft Fabric – bietet ein einheitliches, Open-Source-Framework für parallele Datenverarbeitung. Dieses Framework unterstützt die In-Memory-Verarbeitung, die Big Data Analytics fördert. Die Spark-Verarbeitungs-Engine ist auf Geschwindigkeit, einfache Nutzung und anspruchsvolle Analysen ausgelegt. Dank seiner verteilten In-Memory-Datenverarbeitungsfunktionen eignet sich Spark besonders für iterative Algorithmen, die bei maschinellem Lernen und für Graphberechnungen verwendet werden.

Die skalierbaren Bibliotheken für maschinelles Lernen MLlib und SparkML stellen algorithmische Modellierungsfunktionen in dieser verteilten Umgebung bereit. MLlib enthält die Original-API, die auf Grundlage von RDDs erstellt wurde. SparkML ist ein neueres Paket. Es stellt eine API auf höherer Ebene bereit, die auf DataFrames zur Erstellung von ML-Pipelines basiert. SparkML unterstützt noch nicht alle Features von MLlib, ersetzt jedoch MLlib als Standardbibliothek für maschinelles Lernen in Spark.

Hinweis

Weitere Informationen zur SparkML-Modellerstellung finden Sie in der Ressource Training von Modellen mit Apache Spark MLlib.

Die Microsoft Fabric-Runtime für Apache Spark enthält mehrere populäre Open-Source-Pakete zum Trainieren von Machine Learning-Modellen. Diese Bibliotheken stellen wiederverwendbaren Code zur Verfügung, den Sie in Ihren Programmen oder Projekten nutzen können. Die Runtime umfasst diese relevanten Bibliotheken für maschinelles Lernen und andere:

  • Scikit-learn ist eine der beliebtesten Einzelknoten-Bibliotheken für maschinelles Lernen für klassische ML-Algorithmen. Scikit-learn unterstützt die meisten beaufsichtigten und unbeaufsichtigten Lernalgorithmen und kann für Data Mining und Datenanalyse verwendet werden.

  • XGBoost – eine beliebte Bibliothek für maschinelles Lernen, die optimierte Algorithmen zum Trainieren von Entscheidungsstrukturen und zufälligen Gesamtstrukturen enthält.

  • PyTorch und TensorFlow sind leistungsfähige Deep Learning-Bibliotheken von Python. Mithilfe dieser Bibliotheken können Sie die Anzahl von Executors in Ihrem Pool auf Null festlegen, um Modelle mit einzelnen Computern zu erstellen. Obwohl diese Konfiguration Apache Spark nicht unterstützt, ist es eine einfache, kostengünstige Möglichkeit zum Erstellen von Einzelcomputermodellen.

SynapseML

Die Open-Source-Bibliothek SynapseML (früher als MMLSpark bekannt) vereinfacht die Erstellung hochgradig skalierbarer Pipelines für maschinelles Lernen (ML). Mit ihr wird die Verwendung von Spark für wissenschaftliche Fachkräfte für Daten produktiver, da die Bibliothek die Experimentierrate erhöht und innovative Verfahren für das maschinelle Lernen – einschließlich Deep Learning – in großen Datasets anwendet.

SynapseML bietet eine Ebene über den SparkML Low-Level-APIs beim Erstellen skalierbarer ML-Modelle. Diese APIs decken Zeichenkettenindizierung, Feature-Vektor-Assembly, Koersion von Daten in Layouts ab, die für Algorithmen für maschinelles Lernen geeignet sind, und vieles mehr. Die SynapseML-Bibliothek vereinfacht diese und andere gängige Aufgaben zum Erstellen von Modellen in PySpark.

Dieser Artikel bietet eine Übersicht über die verschiedenen verfügbaren Optionen zum Trainieren von Machine Learning-Modell innerhalb von Apache Spark in Microsoft Fabric. Weitere Informationen über Modelltraining finden Sie in den folgenden Ressourcen: