Обучение моделей машинного обучения

Apache Spark — часть Microsoft Fabric — включает машинное обучение с большими данными. С помощью Apache Spark вы можете создавать ценные аналитические сведения в больших объемах структурированных, неструктурированных и быстро перемещаемых данных. При обучении моделей машинного обучения с помощью Apache Spark в Microsoft Fabric доступны несколько доступных вариантов библиотеки с открытым кодом: Apache Spark MLlib, SynapseML и других.

Apache SparkML и MLlib

Apache Spark — часть Microsoft Fabric — предоставляет единую, открытую и параллельную платформу обработки данных. Эта платформа поддерживает обработку в памяти, которая повышает аналитику больших данных. Подсистема обработки Spark призвана ускорить разработку, повысить удобство использования и реализовать сложную аналитику. Возможности распределенных вычислений Spark в памяти делают его хорошим выбором для итеративных алгоритмов, используемых машинным обучением и вычислениями графов.

Масштабируемые библиотеки машинного обучения MLlib и SparkML позволяют использовать возможности алгоритмического моделирования в этой распределенной среде. MLlib содержит исходный API, построенный на основе RDD. SparkML — это более новый пакет. Он предоставляет API более высокого уровня, построенный на основе кадров данных для создания конвейеров машинного обучения. SparkML пока не поддерживает все функции MLlib, но заменяет MLlib в качестве стандартной библиотеки машинного обучения Spark.

Примечание.

Дополнительные сведения о создании модели SparkML см. в разделе "Обучение моделей " с помощью ресурса Apache Spark MLlib .

Среда выполнения Microsoft Fabric для Apache Spark включает несколько популярных пакетов с открытым кодом для моделей машинного обучения. Эти библиотеки предоставляют многократно используемый код, который можно включить в программы или проекты. Среда выполнения включает следующие соответствующие библиотеки машинного обучения и другие:

  • Scikit-learn — одна из самых популярных библиотек машинного обучения с одним узлом для классических алгоритмов машинного обучения. Scikit-learn поддерживает большинство защищенных и неконтролируемых алгоритмов обучения, а также может обрабатывать интеллектуальный анализ данных и анализ данных.

  • XGBoost — популярная библиотека машинного обучения, содержащая оптимизированные алгоритмы для обучения деревьев принятия решений и случайных лесов.

  • PyTorch и Tensorflow — это мощные библиотеки глубокого обучения Python. С помощью этих библиотек можно задать количество исполнителей в пуле равным нулю, чтобы создать модели с одним компьютером. Хотя эта конфигурация не поддерживает Apache Spark, это простой и экономичный способ создания моделей с одним компьютером.

SynapseML

Библиотека с открытым кодом SynapseML (ранее известная как MMLSpark) упрощает создание масштабируемых конвейеров машинного обучения (ML). С его помощью использование Spark становится более продуктивным, так как эта библиотека увеличивает скорость экспериментов и применяет передовые методы машинного обучения ( включая глубокое обучение) на больших наборах данных.

SynapseML предоставляет уровень над низкоуровневыми API SparkML при создании масштабируемых моделей машинного обучения. Эти API охватывают индексирование строк, сборку вектора признаков, приведение данных в макеты, подходящие для алгоритмов машинного обучения и многое другое. Библиотека SynapseML упрощает эти и другие распространенные задачи для создания моделей в PySpark.

В этой статье представлен обзор различных вариантов обучения моделей машинного обучения в Apache Spark в Microsoft Fabric. Дополнительные сведения об обучении модели см. в следующих ресурсах: