Обучение моделей машинного обучения
Apache Spark — часть Microsoft Fabric — включает машинное обучение с большими данными. С помощью Apache Spark вы можете создавать ценные аналитические сведения в больших объемах структурированных, неструктурированных и быстро перемещаемых данных. При обучении моделей машинного обучения с помощью Apache Spark в Microsoft Fabric доступны несколько доступных вариантов библиотеки с открытым кодом: Apache Spark MLlib, SynapseML и других.
Apache SparkML и MLlib
Apache Spark — часть Microsoft Fabric — предоставляет единую, открытую и параллельную платформу обработки данных. Эта платформа поддерживает обработку в памяти, которая повышает аналитику больших данных. Подсистема обработки Spark призвана ускорить разработку, повысить удобство использования и реализовать сложную аналитику. Возможности распределенных вычислений Spark в памяти делают его хорошим выбором для итеративных алгоритмов, используемых машинным обучением и вычислениями графов.
Масштабируемые библиотеки машинного обучения MLlib и SparkML позволяют использовать возможности алгоритмического моделирования в этой распределенной среде. MLlib содержит исходный API, построенный на основе RDD. SparkML — это более новый пакет. Он предоставляет API более высокого уровня, построенный на основе кадров данных для создания конвейеров машинного обучения. SparkML пока не поддерживает все функции MLlib, но заменяет MLlib в качестве стандартной библиотеки машинного обучения Spark.
Примечание.
Дополнительные сведения о создании модели SparkML см. в разделе "Обучение моделей " с помощью ресурса Apache Spark MLlib .
Популярные библиотеки
Среда выполнения Microsoft Fabric для Apache Spark включает несколько популярных пакетов с открытым кодом для моделей машинного обучения. Эти библиотеки предоставляют многократно используемый код, который можно включить в программы или проекты. Среда выполнения включает следующие соответствующие библиотеки машинного обучения и другие:
Scikit-learn — одна из самых популярных библиотек машинного обучения с одним узлом для классических алгоритмов машинного обучения. Scikit-learn поддерживает большинство защищенных и неконтролируемых алгоритмов обучения, а также может обрабатывать интеллектуальный анализ данных и анализ данных.
XGBoost — популярная библиотека машинного обучения, содержащая оптимизированные алгоритмы для обучения деревьев принятия решений и случайных лесов.
PyTorch и Tensorflow — это мощные библиотеки глубокого обучения Python. С помощью этих библиотек можно задать количество исполнителей в пуле равным нулю, чтобы создать модели с одним компьютером. Хотя эта конфигурация не поддерживает Apache Spark, это простой и экономичный способ создания моделей с одним компьютером.
SynapseML
Библиотека с открытым кодом SynapseML (ранее известная как MMLSpark) упрощает создание масштабируемых конвейеров машинного обучения (ML). С его помощью использование Spark становится более продуктивным, так как эта библиотека увеличивает скорость экспериментов и применяет передовые методы машинного обучения ( включая глубокое обучение) на больших наборах данных.
SynapseML предоставляет уровень над низкоуровневыми API SparkML при создании масштабируемых моделей машинного обучения. Эти API охватывают индексирование строк, сборку вектора признаков, приведение данных в макеты, подходящие для алгоритмов машинного обучения и многое другое. Библиотека SynapseML упрощает эти и другие распространенные задачи для создания моделей в PySpark.
Связанный контент
В этой статье представлен обзор различных вариантов обучения моделей машинного обучения в Apache Spark в Microsoft Fabric. Дополнительные сведения об обучении модели см. в следующих ресурсах:
- Использование примеров ИИ для создания моделей машинного обучения: использование примеров ИИ
- Отслеживание запусков машинного обучения с помощью экспериментов: эксперименты машинного обучения