Entrenamiento de modelos de Machine Learning

Apache Spark, parte de Microsoft Fabric, permite el aprendizaje automático con macrodatos. Con Apache Spark, puedes obtener información valiosa de grandes cantidades de datos estructurados, no estructurados y de movimiento rápido. Tienes varias opciones de bibliotecas de código abierto disponibles para entrenar modelos de Machine Learning con Apache Spark en Microsoft Fabric: Apache Spark MLlib, SynapseML y otras bibliotecas de código abierto.

Apache SparkML y MLlib

Apache Spark, una parte de Microsoft Fabric, proporciona un marco unificado de procesamiento de datos paralelos y de código abierto. Este marco admite el procesamiento en memoria que aumenta el análisis de macrodatos. El motor de procesamiento Spark se ha creado para ofrecer velocidad, facilidad de uso y análisis sofisticados. Las capacidades de cálculo distribuido en memoria de Spark lo convierten en una buena opción para algoritmos iterativos que utilizan el aprendizaje automático y los cálculos de grafos.

Las bibliotecas escalables de aprendizaje automático MLlib y SparkML ofrecen funcionalidades de modelado algorítmico a este entorno distribuido. MLlib contiene la API original que se basa en RDD. SparkML es un paquete más reciente. Proporciona una API de nivel más alto que se basa en DataFrames para construir canalizaciones ML. SparkML aún no admite todas las características de MLlib, pero está reemplazando MLlib como biblioteca de aprendizaje automático estándar de Spark.

Nota:

Para obtener más información sobre la creación de modelos SparkML, visita el recurso Entrenar modelos con Apache Spark MLlib.

El runtime de Microsoft Fabric para Apache Spark incluye varios paquetes populares de código abierto para entrenar modelos de aprendizaje automático. Estas bibliotecas proporcionan código reutilizable que se puede incluir en los programas o proyectos. El entorno de ejecución incluye estas bibliotecas de aprendizaje automático pertinentes y otras:

  • Scikit-learn: una de las bibliotecas de aprendizaje automático de nodo único más populares para algoritmos de Machine Learning clásicos. Scikit-learn admite la mayoría de los algoritmos de aprendizaje supervisados y no supervisados y también se puede usar para gestionar la minería y el análisis de datos.

  • XGBoost: una conocida biblioteca de aprendizaje automático que contiene algoritmos optimizados para el entrenamiento de árboles de decisión y bosques aleatorios.

  • PyTorch y Tensorflow son eficaces bibliotecas de aprendizaje profundo de Python. Puedes usar estas bibliotecas para compilar modelos de máquina única estableciendo el número de ejecutores del grupo en cero. Aunque esa configuración no admite Apache Spark, es una manera sencilla y rentable de crear modelos de máquina única.

SynapseML

La biblioteca de código abierto SynapseML (anteriormente conocida como MMLSpark) simplifica la creación de canalizaciones de aprendizaje automático (ML) escalables de forma masiva. Con ella, el uso de Spark por parte de los científicos de datos se vuelve más productivo, ya que esa biblioteca aumenta la velocidad de experimentación y aprovecha técnicas de aprendizaje automático de vanguardia, como el aprendizaje profundo, en conjuntos de datos grandes.

SynapseML proporciona una capa por encima de las API de bajo nivel de SparkML al compilar modelos de ML escalables. Estas API cubren la indexación de cadenas, el ensamblado de vectores de características, la coerción de datos en diseños adecuados para los algoritmos de aprendizaje automático, etc. La biblioteca SynapseML simplifica estas y otras tareas comunes para la creación de modelos en PySpark.

En este artículo, se proporciona información general sobre las distintas opciones disponibles para entrenar modelos de aprendizaje automático con Apache Spark en Microsoft Fabric. Para más información sobre la formación de modelos, visita estos recursos: