¿Qué es Mosaic AutoML?

Mosaic AutoML simplifica el proceso de aplicar el aprendizaje automático a los conjuntos de datos mediante la búsqueda automática del mejor algoritmo y la configuración de hiperparámetros automáticamente.

Proporcione el conjunto de datos y especifique el tipo de problema de aprendizaje automático y AutoML realizará las siguientes operaciones:

  1. Limpia y prepara los datos.
  2. Organiza el entrenamiento de modelos distribuidos y el ajuste de hiperparámetros en varios algoritmos.
  3. Busca el mejor modelo, para lo que utiliza algoritmos de evaluación de código abierto de scikit-learn, xgboost, LightGBM, Prophet y ARIMA.
  4. Presenta los resultados. AutoML también genera cuadernos de código fuente para cada evaluación gratuita, lo que le permite revisar, reproducir y modificar el código según sea necesario.

Introducción a los experimentos de AutoML a través de una interfaz de usuario de poco código o la Python API.

Requisitos

  • Databricks Runtime 9.1 ML o posterior. Para la versión de disponibilidad general (GA), Databricks Runtime 10.4 LTS ML o superior.

    • Para la previsión de series temporales, Databricks Runtime 10.0 ML o posterior.
    • Con Databricks Runtime 9.1 LTS ML y posteriores, AutoML depende del paquete databricks-automl-runtime, que contiene componentes que son útiles fuera de AutoML, y también ayuda a simplificar los cuadernos generados por el entrenamiento de AutoML. databricks-automl-runtime está disponible en PyPI.
  • En el clúster solo se deben instalarlas bibliotecas que estén preinstaladas en Databricks Runtime para Machine Learning.

    • Cualquier modificación (eliminación, actualización o degradación) a las versiones de biblioteca existentes produce errores de ejecución debido a la incompatibilidad.
  • Para acceder a los archivos del área de trabajo, debe tener abiertos los puertos 1017 y 1021 de la red abiertos para los experimentos de AutoML. Para abrir estos puertos o confirmar que están abiertos, examine la configuración del firewall de VPN en la nube y las reglas del grupo de seguridad, o bien póngase en contacto con el administrador de la nube local. Para obtener información adicional sobre la configuración e implementación del área de trabajo, consulte Creación de un área de trabajo.

  • Use un recurso de proceso con un modo de acceso de proceso compatible. No todos los modos de acceso de proceso tienen acceso al catálogo de Unity:

    Modo de acceso a procesos Compatibilidad con AutoML Compatibilidad con Unity Catalog
    usuario único Compatible (debe ser el usuario único designado para el clúster) Compatible
    Modo de acceso compartido No compatible No compatible
    Sin aislamiento compartido Compatible No admitidas

Algoritmos de AutoML

Mosaic AutoML entrena y evalúa modelos basados en los algoritmos de la tabla siguiente.

Nota:

En el caso de los modelos de clasificación y regresión, el árbol de decisión, los bosques aleatorios, la regresión logística y la regresión lineal con algoritmos de descenso de gradiente estocástico se basan en scikit-learn.

Modelos de clasificación Modelos de regresión Modelos de previsión
Árboles de decisión Árboles de decisión Prophet
Bosques aleatorios Bosques aleatorios Auto-ARIMA (disponible en Databricks Runtime 10.3 ML y posteriores).
Regresión logística Regresión lineal con descenso de gradiente estocástico
XGBoost XGBoost
LightGBM LightGBM

Generación de cuadernos de prueba

AutoML genera cuadernos del código fuente en las versiones de prueba para que pueda revisar, reproducir y modificar el código según sea necesario.

En el caso de los experimentos de previsión, los cuadernos que genera AutoML se importan automáticamente al área de trabajo para todas las versiones de prueba del experimento.

En el caso de los experimentos de clasificación y regresión, tanto los cuadernos que genera AutoML para la exploración de datos como la mejor prueba del experimento se importan automáticamente al área de trabajo. Los cuadernos generados para otras versiones de prueba de experimentos se guardan como artefactos de MLflow en DBFS, en lugar de importarlos automáticamente en el área de trabajo. Para todas las pruebas además de la mejor prueba, no se establecen notebook_path ni notebook_url en la API de Python TrialInfo. Si necesita usar estos cuadernos, puede importarlos manualmente en el área de trabajo con la interfaz de usuario del experimento de AutoML o databricks.automl.import_notebook Python API.

Si solo usa el cuaderno de exploración de datos o el de mejor prueba generado por AutoML, la columna Origen de la interfaz de usuario del experimento AutoML contiene el vínculo al cuaderno generado para la mejor prueba.

Si usa otros cuadernos generados en la interfaz de usuario del experimento de AutoML, estos no se importarán automáticamente en el área de trabajo. Puede encontrar los cuadernos si hace clic en cada ejecución de MLflow. El cuaderno de IPython se guarda en la sección Artefactos de la página de ejecución. Puede descargar este cuaderno e importarlo en el área de trabajo, si los administradores del área de trabajo han habilitado la descarga de artefactos.

Valores de Shapley (SHAP) para la explicabilidad del modelo

Nota:

Ni en MLR 11.1 ni en las versiones anteriores se generan trazados de SHAP si el conjunto de datos contiene una columna datetime.

Los cuadernos generados por las ejecuciones de regresión y clasificación de AutoML incluyen código para calcular los valores de Shapley. Los valores de Shapley se basan en la teoría de juegos y estiman la importancia de cada característica en las predicciones de un modelo.

Los cuadernos de AutoML usan el paquete SHAP para calcular los valores de Shapley. Al consumir mucha memoria, estos cálculos no se realizan de forma predeterminada.

Para calcular y mostrar valores de Shapley:

  1. Vaya a la sección Importancia de las características en un cuaderno de prueba generado por AutoML.
  2. Establezca shap_enabled = True.
  3. Vuelva a ejecutar el cuaderno.

Pasos siguientes