O que é o Mosaic AutoML?

O Mosaic AutoML simplifica o processo de aplicação de aprendizado de máquina aos seus conjuntos de dados, encontrando automaticamente o melhor algoritmo e configuração de hiperparâmetro para você.

Forneça seu conjunto de dados e especifique o tipo de problema de aprendizado de máquina. Em seguida, o AutoML fará o seguinte:

  1. Limpa e prepara seus dados.
  2. Orquestra o treinamento de modelo distribuído e o ajuste de hiperparâmetro em vários algoritmos.
  3. Localiza o melhor modelo usando algoritmos de avaliação de software livre de scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
  4. Apresenta os resultados. O AutoML também gera notebooks de código-fonte para cada avaliação, permitindo que você examine, reproduza e modifique o código conforme necessário.

Introdução aos experimentos de AutoML por meio de uma interface do usuário de low-code ou a API do Python.

Requisitos

  • Databricks Runtime 9.1 ML ou superior. Para a versão de GA (disponibilidade geral), o Databricks Runtime 10.4 LTS ML ou superior.

    • Para previsão de série temporal, Databricks Runtime 10.0 ML ou superior.
    • Com o Databricks Runtime 9.1 LTS ML e superior, o AutoML depende do pacote databricks-automl-runtime, que contém os componentes que são úteis fora do AutoML e também ajuda a simplificar os blocos de anotações gerados pelo treinamento do AutoML. databricks-automl-runtime está disponível em PyPI.
  • Nenhuma biblioteca adicional, além daquelas instaladas previamente no Databricks Runtime for Machine Learning, deve ser instalada no cluster.

    • Qualquer modificação (remoção, atualizações ou realização de downgrade) para as versões de bibliotecas existentes resulta em falhas de execução devido à incompatibilidade.
  • Para acessar arquivos no seu workspace, você deve ter as portas de rede 1017 e 1021 abertas para experimentos de AutoML. Para abrir essas portas ou confirmar se estão abertas, revise a configuração do firewall da VPN na nuvem e as regras do grupo de segurança ou contate o administrador da nuvem local. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.

  • Use um recurso de computação com um modo de acesso de computação compatível. Nem todos os modos de acesso de computação têm acesso ao Catálogo do Unity:

    Computar modo de acesso Suporte ao AutoML Suporte ao Catálogo do Unity
    Usuário único Com suporte (deve ser o usuário único designado para o cluster) Com suporte
    Modo de acesso compartilhado Sem suporte Sem suporte
    Sem isolamento compartilhado Com suporte Sem suporte

Algoritmos AutoML

O Mosaic AutoML treina e avalia modelos com base nos algoritmos da tabela a seguir.

Observação

Para os modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descendente de gradiente estocástico são baseadas no scikit-learn.

Modelos de classificação Modelos de regressão Modelos de previsão
Árvores de decisão Árvores de decisão Prophet
Florestas aleatórias Florestas aleatórias Auto-ARIMA (disponível no Databricks Runtime 10.3 ML e superior.)
Regressão logística Regressão linear com espaço descendente de gradiente aleatório
XGBoost XGBoost
LightGBM LightGBM

Geração de notebook de avaliação

O AutoML gera notebooks do código-fonte por trás de avaliações para que você possa examinar, reproduzir e modificar o código conforme necessário.

Para previsão de experimentos, os notebooks gerados pelo AutoML são importados automaticamente para o workspace para todas as avaliações do experimento.

Para experimentos de classificação e regressão, os notebooks gerados pelo AutoML para exploração de dados e a melhor avaliação em seu experimento são automaticamente importados para o seu workspace. Os notebooks gerados para outras avaliações de experimento são salvos como artefatos do MLflow no DBFS, em vez de importados automaticamente para o seu workspace. Para todas as avaliações além da melhor avaliação, o notebook_path e notebook_url na API do Python TrialInfo não estão definidos. Se você precisar usar esses notebooks, poderá importá-los manualmente para seu workspace com a interface do usuário do experimento AutoML ou a databricks.automl.import_notebookAPI do Python.

Se você usar apenas o notebook de exploração de dados ou o bloco de anotações de melhor avaliação gerado pelo AutoML, a coluna Origem na interface do usuário do experimento AutoML conterá o link para o notebook gerado para a melhor avaliação.

Se você usar outros notebooks gerados na interface do usuário do experimento AutoML, eles não serão importados automaticamente para o workspace. Você pode encontrar os blocos de anotações clicando em cada execução do MLflow. O notebook IPython é salvo na seção Artefatos da página de execução. Você pode baixar esse notebook e importá-lo para o workspace se o download de artefatos tiver sido habilitado pelos administradores do seu workspace.

Valores de Shapley (SHAP) para explicabilidade de modelo

Observação

Para o MLR 11.1 e versões anteriores, os gráficos SHAP não serão gerados se o conjunto de dados contiver uma coluna datetime.

Os notebooks produzidos pela regressão de AutoML e execuções de classificação incluem código para calcular valores de Shapley. Os valores de Shapley são baseados na teoria do jogo e estimam a importância de cada recurso para as previsões de um modelo.

Os notebooks AutoML calculam valores Shapley usando o pacote SHAP. Como esses cálculos têm uso muito intenso de memória, eles não são executados por padrão.

Para calcular e exibir valores de Shapley:

  1. Vá para a seção Importância do recurso em um notebook de avaliação gerado por AutoML.
  2. Defina shap_enabled = True.
  3. Execute novamente o notebook.

Próximas etapas