O que é Mosaic AutoML?

O Mosaic AutoML simplifica o processo de aplicação de aprendizado de máquina aos seus conjuntos de dados, encontrando automaticamente o melhor algoritmo e configuração de hiperparâmetros para você.

Forneça seu conjunto de dados e especifique o tipo de problema de aprendizado de máquina e, em seguida, o AutoML faz o seguinte:

  1. Limpa e prepara os seus dados.
  2. Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.
  3. Encontra o melhor modelo usando algoritmos de avaliação de código aberto de scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
  4. Apresenta os resultados. O AutoML também gera blocos de anotações de código-fonte para cada avaliação, permitindo que você revise, reproduza e modifique o código conforme necessário.

Comece a usar experimentos de AutoML por meio de uma interface do usuário low-code ou da API do Python.

Requerimentos

  • Databricks Runtime 9.1 ML ou superior. Para a versão de disponibilidade geral (GA), Databricks Runtime 10.4 LTS ML ou superior.

    • Para previsão de séries temporais, Databricks Runtime 10.0 ML ou superior.
    • Com o Databricks Runtime 9.1 LTS ML e superior, o AutoML depende do databricks-automl-runtime pacote, que contém componentes que são úteis fora do AutoML e também ajuda a simplificar os notebooks gerados pelo treinamento AutoML. databricks-automl-runtimeestá disponível no PyPI.
  • Nenhuma biblioteca adicional além daquelas pré-instaladas no Databricks Runtime for Machine Learning deve ser instalada no cluster.

    • Qualquer modificação (remoção, upgrades ou downgrades) em versões de bibliotecas existentes resulta em falhas de execução devido a incompatibilidade.
  • Para acessar arquivos em seu espaço de trabalho, você deve ter as portas de rede 1017 e 1021 abertas para experimentos AutoML. Para abrir essas portas ou confirmar que estão abertas, revise a configuração do firewall VPN na nuvem e as regras do grupo de segurança ou entre em contato com o administrador da nuvem local. Para obter informações adicionais sobre configuração e implantação de espaços de trabalho, consulte Criar um espaço de trabalho.

  • Use um recurso de computação com um modo de acesso de computação suportado. Nem todos os modos de acesso de computação têm acesso ao Catálogo Unity:

    Modo de acesso de computação Suporte a AutoML Suporte ao Catálogo Unity
    utilizador único Suportado (deve ser o único usuário designado para o cluster) Suportado
    Modo de acesso compartilhado Não suportado Não suportado
    Nenhum isolamento compartilhado Suportado Não suportado

Algoritmos AutoML

O Mosaic AutoML treina e avalia modelos com base nos algoritmos da tabela a seguir.

Nota

Para modelos de classificação e regressão, a árvore de decisão, florestas aleatórias, regressão logística e regressão linear com algoritmos de descida de gradiente estocástico são baseados em scikit-learn.

Modelos de classificação Modelos de regressão Modelos de previsão
Árvores de decisões Árvores de decisões Profeta
Florestas aleatórias Florestas aleatórias Auto-ARIMA (Disponível no Databricks Runtime 10.3 ML e superior.)
Regressão logística Regressão linear com descida de gradiente estocástico
XGBoost XGBoost
LightGBM LightGBM

Geração de notebook de avaliação

O AutoML gera blocos de anotações do código-fonte por trás das avaliações para que você possa revisar, reproduzir e modificar o código conforme necessário.

Para experiências de previsão, os blocos de notas gerados pelo AutoML são automaticamente importados para a sua área de trabalho para todas as versões experimentais da sua experiência.

Para experimentos de classificação e regressão, os blocos de anotações gerados pelo AutoML para exploração de dados e a melhor avaliação em seu experimento são importados automaticamente para seu espaço de trabalho. Os blocos de anotações gerados para outras avaliações de experimentos são salvos como artefatos MLflow no DBFS em vez de importados automaticamente para seu espaço de trabalho. Para todos os testes, além do melhor teste, o notebook_path e notebook_url na API Python TrialInfo não estão definidos. Se você precisar usar esses blocos de anotações, poderá importá-los manualmente para seu espaço de trabalho com a interface do usuário do experimento AutoML ou a API do databricks.automl.import_notebook Python.

Se você usar apenas o bloco de anotações de exploração de dados ou o melhor bloco de anotações de avaliação gerado pelo AutoML, a coluna Origem na interface do usuário do experimento AutoML conterá o link para o bloco de anotações gerado para a melhor avaliação.

Se você usar outros blocos de anotações gerados na interface do usuário do experimento AutoML, eles não serão importados automaticamente para o espaço de trabalho. Você pode encontrar os blocos de anotações clicando em cada execução do MLflow. O bloco de anotações IPython é salvo na seção Artefatos da página de execução. Você pode baixar este bloco de anotações e importá-lo para o espaço de trabalho, se o download de artefatos estiver habilitado pelos administradores do espaço de trabalho.

Valores de Shapley (SHAP) para explicabilidade do modelo

Nota

Para MLR 11.1 e inferior, os gráficos SHAP não são gerados se o conjunto de dados contiver uma datetime coluna.

Os notebooks produzidos pela regressão AutoML e as execuções de classificação incluem código para calcular os valores de Shapley. Os valores de Shapley são baseados na teoria dos jogos e estimam a importância de cada característica para as previsões de um modelo.

Os notebooks AutoML calculam os valores Shapley usando o pacote SHAP. Como esses cálculos consomem muita memória, os cálculos não são executados por padrão.

Para calcular e exibir valores de Shapley:

  1. Vá para a seção Importância do recurso em um bloco de anotações de avaliação gerado pelo AutoML.
  2. Definir shap_enabled = True.
  3. Execute novamente o bloco de notas.

Próximos passos