Visão geral do LightGBM no SynapseML

O LightGBM é uma estrutura de gradient boosting (GBDT, GBRT, GBM ou MART) de código aberto, distribuída e de alto desempenho. Essa estrutura é especializada na criação de algoritmos de árvore de decisão de alta qualidade e habilitados para GPU para ranqueamento, classificação e muitas outras tarefas de machine learning. O LightGBM faz parte do projeto DMTK da Microsoft.

Vantagens do LightGBM

  • Composição: os modelos LightGBM podem ser incorporados em pipelines SparkML existentes e usados para cargas de trabalho em lote, streaming e serviço.
  • Desempenho: o LightGBM no Spark é 10-30% mais rápido que o SparkML no conjunto de dados de Higgs e atinge um aumento de 15% na AUC. Os Experimentos paralelos verificaram que o LightGBM pode obter uma aceleração linear usando vários computadores de treinamento nas configurações específicas.
  • Funcionalidade: o LightGBM oferece uma ampla variedade de parâmetros ajustáveis que podem ser usados para personalizar o sistema de árvore de decisão. O LightGBM no Spark também dá suporte aos novos tipos de problemas, como regressão quantile.
  • Plataforma cruzada: o LightGBM no Spark está disponível no Spark, PySpark e SparklyR.

Uso do LightGBM

  • LightGBMClassifier: usado para criar modelos de classificação. Por exemplo, para prever se uma empresa faliu ou não, poderíamos criar um modelo de classificação binária com LightGBMClassifier.
  • LightGBMRegressor: usado para criar modelos de regressão. Por exemplo, para prever o preço da habitação, poderíamos criar um modelo de regressão com LightGBMRegressor.
  • LightGBMRanker: usado para criar modelos de classificação. Por exemplo, para prever a relevância dos resultados da pesquisa de sites, poderíamos criar um modelo de classificação com LightGBMRanker.