Visão geral do LightGBM no SynapseML

O LightGBM é uma estrutura de aumento de gradiente (GBDT, GBRT, GBM ou MART) de código aberto, distribuída e de alto desempenho. Essa estrutura é especializada na criação de algoritmos de árvore de decisão de alta qualidade e habilitados para GPU para classificação, classificação e muitas outras tarefas de aprendizado de máquina. LightGBM faz parte do projeto DMTK da Microsoft.

Vantagens do LightGBM

  • Composability: Os modelos LightGBM podem ser incorporados em pipelines SparkML existentes e usados para cargas de trabalho em lote, streaming e serviço.
  • Desempenho: O LightGBM no Spark é 10-30% mais rápido do que o SparkML no conjunto de dados de Higgs e alcança um aumento de 15% na AUC. Experimentos paralelos verificaram que o LightGBM pode atingir uma velocidade linear usando várias máquinas para treinamento em configurações específicas.
  • Funcionalidade: LightGBM oferece uma ampla gama de parâmetros ajustáveis, que se pode usar para personalizar seu sistema de árvore de decisão. O LightGBM no Spark também suporta novos tipos de problemas, como regressão quantílica.
  • Plataforma cruzada: LightGBM no Spark está disponível no Spark, PySpark e SparklyR.

Uso do LightGBM

  • LightGBMClassifier: usado para construir modelos de classificação. Por exemplo, para prever se uma empresa falirá ou não, poderíamos construir um modelo de classificação binária com LightGBMClassifier.
  • LightGBMRegressor: usado para construir modelos de regressão. Por exemplo, para prever o preço da habitação, poderíamos construir um modelo de regressão com LightGBMRegressor.
  • LightGBMRanker: usado para construir modelos de classificação. Por exemplo, para prever a relevância dos resultados de pesquisa do site, poderíamos construir um modelo de classificação com LightGBMRanker.