Visão geral do LightGBM no SynapseML
O LightGBM é uma estrutura de gradient boosting (GBDT, GBRT, GBM ou MART) de código aberto, distribuída e de alto desempenho. Essa estrutura é especializada na criação de algoritmos de árvore de decisão de alta qualidade e habilitados para GPU para ranqueamento, classificação e muitas outras tarefas de machine learning. O LightGBM faz parte do projeto DMTK da Microsoft.
Vantagens do LightGBM
- Composição: os modelos LightGBM podem ser incorporados em pipelines SparkML existentes e usados para cargas de trabalho em lote, streaming e serviço.
- Desempenho: o LightGBM no Spark é 10-30% mais rápido que o SparkML no conjunto de dados de Higgs e atinge um aumento de 15% na AUC. Os Experimentos paralelos verificaram que o LightGBM pode obter uma aceleração linear usando vários computadores de treinamento nas configurações específicas.
- Funcionalidade: o LightGBM oferece uma ampla variedade de parâmetros ajustáveis que podem ser usados para personalizar o sistema de árvore de decisão. O LightGBM no Spark também dá suporte aos novos tipos de problemas, como regressão quantile.
- Plataforma cruzada: o LightGBM no Spark está disponível no Spark, PySpark e SparklyR.
Uso do LightGBM
- LightGBMClassifier: usado para criar modelos de classificação. Por exemplo, para prever se uma empresa faliu ou não, poderíamos criar um modelo de classificação binária com
LightGBMClassifier
. - LightGBMRegressor: usado para criar modelos de regressão. Por exemplo, para prever o preço da habitação, poderíamos criar um modelo de regressão com
LightGBMRegressor
. - LightGBMRanker: usado para criar modelos de classificação. Por exemplo, para prever a relevância dos resultados da pesquisa de sites, poderíamos criar um modelo de classificação com
LightGBMRanker
.