Avalie seu modelo de ML.NET com métricas

Entenda as métricas usadas para avaliar um modelo de ML.NET.

As métricas de avaliação são específicas para o tipo de tarefa de aprendizado de máquina que um modelo executa.

Por exemplo, para a tarefa de classificação, o modelo é avaliado medindo quão bem uma categoria prevista corresponde à categoria real. E para agrupamentos, a avaliação é baseada em quão próximos os itens agrupados estão uns dos outros, e quanta separação há entre os clusters.

Métricas de avaliação para classificação binária

Métricas do Description Procurar
Exatidão Precisão é a proporção de previsões corretas com um conjunto de dados de teste. É a razão entre o número de previsões corretas e o número total de amostras de entrada. Funciona bem se houver um número semelhante de amostras pertencentes a cada classe. Quanto mais próximo de 1,00, melhor. Mas exatamente 1,00 indica um problema (comumente: vazamento de rótulo/alvo, sobreajuste ou teste com dados de treinamento). Quando os dados de teste estão desequilibrados (onde a maioria das instâncias pertence a uma das classes), o conjunto de dados é pequeno ou as pontuações se aproximam de 0,00 ou 1,00, a precisão realmente não captura a eficácia de um classificador e você precisa verificar métricas adicionais.
AUC aucROC ou Área sob a curva mede a área sob a curva criada pela varredura da taxa positiva verdadeira vs. a taxa de falso positivo. Quanto mais próximo de 1,00, melhor. Deve ser superior a 0,50 para que um modelo seja aceitável. Um modelo com AUC de 0,50 ou menos não vale nada.
AUCPR aucPR ou Área sob a curva de uma curva Precision-Record: Medida útil do sucesso da previsão quando as classes estão desequilibradas (conjuntos de dados altamente enviesados). Quanto mais próximo de 1,00, melhor. Pontuações altas próximas a 1,00 mostram que o classificador está retornando resultados precisos (alta precisão), e retornando a maioria de todos os resultados positivos (alta recordação).
Pontuação F1 Pontuação F1 também conhecida como pontuação F equilibrada ou medida F. É o meio harmônico da precisão e da recordação. F1 Score é útil quando você quer buscar um equilíbrio entre Precisão e Recall. Quanto mais próximo de 1,00, melhor. Uma pontuação na F1 atinge seu melhor valor em 1,00 e a pior pontuação em 0,00. Indica-lhe a precisão do seu classificador.

Para obter mais detalhes sobre métricas de classificação binária, leia os seguintes artigos:

Métricas de avaliação para classificação multiclasse e classificação de texto

Métricas do Description Procurar
Micro-Precisão A Precisão Micromédia agrega as contribuições de todas as classes para calcular a métrica média. É a fração de instâncias previstas corretamente. A micromédia não leva em conta a pertença à classe. Basicamente, cada par de classe de amostra contribui igualmente para a métrica de precisão. Quanto mais próximo de 1,00, melhor. Em uma tarefa de classificação de várias classes, a microprecisão é preferível à precisão da macro se você suspeitar que pode haver desequilíbrio de classe (ou seja, você pode ter muito mais exemplos de uma classe do que de outras classes).
Macro-Precisão Precisão macromédia é a precisão média no nível da classe. A precisão para cada classe é calculada e a precisão macro é a média dessas precisões. Basicamente, cada classe contribui igualmente para a métrica de precisão. Às classes minoritárias é atribuído o mesmo peso que às classes maiores. A métrica de macromédia dá o mesmo peso a cada classe, não importa quantas instâncias dessa classe o conjunto de dados contenha. Quanto mais próximo de 1,00, melhor. Ele calcula a métrica independentemente para cada classe e, em seguida, toma a média (portanto, tratando todas as classes igualmente)
Perda de log A perda logarítmica mede o desempenho de um modelo de classificação onde a entrada de previsão é um valor de probabilidade entre 0,00 e 1,00. A perda de log aumenta à medida que a probabilidade prevista diverge do rótulo real. Quanto mais próximo de 0,00, melhor. Um modelo perfeito teria uma perda de log de 0,00. O objetivo dos nossos modelos de aprendizagem automática é minimizar este valor.
Redução de perda de log A redução da perda logarítmica pode ser interpretada como a vantagem do classificador sobre uma previsão aleatória. Varia de -inf e 1,00, onde 1,00 é previsões perfeitas e 0,00 indica previsões médias. Por exemplo, se o valor for igual a 0,20, pode ser interpretado como "a probabilidade de uma previsão correta é 20% melhor do que uma adivinhação aleatória"

A microprecisão geralmente está mais alinhada com as necessidades de negócios das previsões de ML. Se você quiser selecionar uma única métrica para escolher a qualidade de uma tarefa de classificação multiclasse, geralmente deve ser microprecisão.

Por exemplo, para uma tarefa de classificação de tíquetes de suporte: (mapeia tíquetes de entrada para equipes de suporte)

  • Microprecisão — com que frequência um ticket recebido é classificado para a equipe certa?
  • Precisão macro — para uma equipe média, com que frequência um ticket de entrada é correto para sua equipe?

A precisão macro sobrecarrega pequenas equipes neste exemplo; Uma equipa pequena que recebe apenas 10 bilhetes por ano conta tanto como uma equipa grande com 10 mil bilhetes por ano. A microprecisão, neste caso, correlaciona-se melhor com a necessidade comercial de "quanto tempo/dinheiro a empresa pode economizar automatizando meu processo de roteamento de tickets".

Para obter mais detalhes sobre métricas de classificação de várias classes, leia os seguintes artigos:

Métricas de Avaliação para Regressão e Recomendação

As tarefas de regressão e recomendação predizem um número. No caso de regressão, o número pode ser qualquer propriedade de saída que é influenciada pelas propriedades de entrada. Para recomendação, o número é geralmente um valor de classificação (entre 1 e 5, por exemplo), ou uma recomendação sim/não (representada por 1 e 0, respectivamente).

Métrico Description Procurar
R-Quadrado R-quadrado (R2), ou Coeficiente de determinação representa o poder preditivo do modelo como um valor entre -inf e 1,00. 1,00 significa que há um ajuste perfeito, e o ajuste pode ser arbitrariamente pobre, de modo que as pontuações podem ser negativas. Uma pontuação de 0,00 significa que o modelo está adivinhando o valor esperado para o rótulo. Um valor R2 negativo indica que o ajuste não segue a tendência dos dados e o modelo tem um desempenho pior do que a adivinhação aleatória. Isso só é possível com modelos de regressão não linear ou regressão linear restrita. R2 mede o quão próximos os valores reais dos dados de teste estão dos valores previstos. Quanto mais próximo de 1,00, melhor qualidade. No entanto, às vezes valores R-quadrados baixos (como 0,50) podem ser totalmente normais ou bons o suficiente para o seu cenário e valores R-quadrados altos nem sempre são bons e desconfie.
Perda absoluta A perda absoluta ou o erro absoluto médio (MAE) mede o quão próximas as previsões estão dos resultados reais. É a média de todos os erros do modelo, onde o erro do modelo é a distância absoluta entre o valor do rótulo previsto e o valor do rótulo correto. Esse erro de previsão é calculado para cada registro do conjunto de dados de teste. Finalmente, o valor médio é calculado para todos os erros absolutos registados. Quanto mais próximo de 0,00, melhor qualidade. O erro absoluto médio usa a mesma escala que os dados que estão sendo medidos (não é normalizado para um intervalo específico). Perda absoluta, perda quadrada e perda RMS só podem ser usadas para fazer comparações entre modelos para o mesmo conjunto de dados ou conjunto de dados com uma distribuição de valor de rótulo semelhante.
Perda ao quadrado Perda quadrada ou Erro Quadrático Médio (MSE), também chamado de Desvio Quadrado Médio (MSD), informa o quão próxima uma linha de regressão está de um conjunto de valores de dados de teste, tomando as distâncias dos pontos até a linha de regressão (essas distâncias são os erros E) e quadrando-os. A quadratura dá mais peso a diferenças maiores. É sempre não-negativo, e valores mais próximos de 0,00 são melhores. Dependendo dos seus dados, pode ser impossível obter um valor muito pequeno para o erro quadrado médio.
Perda de RMS RMS-loss ou Root Mean Squared Error (RMSE) (também chamado de Root Mean Square Deviation, RMSD), mede a diferença entre os valores previstos por um modelo e os valores observados a partir do ambiente que está sendo modelado. RMS-loss é a raiz quadrada da perda quadrada e tem as mesmas unidades que o rótulo, semelhante à perda absoluta, embora dando mais peso a diferenças maiores. O erro quadrático médio da raiz é comumente usado em climatologia, previsão e análise de regressão para verificar resultados experimentais. É sempre não-negativo, e valores mais próximos de 0,00 são melhores. RMSD é uma medida de precisão, para comparar erros de previsão de diferentes modelos para um determinado conjunto de dados e não entre conjuntos de dados, pois é dependente da escala.

Para obter mais detalhes sobre métricas de regressão, leia os seguintes artigos:

Métricas de avaliação para Clustering

Métrico Description Procurar
Distância média Média da distância entre os pontos de dados e o centro do cluster atribuído. A distância média é uma medida de proximidade dos pontos de dados aos centróides do cluster. É uma medida de quão "apertado" é o cluster. Valores mais próximos de 0 são melhores. Quanto mais próxima de zero estiver a distância média, mais agrupados serão os dados. Note, no entanto, que essa métrica diminuirá se o número de clusters for aumentado e, no caso extremo (onde cada ponto de dados distinto é seu próprio cluster), será igual a zero.
Índice Davies Bouldin A relação média entre distâncias dentro do cluster e distâncias entre clusters. Quanto mais apertado for o cluster, e quanto mais distantes estiverem os clusters, menor será este valor. Valores mais próximos de 0 são melhores. Clusters mais distantes e menos dispersos resultarão em uma melhor pontuação.
Informação Mútua Normalizada Pode ser usado quando os dados de treinamento usados para treinar o modelo de agrupamento também vêm com rótulos de verdade básica (ou seja, agrupamento supervisionado). A métrica Informações Mútuas Normalizadas mede se pontos de dados semelhantes são atribuídos ao mesmo cluster e pontos de dados diferentes são atribuídos a clusters diferentes. Informações mútuas normalizadas são um valor entre 0 e 1. Valores mais próximos de 1 são melhores.

Métricas de avaliação para Ranking

Métrico Description Procurar
Ganhos acumulados descontados O ganho acumulado descontado (DCG) é uma medida da qualidade do ranking. Deriva de dois pressupostos. Um: Itens altamente relevantes são mais úteis quando aparecem mais altos na ordem de classificação. Dois: A utilidade rastreia a relevância ou seja, quanto maior a relevância, mais útil um item. O ganho acumulado descontado é calculado para uma posição específica na ordem de classificação. Soma a classificação de relevância dividida pelo logaritmo do índice de classificação até a posição de interesse. É calculado usando $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ As classificações de relevância são fornecidas a um algoritmo de treinamento de classificação como rótulos de verdade básica. Um valor DCG é fornecido para cada posição na tabela de classificação, daí o nome Ganhos Acumulados Descontados. Valores mais altos são melhores.
Ganhos acumulados descontados normalizados A normalização do DCG permite que a métrica seja comparada para listas de classificação de diferentes comprimentos. Valores mais próximos de 1 são melhores.

Métricas de avaliação para deteção de anomalias

Métrico Description Procurar
Área sob a curva ROC A área sob a curva do operador recetor mede o quão bem o modelo separa pontos de dados anômalos e usuais. Valores mais próximos de 1 são melhores. Apenas valores superiores a 0,5 demonstram a eficácia do modelo. Valores iguais ou inferiores a 0,5 indicam que o modelo não é melhor do que alocar aleatoriamente as entradas em categorias anómalas e habituais.
Taxa de deteção na contagem de falsos positivos A taxa de deteção na contagem de falsos positivos é a razão entre o número de anomalias corretamente identificadas e o número total de anomalias num conjunto de testes, indexado por cada falso positivo. Ou seja, há um valor para a taxa de deteção na contagem de falsos positivos para cada item falso positivo. Valores mais próximos de 1 são melhores. Se não houver falsos positivos, então este valor é 1.

Métricas de avaliação para semelhança de frases

Métrico Description Procurar
Correlação de Pearson A correlação de Pearson, também conhecida como coeficiente de correlação, mede a dependência ou relação entre dois conjuntos de dados. Os valores absolutos mais próximos de 1 são mais semelhantes. Essa métrica varia de -1 a 1. Um valor absoluto de 1 implica que os conjuntos de dados são idênticos. Um valor de 0 implica que não há relação entre os dois conjuntos de dados.