minCount : mode de sélection du nombre de fonctionnalités

Mode de dénombrement de sélection de caractéristiques utilisé dans la transformation de sélection de caractéristiques selectFeatures.

Utilisation

  minCount(count = 1, ...)

Arguments

count

Seuil pour la sélection des caractéristiques en fonction de la valeur de comptage. Une caractéristique est sélectionnée si et seulement si elle comporte une valeur autre que la valeur par défaut dans au moins count des exemples. La valeur par défaut est 1.

...

Arguments supplémentaires à passer directement au moteur de calcul Microsoft.

Détails

Lorsque vous utilisez le mode de comptage dans la transformation de sélection de caractéristiques, une caractéristique est sélectionnée si le nombre d’exemples possède au moins le nombre spécifié d’exemples de valeurs explicites (autres que les valeurs par défaut) dans la caractéristique. La transformation de sélection de caractéristiques du mode de comptage est utile lorsqu’elle est appliquée avec une transformation de hachage catégorique (voir aussi categoricalHash). La sélection de caractéristiques du mode de comptage peut supprimer les caractéristiques générées par la transformation de hachage n’ayant pas de données dans les exemples.

Valeur

Chaîne de caractères définissant le mode de dénombrement.

Auteur(s)

Microsoft Corporation Microsoft Technical Support

Voir aussi

mutualInformation selectFeatures

Exemples


 trainReviews <- data.frame(review = c( 
         "This is great",
         "I hate it",
         "Love it",
         "Do not like it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I kind of hate it",
         "I do like it",
         "I really hate it",
         "It is very good",
         "I hate it a bunch",
         "I love it a bunch",
         "I hate it",
         "I like it very much",
         "I hate it very much.",
         "I really do love it",
         "I really do hate it",
         "Love it!",
         "Hate it!",
         "I love it",
         "I hate it",
         "I love it",
         "I hate it",
         "I love it"),
      like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, 
         FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
     )

     testReviews <- data.frame(review = c(
         "This is great",
         "I hate it",
         "Love it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I love it",
         "I do like it",
         "I really hate it",
         "I love it"), stringsAsFactors = FALSE)

 # Use a categorical hash transform which generated 128 features.
 outModel1 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7)))
 summary(outModel1)

 # Apply a categorical hash transform and a count feature selection transform
 # which selects only those hash features that has value.
 outModel2 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(
   categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7), 
   selectFeatures("reviewCatHash", mode = minCount())))
 summary(outModel2)

 # Apply a categorical hash transform and a mutual information feature selection transform
 # which selects those features appearing with at least a count of 5.
 outModel3 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(
   categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7), 
   selectFeatures("reviewCatHash", mode = minCount(count = 5))))
 summary(outModel3)