TextCatalog.ProduceWordBags Metodo

Definizione

Overload

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

Creare un WordBagEstimatoroggetto , che esegue il mapping della colonna specificata in inputColumnName a un vettore di conteggi n-gram in una nuova colonna denominata outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Creare un WordBagEstimatoroggetto , che esegue il mapping della colonna specificata in inputColumnName a un vettore di conteggi n-gram in una nuova colonna denominata outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Creare un WordBagEstimatoroggetto , che esegue il mapping delle più colonne specificate in a un vettore di conteggi n-gram in inputColumnNames una nuova colonna denominata outputColumnName.

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

Creare un WordBagEstimatoroggetto , che esegue il mapping della colonna specificata in inputColumnName a un vettore di conteggi n-gram in una nuova colonna denominata outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, char termSeparator, char freqSeparator, string inputColumnName = default, int maximumNgramsCount = 10000000);

Parametri

catalog
TransformsCatalog.TextTransforms

Catalogo della trasformazione.

outputColumnName
String

Nome della colonna risultante dalla trasformazione di inputColumnName. Il tipo di dati di questa colonna sarà vettore di dimensioni note di Single.

termSeparator
Char
freqSeparator
Char
inputColumnName
String

Nome della colonna da cui eseguire i dati. Numero massimo di n grammi da archiviare nel dizionario.Separatore usato per separare le coppie termini/frequenza.Separatore usato per separare i termini dalla frequenza. Questo strumento di stima opera sul vettore di testo.

maximumNgramsCount
Int32

Restituisce

Commenti

WordBagEstimator è diverso da NgramExtractingEstimator in quanto il precedente tokenzza il testo internamente e quest'ultimo accetta testo tokenizzato come input.

Si applica a

ML.NET 3.0.0
Prodotto Versioni
ML.NET 3.0.0

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Creare un WordBagEstimatoroggetto , che esegue il mapping della colonna specificata in inputColumnName a un vettore di conteggi n-gram in una nuova colonna denominata outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, int maximumNgramsCount = 10000000, Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria weighting = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf);

Parametri

catalog
TransformsCatalog.TextTransforms

Catalogo della trasformazione.

outputColumnName
String

Nome della colonna risultante dalla trasformazione di inputColumnName. Il tipo di dati di questa colonna sarà vettore di dimensioni note di Single.

inputColumnName
String

Nome della colonna da cui eseguire i dati. Questo strumento di stima opera sul vettore di testo.

ngramLength
Int32

Lunghezza Ngram.

skipLength
Int32

Numero massimo di token da ignorare quando si costruisce un n-gram.

useAllLengths
Boolean

Se includere tutte le lunghezze n-gram fino a ngramLength o solo ngramLength.

maximumNgramsCount
Int32

Numero massimo di n grammi da archiviare nel dizionario.

weighting
NgramExtractingEstimator.WeightingCriteria

Misura statistica usata per valutare l'importanza di una parola in un documento in un corpus.

Restituisce

Commenti

WordBagEstimator è diverso da NgramExtractingEstimator in quanto il precedente tokenzza il testo internamente e quest'ultimo accetta testo tokenizzato come input.

Si applica a

ML.NET 3.0.0 e altre versioni
Prodotto Versioni
ML.NET 1.0.0, 1.1.0, 1.2.0, 1.3.1, 1.4.0, 1.5.0, 1.6.0, 1.7.0, 2.0.0, 3.0.0

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

Creare un WordBagEstimatoroggetto , che esegue il mapping delle più colonne specificate in a un vettore di conteggi n-gram in inputColumnNames una nuova colonna denominata outputColumnName.

public static Microsoft.ML.Transforms.Text.WordBagEstimator ProduceWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, int maximumNgramsCount = 10000000, Microsoft.ML.Transforms.Text.NgramExtractingEstimator.WeightingCriteria weighting = Microsoft.ML.Transforms.Text.NgramExtractingEstimator+WeightingCriteria.Tf);

Parametri

catalog
TransformsCatalog.TextTransforms

Catalogo della trasformazione.

outputColumnName
String

Nome della colonna risultante dalla trasformazione di inputColumnNames. Il tipo di dati di questa colonna sarà vettore di dimensioni note di Single.

inputColumnNames
String[]

Nomi delle più colonne da cui eseguire i dati. Questo strumento di stima opera sul vettore di testo.

ngramLength
Int32

Lunghezza Ngram.

skipLength
Int32

Numero massimo di token da ignorare quando si costruisce un n-gram.

useAllLengths
Boolean

Se includere tutte le lunghezze n-gram fino a ngramLength o solo ngramLength.

maximumNgramsCount
Int32

Numero massimo di n grammi da archiviare nel dizionario.

weighting
NgramExtractingEstimator.WeightingCriteria

Misura statistica usata per valutare l'importanza di una parola in un documento in un corpus.

Restituisce

Commenti

WordBagEstimator è diverso da NgramExtractingEstimator in quanto il precedente tokenzza il testo internamente e quest'ultimo accetta testo tokenizzato come input.

Si applica a

ML.NET 3.0.0 e altre versioni
Prodotto Versioni
ML.NET 1.0.0, 1.1.0, 1.2.0, 1.3.1, 1.4.0, 1.5.0, 1.6.0, 1.7.0, 2.0.0, 3.0.0