Normalizzazione del modulo di superficie

Anche se le parole e le regole linguistiche differiscono notevolmente, esistono alcune considerazioni, ad esempio numeri, date e ore, gestite in modo coerente in tutti i word breaker. In questo argomento vengono illustrate le considerazioni sulla normalizzazione che possono influire sull'implementazione del word breaker.

Questo argomento è organizzato come segue:

Sillabazione

I trattini (-) vengono utilizzati tra le parti di una parola composta o un nome. Vengono usati anche tra le sillabe di una parola quando la parola viene divisa alla fine di una riga di testo. In inglese, le parole vengono unite con trattini per indicare una relazione speciale nel contesto, ma tali parole potrebbero in genere non essere trattini in altri contesti; ad esempio"step-by-step". Durante la creazione dell'indice, il word breaker deve considerare il trattino come separatore di parole. Ad esempio, "data-base" verrebbe archiviato come "dati" più "base". In fase di query, una frase sillabata deve essere sostituita con due alternative: la variante a due parole e il composto true. Ad esempio, "data-base" verrebbe sostituito da "dati" più "base" e "database". Questa differenza tra il tempo di indicizzazione e di query aumenta le combinazioni di rappresentazioni per le parole sillabate e semplifica la corrispondenza delle parole in una query.

Nella tabella seguente viene illustrato come considerare i trattini come separatori di parole nella lingua inglese aumenta il numero di termini di query corrispondenti per ogni termine incluso nell'indice.

Termini inclusi nell'indice Corrispondenze in fase di query
Base dati data base, data-base
Base dati data base, data-base
Database data-base, database

 

Possessivi

I possessivi sono variazioni in un sostantivo che indica il possesso. I possessivi inglesi sono rappresentati aggiungendo un apostrofo (') o un apostrofo e un s (s) a una parola. Ad esempio, per indicare il possesso, la parola "Maria" è rappresentata come "Maria". Il word breaker genera sia l'apostrofo che le forme apostrofo-s in fase di query. Le query per "Mary" devono corrispondere sia a "Maria" che a "Maria".

Segni diacritici

I segni diacritici vengono aggiunti a una lettera o a un fonema per indicare un valore fonetico speciale per la pronuncia. I segni diacritici possono distinguere le parole che sono altrimenti identiche graficamente; ad esempio "resume" e "resumé" in inglese. Tuttavia, il salvataggio dei segni diacritici nell'indice aumenta il numero di chiavi di parole univoche nell'indice, rallentando le prestazioni delle query. Se i segni diacritici vengono usati solo in un linguaggio minimo, il word breaker per tale linguaggio deve rimuoverli durante la creazione dell'indice e l'esecuzione di query. Ad esempio, il word breaker in inglese genera "resume" durante l'elaborazione di "resumé", causando solo un impatto minimo sulla pertinenza dei risultati della query.

Clitici

Un clitico è una parola non strissed che è incapace di stare da sola e allega a una parola stressata per formare una singola unità. I clitici non possono essere facilmente classificati come fonetici, sintattici o morfologici. I clitici sono disponibili in due tipi: proclitici e enclitici. I proclitici si collegano all'inizio di una parola. Gli enclitici si collegano alla fine di una parola.

I clitici sono più difficili da analizzare in lingue come lo spagnolo. Un verbo spagnolo può generare molte forme di superficie, a seconda del tempo teso. È necessario tenere presenti considerazioni tra la rimozione dell'interfaccia clitica durante la creazione dell'indice e la generazione dei moduli di superficie tramite stemming in fase di query. La rimozione dei clitici nei casi in cui la morfologia della composizione clitica è ambigua può portare a risultati imprevedibili. La generazione di un numero elevato di moduli di superficie per una parola aumenta le dimensioni dell'indice full-text e può rallentare le prestazioni delle query. È consigliabile che lo stemmer generi solo un numero ridotto di forme di superficie.