Vorgehensweise: Bearbeiten einer Thesaurusdatei (Volltextsuche)

Der Thesaurus für eine bestimmte Sprache kann durch Bearbeiten der zugehörigen Thesaurusdatei (einer XML-Datei) konfiguriert werden. Beim Setup werden leere Thesaurusdateien installiert, die nur den <xml>-Container und ein auskommentiertes Beispiel für ein <thesaurus>-Element enthalten. Damit Volltextsuchabfragen, mit denen nach Synonymen gesucht wird, ordnungsgemäß ausgeführt werden, müssen Sie ein tatsächliches <thesaurus>-Element erstellen, das eine Gruppe von Synonymen definiert. Sie können zwei Formen von Synonymen definieren, nämlich Erweiterungssätze und Ersetzungssätze. Informationen zum Speicherort und zur Struktur einer Thesaurusdatei finden Sie unter Thesauruskonfiguration.

Einschränkungen für Thesaurusdateien

Beim Bearbeiten einer Thesaurusdatei gelten die folgenden Einschränkungen:

  • Nur Systemadministratoren können Thesaurusdateien aktualisieren, ändern und löschen.

  • Wenn Sie Thesaurusdateien mithilfe von Text-Editor-Tools bearbeiten, müssen die Dateien im Unicode-Format gespeichert und Bytereihenfolgemarken (Byte Order Marks, BOM) angegeben werden.

  • Thesauruseinträge dürfen nicht leer sein oder eine Wörtertrennung zu einer leeren Zeichenfolge aufweisen.

  • Ausdrücke in der Thesaurusdatei dürfen aus höchstens 512 Zeichen bestehen.

  • Ein Thesaurus darf in den <sub>-Einträgen von Erweiterungssätzen und in den <pat>-Elementen von Ersetzungssätzen keine doppelten Einträge enthalten.

Empfehlungen für Thesaurusdateien

Einträge in der Thesaurusdatei sollten keine Sonderzeichen enthalten. Dies wird deshalb empfohlen, weil die Wörtertrennung auf Sonderzeichen sehr fein reagiert. Wenn ein Thesauruseintrag Sonderzeichen enthält, kann die Verwendung der Wörtertrennung in Kombination mit diesem Eintrag schwer erkennbare Auswirkungen auf das Verhalten einer Volltextabfrage haben.

Es wird empfohlen, in <sub>-Einträgen keine Stoppwörter zu verwenden, da Stoppwörter im Volltextindex ausgelassen werden. Abfragen werden erweitert, um die <sub>-Einträge in einer Thesaurusdatei einzubeziehen, und wenn ein <sub>-Eintrag Stoppwörter enthält, nimmt die Abfrage unnötigerweise an Größe zu.

So bearbeiten Sie eine Thesaurusdatei

  1. Öffnen Sie die Thesaurusdatei in Editor.

  2. Wenn Sie die Thesaurusdatei zum ersten Mal bearbeiten, entfernen Sie die folgenden Kommentarzeilen am Anfang bzw. Ende der Datei:

    <!--Commented out
    -->
    
  3. Fügen Sie einen Ersetzungs- oder Erweiterungssatz hinzu, ändern oder löschen Sie ihn. Weitere Informationen finden Sie unter Thesauruskonfiguration.

  4. Speichern Sie die Datei, und schließen Sie Editor.

  5. Verwenden Sie sp_fulltext_load_thesaurus_file, um den Inhalt der Thesaurusdatei in tempdb zu laden, und geben Sie den Gebietsschemabezeichner (LCID) an, der der Sprache der Thesaurusdatei entspricht. So lautet z. B. für die englischsprachige Thesaurusdatei tsenu.xml der LCID 1033.

    USE AdventureWorks ;
    EXEC sys.sp_fulltext_load_thesaurus_file 1033;
    GO