Optionen - dataflow_designer - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092
  1. Doppelklicken Sie im Enterprise Designer auf den „Write to Search Index“-Schritt auf der Arbeitsfläche.
  2. Geben Sie einen Namen für den Index ein.
  3. Wählen Sie einen Schreibmodus aus. Wenn Sie einen Index erneut generieren, haben Sie verschiedene Optionen, wie die neuen Daten sich auf die vorhandenen Daten auswirken.
    • Erstellen oder überschreiben: Neue Daten überschreiben die vorhandene Daten. Die vorher vorhandenen Daten sind nicht mehr im Index enthalten.
    • Aktualisieren oder anfügen: Neue Daten überschreiben vorhandene Daten. Alle neuen Daten, die vorher nicht vorhanden waren, werden dem Index hinzugefügt.
    • Anfügen: Neue Daten werden zu den vorhandenen Daten hinzugefügt. Die vorhandenen Daten bleiben intakt.
    • Löschen: Daten im ausgewählten Feld werden aus dem Suchindex gelöscht.
  4. Wählen Sie das Schlüsselfeld danach aus, ob Sie die Datensätze Aktualisieren oder anfügen oder Löschen möchten.
    • Im Modus Erstellen oder überschreiben muss das Schlüsselfeld für (in einer verteilten Umgebung verwendete) Suchindizes eindeutig sein. Wenn Sie das Feld leer lassen, werden alle Datensätze im Index gespeichert, unabhängig davon, ob Dubletten entstehen. Sie können dann jedoch bei diesem Index keine Schreibvorgänge wie Aktualisieren, Anfügen und Löschen durchführen. In der folgenden Tabelle wird das Indizierungsverhalten für den Fall erklärt, dass das Schlüsselfeld für Search Index nicht eindeutig ist.
      Indizes Schlüsselfeld Suchindex

      Create or Overwrite

      Datensatzdubletten mit demselben Schlüsselfeld Alle Datensatzdubletten mit demselben Schlüsselfeld werden überschrieben.
      Aktualisieren oder anfügen Datensatzdubletten mit demselben Schlüsselfeld Dubletten werden überschrieben.
  5. Aktivieren Sie das Kästchen Übergabe als Batch, wenn Sie die Anzahl der Datensätze angeben möchten, die beim Erstellen des Suchindex in einem Batch übergeben werden sollen. Geben Sie dann die Anzahl im Feld Batchgröße ein. Der Standardwert ist 5000.
  6. Wählen Sie einen Analysator für die Erstellung aus:
    • Standard: Bietet einen grammatikbasierten Token-Ersteller, der ein Superset der Analysatoren „Leerzeichen“ und „Stoppwort“ enthält. Erkennt die englische Interpunktion zum Aufschlüsseln von Wörtern, kennt die zu ignorierenden Wörter (über den Stoppwort-Analysator) und führt Suchen durch, welche die Groß-/Kleinschreibung nicht beachten, indem er Vergleiche in Kleinschreibung durchführt. Die Zeichenfolge „Precisely Software“ würde beispielsweise als zwei Token zurückgegeben werden: „precisely“ und „software“. Einen Vergleich zwischen Standard- und Schlüsselwort-Analysator finden Sie unter Standard- und Schlüsselwort-Analysator.
    • Leerzeichen: Trennt Token mit einem Leerzeichen. Eine Art Untergruppe des standardmäßigen Analysators, da Wortumbrüche in englischen Texten basierend auf Leerzeichen und Zeilenumbrüchen erkannt werden.
    • Stoppwort: Entfernt Wörter wie „the“, „and“ und „a“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Schlüsselwort: Erstellt ein einzelnes Token unverändert aus einem Datenstream. Die Zeichenfolge „Precisely Software“ würde beispielsweise als ein einzelner Token zurückgegeben werden: Precisely Software. Einen Vergleich zwischen Standard- und Schlüsselwort-Analysator finden Sie unter Standard- und Schlüsselwort-Analysator.
    • Russisch: Unterstützt Indizes und Type-Ahead-Dienste in russischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „und“, „ich“ und „du“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Deutsch: Unterstützt Indizes und Type-Ahead-Dienste in deutscher Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Dänisch: Unterstützt Indizes und Type-Ahead-Dienste in dänischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „um“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Niederländisch: Unterstützt Indizes und Type-Ahead-Dienste in niederländischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Finnisch: Unterstützt Indizes und Type-Ahead-Dienste in finnischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „ist“, „und“ und „von“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Französisch: Unterstützt Indizes und Type-Ahead-Dienste in französischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Ungarisch: Unterstützt Indizes und Type-Ahead-Dienste in ungarischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Italienisch: Unterstützt Indizes und Type-Ahead-Dienste in italienischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Norwegisch: Unterstützt Indizes und Type-Ahead-Dienste in norwegischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Portugiesisch: Unterstützt Indizes und Type-Ahead-Dienste in portugiesischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Spanisch: Unterstützt Indizes und Type-Ahead-Dienste in spanischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Schwedisch: Unterstützt Indizes und Type-Ahead-Dienste in schwedischer Sprache. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „der/die/das“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
    • Hindi: Unterstützt Indizes und Type-Ahead-Dienste in Hindi. Unterstützt ebenfalls viele Stoppwörter und entfernt Wörter wie „von“, „und“ und „ein/e/er/es“, um die Indexgröße zu reduzieren und die Leistung zu verbessern.
  7. Um den Analysator aller in der Liste vorhandenen Felder zu aktualisieren, wählen Sie einen Analysator von Analysatoren aktualisieren auf... aus.
  8. Um das Schema neu vom Server zu laden, klicken Sie auf Schema neu laden.
    Anmerkung: Sie können die Feldnamen ändern, indem Sie den neuen Namen direkt in der Spalte Felder eingeben. Sie können die Schrittfelder oder den Typ jedoch nicht ändern.
  9. Um einzelne Felder zu ihrer Eingabequelle hinzuzufügen oder aus ihr zu entfernen, klicken Sie auf Schnell hinzufügen. Im Dialogfenster Schnell hinzufügen wird eine Liste aller Felder der Eingabequelle angezeigt. Wählen Sie die Felder aus, die hinzugefügt werden sollen, und klicken Sie auf OK.
  10. Wählen Sie die Felder aus, deren Daten Sie speichern möchten. Bei einer Eingabedatei mit Adressen können Sie beispielsweise nur das Feld „Postleitzahl“ indizieren und die restlichen Felder (wie Adresszeile 1, Stadt, Bundesland/Kanton) speichern, damit die gesamte Adresse zurückgegeben wird, wenn über die Indexsuche eine Übereinstimmung gefunden wird.
  11. Wählen Sie die Felder aus, deren Daten zum Index für eine Suchabfrage hinzugefügt werden sollen.
    Anmerkung: Wenn Sie einzelne Felder löschen möchten, wählen Sie diese aus und klicken Sie auf Löschen.
  12. Falls erforderlich ändern Sie den Analysator für jedes Feld, das einen anderen Analysator verwenden soll, als den Analysator, den Sie im Feld „Analysator“ ausgewählt haben.
  13. Klicken Sie auf OK.