Indexoptionen für die erweiterte Suche - dataflow_designer - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092
Tabelle 1. „Candidate Finder“-Optionen

Name der Option

Beschreibung/gültige Werte

Finder-Typ

Wählen Sie den Suchindex aus.

Name

Wählen Sie den entsprechenden Index aus, der mithilfe des Schrittes Write to Search Index im Rahmen der bereitgestellten „Advanced Matching“-Schritte im Enterprise Designer erstellt wurde.

Startdatensatz

Geben Sie die Datensatznummer ein, bei der die Suchergebnisse beginnen sollen. Der Standardwert ist 1.

Maximale Ergebnisanzahl

Geben Sie die maximale Anzahl an Antworten ein, die von der Indexsuche zurückgegeben werden sollen. Der Standardwert ist 10.
Anmerkung: Wenn „Maximale Anzahl Ergebnisse“ beliebig groß ist, verarbeiten Sie sie in Batches mithilfe des Feldes Batch-Größe abrufen.
Batch-Größe abrufen

Wenn Maximale Anzahl Ergebnisse beliebig groß ist, geben Sie die Größe der Batches ein, in denen die Ergebnisse verarbeitet werden sollen. Dies optimiert die Verarbeitung einer großen Anzahl von Datensätzen. Der Standardwert ist 10000.

Der empfohlene Wert für eineBatch-Größe ist ein Wert kleiner als der Wert Maximale Anzahl Ergebnisse, und wenn der Wertder Batch-Größe größer als der Wert von Maximale Anzahl Ergebnisse ist, werden die Datensätze in einem einzigen Batch verarbeitet.

Anmerkung: Dieses Feld gilt nur für die vom Cluster unterstützte Suchmaschine und nicht für die Legacy-Suchmaschine.

Sortieren

Sortiert die Kandidatendatensätze auf der Grundlage indizierter Felder, während eine Suchabfrage ausgeführt wird.

Aktivieren Sie das Kontrollkästchen Sortieren und das gewünschte Indexfeld aus der Dropdown-Liste Sortieren nach. Wählen Sie Aufsteigend oder Absteigend aus die Dropdown-Liste Sortieren nach.

Anmerkung: Sie können nur nach Zeichenfolgenfeldern mit Schlüsselwort-Analysator und numerischen Feldern sortieren.

Anzahl der Übereinstimmungen zurückgeben

Gibt die Summe der ermittelten Übereinstimmungen zurück. Wenn Sie beispielsweise den Standardwert von 10 für das obige Feld „Maximale Anzahl Ergebnisse“ verwenden, werden nur 10 Ergebnisse zurückgegeben. Wenn Sie dieses Kästchen allerdings aktivieren, wird im Ausgabefeld „Gesamtanzahl Übereinstimmungen“ angezeigt, wie viele Übereinstimmungen während der Verarbeitung ermittelt wurden.

Relevanz

Steuert die Relevanz des Indexfeldes.

Indexsuchtyp Bestimmt den Typ der Indexsuche, die Sie durchführen möchten. Wählen Sie Erweiterte Suche aus.

Schaltfläche „Übergeordnetes Element hinzufügen“

Greifen Sie auf übergeordnete Optionen zu.

Übergeordnete Optionen – Name

Geben Sie einen Namen für das übergeordnete Element ein.

Übergeordnete Optionen – Suchmethode

Geben Sie an, wie bestimmt werden soll, ob es sich bei einem übergeordneten Element um eine Übereinstimmung handelt. Eine von diesen:

Alle Übereinstimmungen: Ein übergeordnetes Element wird als Übereinstimmung erkannt, wenn alle untergeordneten Elemente übereinstimmen. Über diese Methode wird eine AND-Verbindungsstraße zwischen den untergeordneten Elementen erstellt.

Beliebige Übereinstimmung: Ein übergeordnetes Element wird als Übereinstimmung erkannt, wenn mindestens ein untergeordnetes Element übereinstimmt. Über diese Methode wird eine OR-Verbindungsstraße zwischen den untergeordneten Elementen erstellt.

Keine Übereinstimmung: Ein übergeordnetes Element wird als Übereinstimmung erkannt, wenn keines der untergeordneten Elemente übereinstimmt. Über diese Methode wird eine NOT-Verbindungsstraße zwischen den untergeordneten Elementen erstellt.

Schaltfläche „Untergeordnetes Element hinzufügen“

Greifen Sie auf untergeordnete Optionen zu.

Untergeordnete Optionen – Indexfeld

Wählen Sie das Indexfeld aus, das Sie für den Vergleich in der erweiterten Suche verwenden möchten.

Untergeordnete Optionen – Suchtyp

Gibt die Such-/Übereinstimmungskriterien an, die bestimmen, ob die Eingabedaten anhand der indizierten Daten gesucht/abgeglichen werden. Bei allen Suchvorgängen wird die Groß-/Kleinschreibung beachtet.

Untergeordnete Optionen – Eingabefeld Wählen Sie das Eingabefeld aus, das Sie für den Vergleich in der erweiterten Suche verwenden möchten.
Jedes Wort/jeder Ausdruck, der/das beginnt mit Bestimmt, ob der Text im Suchindexfeld mit dem Text aus dem Eingabefeld beginnt.

Der Text im Eingabefeld „tech“ würde beispielsweise als Übereinstimmung für Suchindexfelder gelten, die „Technisch“, „Technologie“, „Technologien“, „Techniker“ oder sogar „National University of Technical Sciences“ enthalten. Ebenso würde ein Ausdruck im Eingabefeld „DEF Sof“ als Übereinstimmung für Suchindexfelder mit dem Inhalt „ABC DEF Software“, „DEF Software“ und „DEF Software India“ gelten, jedoch nicht für Suchindexfelder mit dem Inhalt „Software DEF“ oder „DEF ABC Software“.

Enthält Bestimmt, ob das Suchindexfeld Daten aus dem Eingabefeld enthält. Bei diesem Suchtyp wird die Reihenfolge der Wörter im Eingabefeld bei der Suche im Suchindexfeld beachtet. Die Eingabefelddaten „Precisely“ und „Precisely Software“ würden beispielsweise in einem Suchindexfeld von „Precisely Software Inc.“ enthalten sein.
Enthält alle Bestimmt, ob das Suchindexfeld alle alphanumerischen Wörter aus dem Eingabefeld enthält. Bei diesem Suchtyp wird die Reihenfolge der Wörter im Eingabefeld bei der Suche im Suchindexfeld nicht beachtet.
Enthält beliebiges Bestimmt, ob das Suchindexfeld eines der alphanumerischen Wörter aus dem Eingabefeld enthält.
Enthält keines Bestimmt, ob das Suchindexfeld keines der alphanumerischen Wörter aus dem Eingabefeld enthält.
Unscharf Bestimmt die Ähnlichkeit zwischen zwei alphanumerischen Wörtern anhand der Anzahl der Löschungen, Einfügungen oder Ersetzungen, die zum Transformieren eines Wortes in ein anderes erforderlich sind.
Legen Sie mithilfe des Parameters Maximale Anzahl Bearbeitungen einen Grenzwert für die Anzahl an Bearbeitungen fest, die zugelassen sind, um als erfolgreiche Übereinstimmung zu gelten:
  • 0: Lässt keine Löschungen, Ergänzungen oder Ersetzungen zu. Die Daten im Eingabefeld und im Suchindexfeld müssen identisch sein.
  • 1: Lässt höchstens eine Löschung, Ergänzung oder Ersetzung zu. Ein Eingabefeld mit dem Inhalt „Barton“ wird mit einem Suchindexfeld mit dem Inhalt „Carton“ übereinstimmen.
  • 2: Lässt höchstens zwei Löschungen, Ergänzungen oder Ersetzungen zu. Ein Eingabefeld mit dem Inhalt „Barton“ wird mit einem Suchindexfeld mit dem Inhalt „Martin“ übereinstimmen.

Der Suchtyp „Unscharf“ wird ausschließlich für die Suche nach Einzelwörtern verwendet. Klicken Sie auf Zusätzliche Wörter ignorieren, damit Candidate Finder beim Vergleich des Eingabefeldes mit dem Indexfeld lediglich das erste Wort im Feld berücksichtigt. Wenn das Indexfeld beispielsweise „Xyz“ und das Eingabefeld „Xyz Abc“ enthält, würde keine Übereinstimmung aufgrund des Wortes „Abc“ erzielt werden. Wenn Sie jedoch dieses Kästchen aktivieren, wird „Abc“ ignoriert. Da „Xyz“ das erste Wort ist, würden die beiden Wörter als Übereinstimmung gelten.

Numerisch Bestimmt, ob das Suchindexfeld Nummern aus dem Eingabefeld enthält.

Der Suchtyp „Numerisch“ wird ausschließlich für die Suche nach Einzelwörtern verwendet.

Klicken Sie auf Zusätzliche Wörter ignorieren, damit Candidate Finder beim Vergleich des Eingabefeldes mit dem Indexfeld lediglich das erste Wort im Feld berücksichtigt.
Muster Bestimmt, ob das Textmuster des Eingabefeldes mit dem Textmuster der Suchkriterien übereinstimmt. Sie können das Textmuster weiter im Feld Musterzeichenfolge verfeinern. Wenn das Eingabefeld beispielsweise „nlm“ enthält und das definierte Muster „a*b?c“ lautet, wird es mit den folgenden Wörtern übereinstimmen: „Neelam“, „nelam“, „neelum“, „nilam“ usw.

Der Suchtyp „Muster“ wird ausschließlich für die Suche nach Einzelwörtern verwendet. Klicken Sie auf Zusätzliche Wörter ignorieren, damit Candidate Finder beim Vergleich des Eingabefeldes mit dem Indexfeld lediglich das erste Wort im Feld berücksichtigt.

Nähe Bestimmt, ob zwischen Wörtern in den Eingabefeldern ein bestimmter Abstand besteht.
  • Definieren Sie die Eingabefelder Erste Eingabe und Zweite Eingabe, nach denen Sie im Index suchen möchten.
  • Bestimmen Sie anhand des Parameters Entfernung die maximal zugelassene Entfernung zwischen den Wörtern, die in den Feldern „Erste“ und „Zweite“ eingegeben wurden, um als Übereinstimmung zu gelten.

Sie könnten diesen Suchtyp beispielsweise verwenden, um innerhalb von zehn Wörtern Entfernung voneinander nach dem ersten Feld „Spectrum“ und dem zweiten Feld „Precisely“ in einem Suchindexfeld zu suchen, das den Satz „Spectrum Technology Platform ist ein Produkt von Precisely Software Inc.“ enthält.

Der Suchtyp „Nähe“ wird ausschließlich für die Suche nach Einzelwörtern verwendet. Klicken Sie auf Zusätzliche Wörter ignorieren, damit Candidate Finder beim Vergleich des Eingabefeldes mit dem Indexfeld lediglich das erste Wort im Feld berücksichtigt.

Bereich Führt eine inklusive Suche nach Begriffen in einem Bereich durch. Dieser wird mit einem Feld für die Untergrenze (Anfangsbegriff) und einem Feld für die Obergrenze (Endbegriff) definiert. Alle alphanumerischen Wörter sind im Suchindexfeld lexikografisch angeordnet.
  • Wählen Sie anhand des Parameters Feld Untergrenze das Feld aus, das als Startbegriff verwendet werden soll.
  • Wählen Sie anhand des Parameters Feld Obergrenze das Feld aus, das als Endbegriff verwendet werden soll.

Wenn Sie beispielsweise nach Postleitzahlen zwischen 20001 (unter „Feld Untergrenze“ definiert) und 20009 (unter „Feld Obergrenze“ definiert) gesucht haben, würde die Suche alle Adressen mit Postleitzahlen in diesem Bereich zurückgeben.

Der Suchtyp „Bereich“ wird ausschließlich für die Suche nach Einzelwörtern verwendet. Klicken Sie auf Zusätzliche Wörter ignorieren, damit Candidate Finder beim Vergleich des Eingabefeldes mit dem Indexfeld lediglich das erste Wort im Feld berücksichtigt.

Platzhalter Sucht mit Platzhaltern für ein oder mehrere Zeichen.

Wählen Sie die Position in Ihrer Eingabedatei aus, in die Sie das Platzhalterzeichen einfügen möchten.

Der Suchtyp „Platzhalter“ wird ausschließlich für die Suche nach Einzelwörtern verwendet. Klicken Sie auf Zusätzliche Wörter ignorieren, damit Candidate Finder beim Vergleich des Eingabefeldes mit dem Indexfeld lediglich das erste Wort im Feld berücksichtigt.

Untergeordnete Optionen – Relevanzfaktor

Steuern Sie die Relevanz eines untergeordneten Feldes, indem Sie hier eine beliebige positive Zahl bis 100 eingeben. Die Zahl kann auch kleiner als 1 sein; zum Beispiel wäre „.05“ gültig.

Je höher der Boost-Faktor ist, desto relevanter wird ein Feld. Wenn beispielsweise Ergebnisse aus dem Feld „Firmenname“ relevanter als die Ergebnisse aus anderen Feldern sein sollen, müssen Sie „Firmenname“ aus dem Indexfeldnamen auswählen und hier eine „5“ eingeben.
Anmerkung: Standardmäßig ist diese Option deaktiviert. Aktivieren Sie das Kontrollkästchen, um sie zu aktivieren.

Leerzeichen ignorieren

Deaktivieren Sie dieses Kästchen, wenn die Abfrage die leeren Felder der Eingabedatei berücksichtigen soll.
Anmerkung: Standardmäßig ignoriert die Abfrage leere Felder.

Registerkarte „Ausgabefelder“

Aktivieren Sie das Kästchen Einschließen, um auszuwählen, welche gespeicherten Felder in der Ausgabe enthalten sein sollen.
Anmerkung: Wenn das Eingabefeld aus einem früheren Schritt im Datenfluss stammt und denselben Namen wie der gespeicherte Feldname aus dem Suchindex aufweist, überschreiben die Werte aus dem Eingabefeld die Werte im Ausgabefeld.