-
Klicken Sie auf der Seite Quellendetails auf die Schaltfläche Vergleichsregel erstellen.
Die Seite Vergleichsregel erstellen wird angezeigt.
-
Navigieren Sie auf der Seite Vergleichsregel erstellen zum Abschnitt Manueller Vergleich, und klicken Sie auf die Schaltfläche Regel erstellen.
Die Seite Regel für manuellen Vergleich wird angezeigt. Auf der Seite Regel für manuellen Vergleich ist Folgendes möglich:
-
Konfigurieren Sie eine der vordefinierten Regeln aus Vorlagenregeln in der linken Ecke der Seite, die Sie unverändert verwenden können.
-
Konfigurieren Sie eine neue Vergleichsregel, und veröffentlichen Sie sie zur Wiederverwendung im Repository.
-
- Geben Sie im Feld Regelname einen eindeutigen Namen für Ihre Vergleichsregel ein.
- Optional:
Wählen Sie einen Vergleichsschlüssel aus der Dropdown-Liste Verknüpfter Vergleichsschlüssel aus, den Sie mit der Vergleichsregel verknüpfen müssen. Sie können auch eine Vorschau des Vergleichsschlüssels anzeigen, indem Sie auf die Schaltfläche Vorschau des Vergleichsschlüssels klicken. Wenn Sie darauf klicken, wird ein neues Fenster geöffnet, in dem Sie den gleichen Vergleichsschlüssel nach Ihren Bedürfnissen weiter ändern oder verwenden können.
Anmerkung: Sie können die Verknüpfung des Vergleichsschlüssels jederzeit aufheben, indem Sie den Vergleichsschlüssel löschen. Es ist zwingend erforderlich, die Regel erneut zu veröffentlichen, um die Änderungen zu berücksichtigen.
-
Geben Sie die Datenflussfelder an (über- oder untergeordnet), die Sie in der Vergleichsregel und Vergleichsregelhierarchie verwenden möchten.
- Klicken Sie auf die Schaltfläche , und geben Sie unter Übereinstimmung, wenn nicht wahr einen Namen für das übergeordnete Element ein.
- Klicken Sie auf die Schaltfläche , und wählen Sie aus der Dropdown-Liste unter Übereinstimmung, wenn nicht wahr ein Feld aus, das dem übergeordneten Element hinzugefügt werden soll.Anmerkung: Alle untergeordneten Elemente unter einem übergeordneten Element müssen denselben logischen Operator verwenden. Wenn Sie andere logische Operatoren zwischen Feldern verwenden möchten, müssen Sie zuerst temporäre übergeordnete Elemente erstellen.
-
Definieren Sie diese übergeordneten Optionen, die auf dem übergeordneten Knoten angezeigt werden, wie in der folgenden Tabelle aufgeführt:
Matrix Vergleichsmethode zu BewertungsmethodeOption Beschreibung Übereinstimmung, wenn nicht wahr
Der logische Operator für das übergeordnete Element wird von and in and not geändert. Wenn Sie diese Option auswählen, stimmen Datensätze nur überein, wenn sie der in diesem übergeordneten Element definierten Logik nicht entsprechen.Anmerkung: Wenn Sie die Option Übereinstimmung, wenn nicht wahr auswählen, werden die Optionen für die Vergleichsmethode negiert. Weitere Informationen finden Sie im Abschnitt Negative Vergleichsbedingungen im Spectrum Data Quality-Handbuch.Vergleichsmethode Wählen Sie eine davon aus der Dropdown-Liste aus, um zu bestimmen, ob ein übergeordnetes Element eine Übereinstimmung oder keine Übereinstimmung ist: - Alle Übereinstimmungen: Ein übergeordnetes Element wird als Übereinstimmung erkannt, wenn alle untergeordneten Elemente übereinstimmen. Über diese Methode wird eine „and“-Verbindungsstraße zwischen den untergeordneten Elementen erstellt.
- Beliebige Übereinstimmung: Ein übergeordnetes Element wird als Übereinstimmung erkannt, wenn mindestens ein untergeordnetes Element übereinstimmt. Über diese Methode wird eine „or“-Verbindungsstraße zwischen den untergeordneten Elementen erstellt.
- Basierend auf Schwellenwert: Ein übergeordnetes Element wird als eine Übereinstimmung gewertet, wenn mindestens ein untergeordnetes Element als übereinstimmend erkannt wird. Über diese Methode wird eine „or“-Verbindungsstraße zwischen den untergeordneten Elementen erstellt.
Wenn Sie diese Option auswählen, können Sie im Feld Schwellenwert einen Schwellenwert angeben. Die Bewertungsmethode bestimmt, welche logische Verbindung verwendet wird. Die Schwellenwerte übergeordneter Elemente können nicht größer sein als die der untergeordneten Elemente. Weitere Informationen finden Sie in der Matrix für „Vergleichsmethode zu Bewertungsmethode“ unterhalb dieser Tabelle.
Fehlende Daten Wählen Sie eine der folgenden Optionen aus der Dropdown-Liste aus, um anzugeben, wie leere Daten in einem Feld bewertet werden sollen: - Leerzeichen ignorieren: Ignoriert das Feld, wenn es leere Daten enthält.
- Als 0 zählen: Bewertet das Feld mit 0, wenn es leere Daten enthält.
- Als 100 zählen: Bewertet das Feld mit 100, wenn es leere Daten enthält.
- Leerzeichen vergleichen: Bewertet die Kopfdubletten- und Kandidatenfelder mit 100, wenn beide leere Daten enthalten; bewertet andernfalls die Kopfdubletten- und Kandidatenfelder mit 0.
Bewertungsmethode Wählen Sie eine der folgenden Optionen aus der Dropdown-Liste aus, um den Übereinstimmungswert zu bestimmen: - Gewichteter Mittelwert: Verwendet die Gewichtung jedes untergeordneten Elements, um den durchschnittlichen Übereinstimmungswert zu bestimmen.
- Durchschnitt: Verwendet die durchschnittliche Punktzahl von jedem untergeordneten Element, um die Punktzahl eines übergeordneten Elements zu bestimmen.
- Maximum: Verwendet die höchste Punktzahl untergeordneter Elemente, um die Punktzahl eines übergeordneten Elements zu bestimmen.
- Minimum: Verwendet die niedrigste Punktzahl untergeordneter Elemente, um die Punktzahl eines übergeordneten Elements zu bestimmen.
- Vektoraddition: Verwendet die Vektoraddition der Punktzahlen aller untergeordneten Elemente, um die Punktzahl des übergeordneten Elements zu bestimmen. Die Formel zur Berechnung ist:
sqrt(a^2+b^2+c^2) / sqrt(n). Dabei gilt: a, b und c sind die Punktzahlen von drei untergeordneten Elementen, und n ist die Anzahl der untergeordneten Elemente.
Weitere Informationen finden Sie in der Matrix für „Vergleichsmethode zu Bewertungsmethode“ unterhalb dieser Tabelle.
Auswerten Klicken Sie auf die Schaltfläche Auswerten , um die Vergleichsregel auszuwerten. Weitere Informationen finden Sie unter Auswerten einer Vergleichsregel. Einstellungen kopieren nach Mit dieser Option können Sie die gleichen Einstellungen für eine beliebige Anzahl von Elementen kopieren. - Verwenden Sie die Dropdown-Liste, um die Elemente auszuwählen oder abzuwählen.
- Klicken Sie neben dem Feld Einstellungen kopieren nach auf Anwenden, um dieselben Einstellungen zu kopieren und auf die ausgewählten Elemente anzuwenden.
Anmerkung: Sie können die übergeordneten Einstellungen nur in ein übergeordnetes Element und die untergeordneten Einstellungen nur in ein untergeordnetes Element kopieren.Die folgende Tabelle zeigt die logische Beziehung zwischen der Vergleichsmethode und der Bewertungsmethode und wie sich die bei der Vergleichsverarbeitung verwendete Logik durch jede Kombination ändert.Bewertungsmethode Vergleichsmethode Kommentare Beliebige Übereinstimmung Alle Übereinstimmungen Basierend auf Schwellenwert Gewichteter Mittelwert NA und und Nur verfügbar, wenn Alle Übereinstimmungen oder Basierend auf Schwellenwert als Vergleichsmethode ausgewählt wird.
Mittelwert NA und und Vektoraddition NA und und Maximum oder NA oder Nur verfügbar, wenn Alle Übereinstimmungen oder Basierend auf Schwellenwert als Vergleichsmethode ausgewählt wird. Minimum oder NA oder -
Definieren Sie diese untergeordneten Optionen, die auf dem untergeordneten Knoten angezeigt werden, wie in der folgenden Tabelle aufgeführt:
Option Beschreibung Übereinstimmung, wenn nicht wahr
Der logische Operator wird von and in not geändert. Wenn Sie diese Option auswählen, wird die Vergleichsregel nur als wahr ausgewertet, wenn die Datensätze nicht mit der in diesem untergeordneten Element definierten Logik übereinstimmen.
Wenn Sie beispielsweise Personen identifizieren möchten, die mehreren Konten zugeordnet sind, könnten Sie eine Vergleichsregel erstellen, die einen Vergleich anhand des Namens durchführt, nicht aber anhand der Kontonummer. Sie würden die Option Übereinstimmung, wenn nicht wahr für das untergeordnete Element verwenden, das mit der Kontonummer übereinstimmt.
Kandidatenfeld Wählen Sie diese Option aus, um das untergeordnete Datensatzfeld, das Sie aus der Dropdown-Liste auswählen, einem Feld in der Eingabedatei zuzuordnen.
Kreuzprobe mit Aktivieren Sie diese Option, um ein oder mehr Feldnamen aus der Dropdown-Liste auszuwählen und unterschiedliche Felder zwischen zwei Datensätzen miteinander zu vergleichen. Schwellenwert Geben Sie den Schwellenwert ein, der auf Einzelfeldebene erfüllt sein muss, damit dieses Feld als Übereinstimmung erkannt wird.
Fehlende Daten Wählen Sie eine der folgenden Optionen aus der Dropdown-Liste aus, um anzugeben, wie leere Daten in einem Feld bewertet werden sollen: - Leerzeichen ignorieren: Ignoriert das Feld, wenn es leere Daten enthält.
- Als 0 zählen: Bewertet das Feld mit 0, wenn es leere Daten enthält.
- Als 100 zählen: Bewertet das Feld mit 100, wenn es leere Daten enthält.
- Leerzeichen vergleichen: Bewertet die Kopfdubletten- und Kandidatenfelder mit 100, wenn beide leere Daten enthalten; bewertet andernfalls die Kopfdubletten- und Kandidatenfelder mit 0.
Bewertungsmethode Wählen Sie eine der folgenden Optionen aus der Dropdown-Liste aus, um den Übereinstimmungswert zu bestimmen: - Gewichteter Mittelwert: Verwendet die Gewichtung jedes Algorithmus, um den durchschnittlichen Übereinstimmungswert zu bestimmen.
- Durchschnitt: Verwendet die durchschnittliche Punktzahl jedes Algorithmus, um den Übereinstimmungswert zu bestimmen.
- Maximum: Verwendet die höchste Algorithmuspunktzahl, um den Übereinstimmungswert zu bestimmen.
- Minimum: Verwendet die niedrigste Algorithmuspunktzahl, um den Übereinstimmungswert zu bestimmen.
- Vektoraddition: Verwendet die Vektoraddition der Punktzahl jedes Algorithmus, um den Übereinstimmungswert zu bestimmen. Diese Bewertungsmethode ist nützlich, wenn Sie möchten, dass ein höherer Übereinstimmungswert der Vektoraddition in einem oder mehr Algorithmen in der endgültigen Punktzahl für die Übereinstimmung proportional dargestellt wird. Die zur Berechnung der endgültigen Punktzahl verwendete Formel ist:
sqrt(a^2+b^2+c^2) / sqrt(n). Dabei gilt: a, b und c sind die Punktzahlen von drei unterschiedlichen Algorithmen, und n ist die Anzahl der verwendeten Algorithmen.
Auswerten Klicken Sie auf die Schaltfläche Auswerten , um die Vergleichsregel auszuwerten. Weitere Informationen finden Sie unter Auswerten einer Vergleichsregel. Profilstatistiken Klicken Sie auf die Schaltfläche Profilstatistik , um die Spaltenprofilstatistik anzuzeigen, die in einem Seitenbereich angezeigt wird. Weitere Informationen finden Sie unter Anzeigen von Spaltenprofilstatistiken. Einstellungen kopieren nach Mit dieser Option können Sie die gleichen Einstellungen für eine beliebige Anzahl von Elementen kopieren. - Verwenden Sie die Dropdown-Liste, um die Elemente auszuwählen oder abzuwählen.
- Klicken Sie neben dem Feld Einstellungen kopieren nach auf Anwenden, um dieselben Einstellungen zu kopieren und auf die ausgewählten Elemente anzuwenden.
Anmerkung: Sie können die übergeordneten Einstellungen nur in ein übergeordnetes Element und die untergeordneten Einstellungen nur in ein untergeordnetes Element kopieren. -
Wenn Sie Algorithmen für Ihren untergeordneten Typ konfigurieren möchten, klicken Sie im untergeordneten Optionsknoten auf Algorithmen konfigurieren. Dadurch können Sie einen oder mehrere dieser Algorithmen hinzufügen, um die Übereinstimmung in den Feldwerten zu bestimmen:
Anmerkung: Verwenden Sie die Suche , um die Algorithmen selektiv zu konfigurieren.
Algorithmen für Zeichenfolgenvergleich
- Akronym
- Diese Option bestimmt, ob ein Unternehmensname mit dem zugehörigen Akronym übereinstimmt, indem nach Akronymdaten gesucht wird. Andernfalls wird anhand des ersten Zeichens jedes Wortes ein Akronym erstellt.
Beispiel: Internal Revenue Service und das zugehörige Akronym IRS würden als Übereinstimmung gewertet und einen Übereinstimmungswert von 100 zurückgeben.
- Zeichenhäufigkeit
- Diese Option bestimmt die Häufigkeit, mit der jedes Zeichen in einer Zeichenfolge vorkommt, und vergleicht die Gesamthäufigkeit zwischen zwei Zeichenfolgen.
- Genaue Übereinstimmung
- Bestimmt, ob zwei Zeichenfolgen identisch sind.
- Initialen
- Vergleicht die Ähnlichkeit geparster Personennamen.
- Namensvariante
- Bestimmt, ob zwei Namen Varianten voneinander sind. Der Algorithmus gibt eine Punktzahl für die Übereinstimmung von 100 zurück, wenn zwei Namen Varianten voneinander sind, und eine Punktzahl für die Übereinstimmung von 0, wenn zwei Namen keine Varianten voneinander sind.
So ist beispielsweise JOHN eine Variante von JAKE und liefert eine Punktzahl für die Übereinstimmung von 100. JOHN ist keine Variante von HENRY und liefert eine Punktzahl für die Übereinstimmung von 0.
Klicken Sie auf Bearbeiten, um die Optionen für Namensvarianten anzugeben. Weitere Informationen finden Sie im Abschnitt Name Variant Finder im Spectrum Data Quality-Handbuch.
- Numerische Zeichenfolge
- Diese Option vergleicht Adresszeilen durch Trennen der numerischen Attribute einer Adresszeile von den Buchstaben. Siehe Beispiele unten:
- In der Zeichenfolgenadresse 1234 Main Street Apt 567 werden die numerischen Attribute der Zeichenfolge (1234567) geparst und anders als der restliche Zeichenfolgenwert (Main Street Apt) behandelt. Der Algorithmus vergleicht zuerst die numerischen Daten in der Zeichenfolge mit dem numerischen Algorithmus. Falls die Übereinstimmung für numerische Daten 100 ist, werden die alphabetischen Daten anhand von „Entfernung bearbeiten“ und „Zeichenhäufigkeit“ verglichen. Die endgültige Punktzahl für die Übereinstimmung wird wie folgt berechnet:
(numericScore + (EditDistanceScore + CharacterFrequencyScore) / 2) / 2)
- Wenn Sie den Übereinstimmungswert dieser beiden Adressen berechnen:
123 Main St Apt 567
wäre der Übereinstimmungswert 95,5, der wie folgt berechnet wird:
123 Maon St Apt 567Numerische Punktzahl = 100
Entfernung bearbeiten = 91
Zeichenhäufigkeit = 9191 + 91 = 182
182/2 = 91
100 + 91 = 191
191/2 = 95,5
- In der Zeichenfolgenadresse 1234 Main Street Apt 567 werden die numerischen Attribute der Zeichenfolge (1234567) geparst und anders als der restliche Zeichenfolgenwert (Main Street Apt) behandelt. Der Algorithmus vergleicht zuerst die numerischen Daten in der Zeichenfolge mit dem numerischen Algorithmus. Falls die Übereinstimmung für numerische Daten 100 ist, werden die alphabetischen Daten anhand von „Entfernung bearbeiten“ und „Zeichenhäufigkeit“ verglichen. Die endgültige Punktzahl für die Übereinstimmung wird wie folgt berechnet:
- SubString
- Bestimmt, ob eine Zeichenfolge in einer anderen Zeichenfolge enthalten ist.
Phonetische Algorithmen
- Daitch-Mokotoff Soundex
- Ein phonetischer Algorithmus, der eine höhere Genauigkeit beim Vergleich slawischer und jiddischer Nachnamen mit ähnlicher Aussprache, aber unterschiedlicher Schreibweise ermöglicht. Codierte Namen sind sechs Stellen lang, und es können mehrere mögliche Codierungen für einen einzelnen Namen zurückgegeben werden. Diese Option wurde entwickelt, um auf die Einschränkungen von Soundex bei der Verarbeitung von germanischen oder slawischen Nachnamen zu reagieren.
- Double Metaphone
- Diese Option bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. „Double Metaphone“ ist eine verbesserte Version des Algorithmus „Metaphone“ und versucht, viele der in unterschiedlichen Sprachen vorkommenden Unregelmäßigkeiten zu berücksichtigen.
- Köln
- Indiziert Namen nach Klang, so wie sie auf Deutsch ausgesprochen werden. Ermöglicht die Codierung von Namen mit derselben Aussprache in derselben Darstellung, sodass sie trotz kleiner Unterschiede bei der Schreibwiese verglichen werden können. Das Ergebnis ist immer eine Folge von Zahlen; Sonderzeichen und Leerzeichen werden ignoriert. Diese Option wurde entwickelt, um auf die Einschränkungen von Soundex zu reagieren.
- Metaphone
-
Diese Option bestimmt die Ähnlichkeit zwischen zwei englischen Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. Diese Option wurde entwickelt, um auf die Einschränkungen von Soundex zu reagieren.
- Metaphone (Spanisch)
-
Diese Option bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. Diese Option wurde entwickelt, um auf die Einschränkungen von Soundex zu reagieren.
- Metaphone3
-
Diese Option übertrifft die Algorithmen „Metaphone“ und „Double Metaphone“ mit genaueren Einstellungen für Konsonanten und innere Vokale, was Ihnen ermöglicht, Wörter oder Namen auf phonetischer Basis mehr oder weniger eng mit Suchbegriffen abgeglichen zu erzeugen. Metaphone3 erhöht die Genauigkeit der phonetischen Codierung auf 98 %. Diese Option wurde entwickelt, um auf die Einschränkungen von Soundex zu reagieren.
- NYSIIS
- Dies ist ein phonetischer Codealgorithmus, der eine ungefähr übereinstimmende Aussprache mit der exakten Schreibweise vergleicht und Wörter indiziert, deren Aussprache ähnlich ist – Bestandteil des New York State Identification and Intelligence System. Angenommen, Sie suchen die Daten einer Person in einer Personendatenbank. Sie meinen, dass der Name der Person wie „John Smith“ klingt, er wird aber „Jon Smath“ geschrieben. Würden Sie eine Suche durchführen, in der nach einer genauen Übereinstimmung mit „John Smith“ gesucht wird, würden keine Ergebnisse zurückgegeben werden. Wenn Sie jedoch die Datenbank mit dem Algorithmus NYSIIS indizieren und eine erneute Suche mit dem Algorithmus NYSIIS durchführen, wird die richtige Übereinstimmung zurückgegeben, weil vom Algorithmus sowohl „John Smith“ als auch „Jon Smath“ als „JANSNATH“ indiziert werden. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren. Sie verarbeitet manche N-Gramme mit mehreren Zeichen und behält die relativen Vokalpositionen bei, was bei Soundex nicht der Fall ist.Anmerkung: Dieser Algorithmus verarbeitet keine nicht alphanumerischen Zeichen; Datensätze, die solche enthalten, schlagen bei der Verarbeitung fehl.
- Phonix
- Bei dieser Option werden Namenszeichenfolgen vorverarbeitet, indem mehr als 100 Transformationsregeln auf einzelne Zeichen oder auf Zeichenfolgen angewendet werden. 19 dieser Regeln werden nur angewendet, wenn das bzw. die Zeichen am Anfang der Zeichenfolge stehen, während 12 der Regeln nur angewendet werden, wenn sie in der Mitte der Zeichenfolge stehen. 28 der Regeln werden nur angewendet, wenn sie am Ende der Zeichenfolge stehen. Die transformierte Namenszeichenfolge wird als Code codiert, der aus einem Anfangsbuchstaben gefolgt von drei Stellen besteht (Nullen und doppelt vorhandene Zahlen werden entfernt). Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren. Sie ist komplexer und deshalb langsamer als Soundex.
- Sonnex
- Bestimmt die Ähnlichkeit zwischen zwei französischen Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. Es wird ein Sonnex-codierter Schlüssel der ausgewählten Felder zurückgegeben.
- Soundex
- Diese Option bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen.
- Silbenabgleich
- Diese Option kombiniert phonetische Informationen mit auf „Entfernung bearbeiten“ basierenden Berechnungen. Wandelt die zu vergleichenden Zeichenfolgen in Sequenzen von Silben um und berechnet die Anzahl der Bearbeitungen, die erforderlich sind, um eine Silbensequenz in eine andere umzuwandeln.
Ähnlichkeits- und Entfernungsmaße
- Entfernung bearbeiten
- Diese Option bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen anhand der Anzahl der Löschungen, Einfügungen oder Ersetzungen, die zum Transformieren einer Zeichenfolge in eine andere erforderlich sind.
- Euklidischer Abstand
- Diese Option bietet ein Maß der Ähnlichkeit zwischen zwei Zeichenfolgen unter Verwendung des Vektorraums kombinierter Begriffe als Dimensionen. Er bestimmt auch den größten gemeinsamen Teiler von zwei Ganzzahlen. Er akzeptiert ein Paar positiver Ganzzahlen und bildet ein neues Paar, das aus der kleineren Zahl und der Differenz zwischen der größeren und der kleineren Zahl besteht. Der Prozess wird wiederholt, bis die Zahlen gleich sind. Diese Zahl ist dann der größte allgemeine Teiler des ursprünglichen Paares.
Beispiel: 21 ist der größte gemeinsame Teiler von 252 und 105: (252 = 12 × 21; 105 = 5 × 21); da 252 − 105 = (12 − 5) × 21 = 147, ist der ggT von 147 und 105 ebenfalls 21.
- Jaro–Winkler-Abstand
- Diese Option bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen anhand der Anzahl der Zeichenersetzungen, die zum Transformieren einer Zeichenfolge in eine andere erforderlich sind. Diese Option wurde für kurze Zeichenfolgen wie Personennamen entwickelt.
- Abstand auf Tastatur
- Diese Option bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf der Anzahl der Löschungen, Einfügungen oder Ersetzungen, die erforderlich sind, um eine Zeichenfolge in eine andere zu transformieren. Dabei erfolgt eine Gewichtung entsprechend der Position der Tasten auf der Tastatur.
Klicken Sie auf Bearbeiten, um den Typ der verwendeten Tastatur anzugeben: QWERTY (Vereinigte Staaten). QWERTZ (Österreich und Deutschland) oder AZERTY (Frankreich).
- Kullback-Liebler-Abstand
- Diese Option bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf den Unterschieden in der Verteilung der Wörter in den beiden Zeichenfolgen.
- N-Gramm-Abstand
-
Diese Option berechnet die Wahrscheinlichkeit des nächsten Begriffs in Text oder Sprache basierend auf n vorherigen Begriffen. Diese können Phoneme, Silben, Buchstaben, Wörter oder Basispaare umfassen und aus einer beliebigen Buchstabenkombination bestehen.
Klicken Sie auf Bearbeiten, um die Größe des N-Gramms einzugeben. Der Standardwert ist 2.
- N-Gramm-Ähnlichkeit
- Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf der Länge der längsten gemeinsamen Teilfolge von Phonemen, Silben, Buchstaben, Wörtern oder Basispaaren.
Klicken Sie auf Bearbeiten, um die folgenden Optionen anzugeben:
- N-Gramm-Größe: Geben Sie die Größe des N-Gramms ein. Der Standardwert ist 2.
- Sonderzeichen entfernen: Wählen Sie diese Option aus, um die Interpunktion durch Leerzeichen zu ersetzen.
- Leerzeichen entfernen: Wählen Sie diese Option aus, um Wörter zusammenzuführen.
Datumsalgorithmen
- Datum
- Vergleicht Datumsfelder unabhängig vom Datumsformat in den Eingabedatensätzen. Klicken Sie auf Bearbeiten, um Folgendes festzulegen:
- Allgemeine Optionen – Monat erforderlich: Verhindert, dass ein Datum, das nur aus einem Jahr besteht, übereinstimmt.
- Allgemeine Optionen – Tag erforderlich: Verhindert, dass ein Datum, das nur aus einem Monat und Jahr besteht, übereinstimmt.
- Allgemeine Optionen – Mit transponiertem MM/TT vergleichen: Wenn Monat und Tag im numerischen Format bereitgestellt werden, werden Kopfdublettenmonat mit Kandidatentag und Kopfdublettentag mit Kandidatenmonat verglichen sowie der Standardvergleich von Kopfdublettenmonat mit Kandidatenmonat und Kopfdublettentag mit Kandidatentag durchgeführt.
- Allgemeine Optionen – Format TT/MM/JJJJ vor MM/TT/JJJJ bevorzugen: Trägt zum Parsen von Datumswerten bei, bei denen sowohl Monat als auch Tag im numerischen Format bereitgestellt werden und die anhand des Kontexts nicht identifiziert werden können.
Beispiel: Bei den Zahlen 5 und 13 ordnet der Parser automatisch 5 dem Monat und 13 dem Tag zu, weil es nur 12 Monate im Jahr gibt. Aber bei den Zahlen 5 und 12 (bzw. zwei beliebigen Zahlen kleiner oder gleich 12) nimmt der Parser an, dass die erste Zahl der Monat ist.
Durch Aktivieren dieser Option wird sichergestellt, dass der Parser die erste Zahl als Tag und nicht als Monat liest.
- Bereichsoptionen – Insgesamt: Diese Option ermöglicht Ihnen, die maximale Anzahl von Tagen zwischen übereinstimmenden Daten festzulegen. Siehe Beispiele unten:
- Wenn Sie einen Gesamtbereich von 35 Tagen eingeben und Ihr Kandidatendatum der 31. Dezember 2000 ist, wäre das Kopfdublettendatum 5. Februar 2001 eine Übereinstimmung, das Kopfdublettendatum 6. Februar hingegen nicht.
- Wenn Sie einen Gesamtbereich von 1 Tag eingeben und Ihr Kandidatendatum Januar 2000 ist, wäre das Kopfdublettendatum 1999 eine Übereinstimmung (Vergleich mit 31. Dezember 1999), das Kopfdublettendatum 2001 hingegen nicht.
- Bereichsoptionen – Jahr: Diese Option ermöglicht Ihnen, die Anzahl von Jahren zwischen übereinstimmenden Daten, unabhängig von Monat und Tag, festzulegen. Siehe Beispiele unten:
- Wenn Sie einen Jahresbereich von 3 eingeben und Ihr Kandidatendatum der 31. Januar 2000 ist, wäre das Kopfdublettendatum 31. Januar 2003 eine Übereinstimmung, das Kopfdublettendatum Februar 2003 hingegen nicht.
- Wenn Ihr Kandidatendatum 2000 ist, wäre das Kopfdublettendatum März 2003 eine Übereinstimmung, da die Monate keinen Konflikt verursachen und es innerhalb des Dreijahresbereichs liegt.
- Bereichsoptionen – Monat: Diese Option ermöglicht Ihnen, die Anzahl von Monaten zwischen übereinstimmenden Daten, unabhängig von Jahr und Tag, festzulegen.
Beispiel: Wenn Sie einen Monatsbereich von 4 eingeben und Ihr Kandidatendatum der 1. Januar 2000 ist, wäre das Kopfdublettendatum Mai 2000 eine Übereinstimmung, da die Tage keinen Konflikt verursachen und das Datum innerhalb des Viermonatsbereichs liegt. Das Kopfdublettendatum 2. Mai 2000 wäre hingegen keine Übereinstimmung, da der Tag einen Konflikt verursacht.
- Bereichsoptionen – Tag: Diese Option ermöglicht Ihnen, die Anzahl von Tagen zwischen übereinstimmenden Daten, unabhängig von Jahr und Monat, festzulegen.
Beispiel: Wenn Sie einen Tagesbereich von 5 eingeben und Ihr Kandidatendatum der 1. Januar 2000 ist, wäre das Kopfdublettendatum Januar 2000 eine Übereinstimmung, da die Tage keinen Konflikt verursachen. Das Kopfdublettendatum 27. Dezember 1999 wäre hingegen keine Übereinstimmung, da der Monat einen Konflikt verursacht.
Die folgende Tabelle beschreibt die logische Beziehung zwischen der Anzahl von Algorithmen, die Sie basierend auf der ausgewählten übergeordneten Bewertungsmethode verwenden können.
Bewertungsmethode Algorithmen Einzeln Mehrere Gewichteter Mittelwert NA Ja Mittelwert NA Ja Vektoraddition Ja Ja Maximum NA Ja Minimum NA Ja -
Klicken Sie auf OK.
Anmerkung:
- Wenn Sie n übergeordnete und untergeordnete Elemente definieren, müssen Sie Filter verwenden, um selektiv nach den Elementen zu suchen.
- Wenn Sie alle Baumknoten erweitern oder reduzieren möchten, klicken Sie auf die Schaltflächen Alle erweitern und Alle reduzieren .
- Klicken Sie auf die Schaltfläche „Profilstatistiken“ , um die Profilstatistiken der Relation anzuzeigen. Anschließend wird ein Seitenbereich zum Anzeigen der Statistiken geöffnet. Weitere Informationen finden Sie unter Anzeigen von Profilstatistiken.
Sie können die Regel jetzt speichern oder veröffentlichen. Weitere Informationen finden Sie unter Speichern und Veröffentlichen der Regel.
Führen Sie die folgenden Schritte aus, um eine manuelle Vergleichsregel zu erstellen: