Algorithmen zur Ermittlung von Übereinstimmungswerten - 23 - 23.1

spectrum-inline

Product type
Software
Portfolio
Integrate
Enrich
Locate
Verify
Product family
Spectrum
Product
Spectrum > Spectrum Platform
Version
23.1
Language
Deutsch
Product name
Precisely Spectrum
Title
spectrum-inline
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T07:22:59.478000

Akronym
Bestimmt, ob ein Unternehmensname mit dem zugehörigen Akronym übereinstimmt, indem nach Akronymdaten gesucht wird; andernfalls wird anhand des ersten Zeichens jedes Wortes ein Akronym erstellt. Beispiel: Internal Revenue Service und das zugehörige Akronym IRS würden als Übereinstimmung gewertet und eine Punktzahl für die Übereinstimmung von 100 zurückgeben.
Zeichenhäufigkeit
Bestimmt die Häufigkeit, mit der jedes Zeichen in einer Zeichenfolge vorkommt, und vergleicht die Gesamthäufigkeit zwischen zwei Zeichenfolgen.
Daitch-Mokotoff Soundex
Phonetischer Algorithmus, der eine höhere Genauigkeit beim Vergleich germanischer, slawischer und jiddischer Nachnamen mit ähnlicher Aussprache, aber unterschiedlicher Schreibweise ermöglicht. Codierte Namen sind sechs Stellen lang, und es können mehrere mögliche Codierungen für einen einzelnen Namen zurückgegeben werden. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex bei der Verarbeitung von germanischen oder slawischen Nachnamen zu reagieren.
Datum
Vergleicht Datumsfelder unabhängig vom Datumsformat in den Eingabedatensätzen. Klicken Sie in der Spalte „Optionen“ auf „Bearbeiten“, um Folgendes anzugeben:
  • Monat erforderlich: Verhindert, dass ein Datum, das nur aus einem Jahr besteht, übereinstimmt.
  • Tag erforderlich: Verhindert, dass ein Datum, das nur aus einem Monat und Jahr besteht, übereinstimmt.
  • Mit transponiertem MM/TT vergleichen: Wenn Monat und Tag im numerischen Format bereitgestellt werden, werden Kopfdublettenmonat mit Kandidatentag und Kopfdublettentag mit Kandidatenmonat verglichen sowie der Standardvergleich von Kopfdublettenmonat mit Kandidatenmonat und Kopfdublettentag mit Kandidatentag durchgeführt.
  • Format TT/MM/JJJJ vor MM/TT/JJJJ bevorzugen: Trägt zum Parsen von Datumswerten bei, bei denen sowohl Monat als auch Tag im numerischen Format bereitgestellt werden und die anhand des Kontexts nicht identifiziert werden können. Beispiel: Bei den Zahlen 5 und 13 ordnet der Parser automatisch 5 dem Monat und 13 dem Tag zu, weil es nur 12 Monate im Jahr gibt. Aber bei den Zahlen 5 und 12 (bzw. zwei beliebigen Zahlen kleiner oder gleich 12) nimmt der Parser an, dass die erste Zahl der Monat ist. Durch Aktivieren dieser Option wird sichergestellt, dass der Parser die erste Zahl als Tag und nicht als Monat liest.
  • Bereichsoptionen – Insgesamt: Ermöglicht Ihnen, die maximale Anzahl von Tagen zwischen übereinstimmenden Daten festzulegen. Beispiel: Wenn Sie einen Gesamtbereich von 35 Tagen eingeben und Ihr Kandidatendatum am 31. Dezember 2000 ist, wäre das Kopfdublettendatum 5. Februar 2001 eine Übereinstimmung, das Kopfdublettendatum 6. Februar hingegen nicht. Wenn Sie einen Gesamtbereich von 1 Tag eingeben und Ihr Kandidatendatum Januar 2000 ist, wäre das Kopfdublettendatum 1999 eine Übereinstimmung (Vergleich mit 31. Dezember 1999), das Kopfdublettendatum 2001 hingegen nicht.
  • Bereichsoptionen – Jahr: Ermöglicht Ihnen, die Anzahl von Jahren zwischen übereinstimmenden Daten, unabhängig von Monat und Tag, festzulegen. Beispiel: Wenn Sie einen Jahresbereich von 3 eingeben und Ihr Kandidatendatum 31. Januar 2000 ist, wäre das Kopfdublettendatum 31. Januar 2003 eine Übereinstimmung, das Kopfdublettendatum Februar 2003 hingegen nicht. Ähnlich gilt: Wenn Ihr Kandidatendatum 2000 ist, wäre das Kopfdublettendatum März 2003 eine Übereinstimmung, weil die Monate keinen Konflikt verursachen und es innerhalb des Dreijahresbereichs liegt.
  • Bereichsoptionen – Monat: Ermöglicht Ihnen, die Anzahl von Monaten zwischen übereinstimmenden Daten, unabhängig von Jahr und Tag, festzulegen. Beispiel: Wenn Sie einen Monatsbereich von 4 eingeben und Ihr Kandidatendatum 1. Januar 2000 ist, wäre das Kopfdublettendatum Mai 2000 eine Übereinstimmung, weil die Tage keinen Konflikt verursachen und es innerhalb des Viermonatsbereichs liegt, das Kopfdublettendatum 2. Mai 2000 hingegen nicht, weil die Tage einen Konflikt verursachen.
  • Bereichsoptionen – Tag: Ermöglicht Ihnen, die Anzahl von Tagen zwischen übereinstimmenden Daten, unabhängig von Jahr und Monat, festzulegen. Beispiel: Wenn Sie einen Tagesbereich von 5 eingeben und Ihr Kandidatendatum 1. Januar 2000 ist, wäre das Kopfdublettendatum Januar 2000 eine Übereinstimmung, weil die Tage keinen Konflikt verursachen, das Kopfdublettendatum 27. Dezember 1999 hingegen nicht, weil die Monate einen Konflikt verursachen.
Double Metaphone
Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. „Double Metaphone“ ist eine verbesserte Version des Algorithmus „Metaphone“ und versucht, viele der in unterschiedlichen Sprachen vorkommenden Unregelmäßigkeiten zu berücksichtigen.
Entfernung bearbeiten
Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen anhand der Anzahl der Löschungen, Einfügungen oder Ersetzungen, die zum Transformieren einer Zeichenfolge in eine andere erforderlich sind.
Euklidischer Abstand
Bietet ein Maß der Ähnlichkeit zwischen zwei Zeichenfolgen unter Verwendung des Vektorraums kombinierter Begriffe als Dimensionen. Er bestimmt auch den größten gemeinsamen Teiler von zwei Ganzzahlen. Er akzeptiert ein Paar positiver Ganzzahlen und bildet ein neues Paar, das aus der kleineren Zahl und der Differenz zwischen der größeren und der kleineren Zahl besteht. Der Prozess wird wiederholt, bis die Zahlen gleich sind. Diese Zahl ist dann der größte allgemeine Teiler des ursprünglichen Paares. Beispiel: 21 ist der größte gemeinsame Teiler von 252 und 105: (252 = 12 × 21; 105 = 5 × 21); da 252 − 105 = (12 − 5) × 21 = 147, ist der ggT von 147 und 105 ebenfalls 21.
Genaue Übereinstimmung
Bestimmt, ob zwei Zeichenfolgen identisch sind.
Initialen
Dient dazu, die Ähnlichkeit geparster Personennamen zu vergleichen.
Jaro–Winkler-Abstand
Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen anhand der Anzahl der Zeichenersetzungen, die zum Transformieren einer Zeichenfolge in eine andere erforderlich sind. Diese Option wurde für kurze Zeichenfolgen wie Personennamen entwickelt.
Abstand auf Tastatur
Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf der Anzahl der Löschungen, Einfügungen oder Ersetzungen, die erforderlich sind, um eine Zeichenfolge in eine andere zu transformieren. Dabei erfolgt eine Gewichtung entsprechend der Position der Tasten auf der Tastatur. Klicken Sie in der Spalte „Optionen“ auf „Bearbeiten“, um den Typ der verwendeten Tastatur anzugeben: QWERTY (Vereinigte Staaten). QWERTZ (Österreich und Deutschland) oder AZERTY (Frankreich).
Köln
Indiziert Namen nach Klang, so wie sie auf Deutsch ausgesprochen werden. Ermöglicht die Codierung von Namen mit derselben Aussprache in derselben Darstellung, sodass sie trotz kleiner Unterschiede bei der Schreibwiese verglichen werden können. Das Ergebnis ist immer eine Folge von Zahlen; Sonderzeichen und Leerzeichen werden ignoriert. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
Kullback-Liebler-Abstand
Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf den Unterschieden in der Verteilung der Wörter in den beiden Zeichenfolgen.
Metaphone
Bestimmt die Ähnlichkeit zwischen zwei englischen Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
Metaphone (Spanisch)
Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
Metaphone 3
Übertrifft die Algorithmen „Metaphone“ und „Double Metaphone“ mit genaueren Einstellungen für Konsonanten und inneren Vokalen, was Ihnen ermöglicht, Wörter oder Namen auf phonetischer Basis mehr oder weniger eng mit Suchbegriffen abgeglichen zu erzeugen. Metaphone 3 erhöht die Genauigkeit der phonetischen Codierung auf 98 %. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren.
Namensvariante
Bestimmt, ob zwei Namen Varianten voneinander sind. Der Algorithmus gibt eine Punktzahl für die Übereinstimmung von 100 zurück, wenn zwei Namen Varianten voneinander sind, und eine Punktzahl für die Übereinstimmung von 0, wenn zwei Namen keine Varianten voneinander sind. So ist beispielsweise JOHN eine Variante von JAKE und liefert eine Punktzahl für die Übereinstimmung von 100. JOHN ist keine Variante von HENRY und gibt einen Übereinstimmungswert von 0 zurück. Klicken Sie in der Spalte „Optionen“ auf Bearbeiten, um die Optionen für die Namensvariante auszuwählen. Weitere Informationen finden Sie unter Name Variant Finder.
N-Gramm-Abstand

Berechnet die Wahrscheinlichkeit des nächsten Begriffs in Text oder Sprache basierend auf n vorherigen Begriffen. Diese können Phoneme, Silben, Buchstaben, Wörter oder Basispaare umfassen und aus einer beliebigen Buchstabenkombination bestehen. Dieser Algorithmus beinhaltet eine Option, um die Größe des N-Gramms einzugeben; der Standardwert ist 2.

N-Gramm-Ähnlichkeit

Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen basierend auf der Länge der längsten gemeinsamen Teilfolge von Phonemen, Silben, Buchstaben, Wörtern oder Basispaaren.

Der Algorithmus beinhaltet die folgenden Optionen:

  • N-Gramm-Größe: Geben Sie die Größe des N-Gramms ein. Der Standardwert ist 2.
  • Sonderzeichen entfernen: Aktivieren Sie das Kästchen, um die Interpunktion durch Leerzeichen zu ersetzen.
  • Leerzeichen entfernen: Aktivieren Sie das Kästchen, um Wörter zusammenzuführen.
Numerische Zeichenfolge
Vergleicht Adresszeilen durch Trennen der numerischen Attribute einer Adresszeile von den Buchstaben. Beispiel: In der Zeichenfolgenadresse 1234 Main Street Apt 567 werden die numerischen Attribute der Zeichenfolge (1234567) geparst und anders als der restliche Zeichenfolgenwert (Main Street Apt) behandelt. Der Algorithmus vergleicht zuerst die numerischen Daten in der Zeichenfolge mit dem numerischen Algorithmus. Falls die Übereinstimmung für numerische Daten 100 ist, werden die alphabetischen Daten anhand von „Entfernung bearbeiten“ und „Zeichenhäufigkeit“ verglichen. Die endgültige Punktzahl für die Übereinstimmung wird wie folgt berechnet:

(numericScore + (EditDistanceScore + CharacterFrequencyScore) / 2) / 2

So ist beispielsweise die Punktzahl für die Übereinstimmung dieser zwei Adressen 95,5, die wie folgt berechnet wird:

123 Main St Apt 567
123 Maon St Apt 567

Numerische Punktzahl = 100
Entfernung bearbeiten = 91
Zeichenhäufigkeit = 91

91 + 91 = 182
182/2 = 91
100 + 91 = 191
191/2 = 95,5

NYSIIS
Phonetischer Codealgorithmus, der eine ungefähr übereinstimmende Aussprache mit der exakten Schreibweise vergleicht und Wörter indiziert, deren Aussprache ähnlich ist. Bestandteil des New York State Identification and Intelligence System. Angenommen, Sie suchen die Daten einer Person in einer Personendatenbank. Sie meinen, dass der Name der Person wie „John Smith“ klingt, er wird aber „Jon Smath“ geschrieben. Würden Sie eine Suche durchführen, in der nach einer genauen Übereinstimmung mit „John Smith“ gesucht wird, würden keine Ergebnisse zurückgegeben. Wenn Sie jedoch die Datenbank mit dem Algorithmus NYSIIS indizieren und eine erneute Suche mit dem Algorithmus NYSIIS durchführen, wird die richtige Übereinstimmung zurückgegeben, weil vom Algorithmus sowohl „John Smith“ als auch „Jon Smath“ als „JANSNATH“ indiziert werden. Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren; sie verarbeitet manche N-Gramme mit mehreren Zeichen und behält die relativen Vokalpositionen bei, was bei Soundex nicht der Fall ist.
Anmerkung: Dieser Algorithmus verarbeitet keine nicht alphanumerischen Zeichen; Datensätze, die solche enthalten, schlagen bei der Verarbeitung fehl.
Phonix
Hiermit werden Namenszeichenfolgen vorverarbeitet, indem mehr als 100 Transformationsregeln auf einzelne Zeichen oder auf Zeichenfolgen angewendet werden.19 dieser Regeln werden nur angewendet, wenn das bzw. die Zeichen am Anfang der Zeichenfolge stehen, während 12 der Regeln nur angewendet werden, wenn sie in der Mitte der Zeichenfolge stehen. 28 der Regeln werden nur angewendet, wenn sie am Ende der Zeichenfolge stehen. Die transformierte Namenszeichenfolge wird als Code codiert, der aus einem Anfangsbuchstaben gefolgt von drei Stellen besteht (Nullen und doppelt vorhandene Zahlen werden entfernt). Diese Option wurde entwickelt, um auf Einschränkungen von Soundex zu reagieren; sie ist komplexer und deshalb langsamer als Soundex.
Sonnex
Dieser Algorithmus bestimmt die Ähnlichkeit zwischen zwei französischen Zeichenfolgen auf Grundlage der phonetischen Darstellung ihrer Zeichen.
Es wird ein Sonnex-codierter Schlüssel der ausgewählten Felder zurückgegeben.
Soundex
Bestimmt die Ähnlichkeit zwischen zwei Zeichenfolgen auf Grundlage einer phonetischen Darstellung ihrer Zeichen.
SubString
Bestimmt, ob eine Zeichenfolge in einer anderen Zeichenfolge enthalten ist.
Silbenabgleich
Kombiniert phonetische Informationen mit auf „Entfernung bearbeiten“ basierenden Berechnungen. Wandelt die zu vergleichenden Zeichenfolgen in Sequenzen von Silben um und berechnet die Anzahl der Bearbeitungen, die erforderlich sind, um eine Silbensequenz in eine andere umzuwandeln.

Die folgende Tabelle beschreibt die logische Beziehung zwischen der Anzahl von Algorithmen, die Sie basierend auf der ausgewählten übergeordneten Bewertungsmethode verwenden können.

Tabelle 1. Matrix Algorithmus zu Bewertungsmethode
Bewertungsmethode Algorithmen
Einzeln Mehrere
Gewichteter Mittelwert nicht verfügbar Ja
Mittelwert nicht verfügbar Ja
Maximum Ja Ja
Minimum nicht verfügbar Ja
Vektoraddition nicht verfügbar Ja