Formalisierung von Personennamen - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

In dieser Datenflussvorlage wird gezeigt, wie Sie anhand von Personennamensdaten (z. B. „John P. Smith“) gemeinsame Rufnamen desselben Namens identifizieren und eine Standardversion des Namens erstellen, mit der sich dann redundante Datensätze konsolidieren lassen. Außerdem zeigt sie, wie Sie Titel-/Anrededaten basierend auf den Geschlechtsdaten hinzufügen können.

Geschäftsszenario

Sie arbeiten für eine Wohltätigkeitsorganisation, die Einladungen für einen Gala-Abend verschicken möchte. Ihre Eingabedaten enthalten Namensdaten als vollständige Namen und Sie möchten die Namensdaten in die Felder „Vorname“, „Zweiter Vorname“ und „Nachname“ parsen sowie das Feld „Anrede“ hinzufügen, um Ihre Einladungen formaler zu gestalten. Sie möchten außerdem Spitznamen in Ihren Namensdaten ersetzen, um eine höflichere Variante des Namens zu nutzen.

Im folgenden Datenfluss wird eine Lösung für das Geschäftsszenario bereitgestellt:

Datenfluss der Lösung für das Geschäftsszenario

Diese Datenflussvorlage ist im Enterprise Designer verfügbar. Öffnen Sie Datei > Neu > Datenfluss > Aus Vorlage, und wählen Sie StandardizePersonalNames aus. Dieser Datenfluss erfordert die folgenden Produkte: Data Normalization und Universal Name.

Dieser Datenfluss geht bei jeder Datenzeile in der Eingabedatei wie folgt vor:

Read from File

Bei diesem Schritt werden der Dateiname, der Speicherort und das Layout der Datei identifiziert, welche die zu parsenden Namen enthält. Die Datei enthält männliche und weibliche Namen.

Name Parser

In dieser Vorlage ist der „Name Parser“-Schritt als „Parse Personal Name“ benannt. Der „Parse Personal Name“-Schritt untersucht Namensfelder und vergleicht sie mit den Namensdaten, die in den Namensdatenbankdateien von Spectrum Technology Platform gespeichert sind. Basierend auf dem Vergleich parst er die Namensdaten in den Feldern „Vorname“, „Zweiter Vorname“ und „Nachname“ und weist jedem Namen einen Entitätstyp sowie ein Geschlecht zu. Er verwendet neben den Namensdaten außerdem die Mustererkennung.

In dieser Vorlage wird der „Parse Personal Name“-Schritt wie folgt konfiguriert.

  • „Personennamen parsen“ wird ausgewählt und „Unternehmensnamen parsen“ wird gelöscht. Bei der Auswahl dieser Optionen werden Vornamen nach Geschlecht, Reihenfolge und Interpunktion ausgewertet und es wird keine Bewertung der Unternehmensnamen durchgeführt.
  • „Quelle für Geschlechtsbestimmung“ ist auf „Standard“ eingestellt. In den meisten Fällen ist „Standard“ die beste Einstellung für die Geschlechtsbestimmung, da mit ihr ein breites Spektrum von Namen abgedeckt wird. Wenn Sie jedoch Namen aus einer bestimmten Kultur verarbeiten, wählen Sie diese Kultur aus. Die Auswahl einer bestimmten Kultur hilft bei der Sicherstellung, dass den Namen das richtige Geschlecht zugewiesen wird. Beispiel: Wenn Sie „Standard“ aktiviert lassen, wird der Name Jean als weiblicher Name identifiziert. Wenn Sie jedoch Französisch auswählen, wird der Name als männlicher Name identifiziert.
  • „Reihenfolge“ ist auf „Natürlich“ eingestellt. Die Namensfelder sind nach Titel, Vorname, zweiter Vorname, Nachname und Suffix sortiert.
  • „Punkte beibehalten“ ist deaktiviert. Das heißt, dass keinerlei Interpunktion in den Namensdaten beibehalten wird.

Transformer

In dieser Vorlage wird der Transformer-Schritt mit „Assign Titles“ benannt: Der „Assign Titles“-Schritt verwendet ein benutzerdefiniertes Skript, um jede Zeile in der Datenstromausgabe mithilfe des „Parse Personal Name“-Schrittes zu durchsuchen und einen TitleOfRespect-Wert basierend auf dem GenderCode-Wert zuzuweisen.

Das benutzerdefinierte Skript lautet wie folgt:

if (row.get('TitleOfRespect') == '') { 	if (row.get('GenderCode') == 'M') 		row.set('TitleOfRespect', 'Mr') 	if (row.get('GenderCode') == 'F') 		row.set('TitleOfRespect', 'Ms') 

Jedes Mal, wenn der „Assign Titles“-Schritt den Buchstaben M im Feld GenderCode erkennt, wird der Wert für TitleOfRespect auf Mr (Herr) eingestellt. Jedes Mal, wenn der „Assign Titles“-Schritt den Buchstaben F im Feld GenderCode erkennt, wird der Wert für TitleOfRespect auf Ms (Frau) eingestellt.

Standardisierung

In dieser Vorlage wird der Standardization-Schritt mit „Standardize Nicknames“ benannt: Der „Standardize Nicknames“-Schritt sucht zunächst nach Vornamen in der „Nicknames.xml“-Datenbank und ersetzt alle Spitznamen durch eine regulärere Form des Namens. Der Name Tommy wird z. B. durch Thomas ersetzt.

Write to File

Die Vorlage enthält einen „Write to File“-Schritt. Neben den Eingabefeldern enthält die Ausgabedatei die Felder „TitleOfRespect“, „FirstName“, „MiddleName“, „LastName“, „EntityType“, „GenderCode“ und „GenderDeterminationSource“.