Diese Datenflussvorlage zeigt, wie Sie Mitglieder desselben Haushalts identifizieren, indem Sie Informationen innerhalb einer einzelnen Eingabedatei vergleichen und eine Ausgabedatei für die Haushaltssammlungen erstellen.
Geschäftsszenario
Als Data Steward in einer Kreditkartengesellschaft möchten Sie Ihre Kundendatenbank analysieren und herausfinden, welche Adressen mehrmals vorhanden sind und welche Namen dort verzeichnet sind, damit Sie die Anzahl der doppelten Zustellungen und Kreditkartenangebote, die an dieselbe Adresse gesendet werden, minimieren können.
Im folgenden Datenfluss wird eine Lösung für das Geschäftsszenario bereitgestellt:
Diese Datenflussvorlage ist im Enterprise Designer verfügbar. Öffnen Sie HouseholdRelationships aus. Dieser Datenfluss erfordert die folgenden Produkte: Advanced Matching, Data Normalization und Universal Name.
, und wählen SieFür jeden Datensatz in der Eingabedatei führt dieser Datenfluss Folgendes aus:
Read from File
Bei diesem Schritt werden der Dateiname, der Speicherort und das Layout der Datei identifiziert, welche die zu parsenden Namen enthält. Die Datei enthält männliche und weibliche Namen.
Open Name Parser
„Open Name Parser“ untersucht Namensfelder und vergleicht sie mit den Namensdaten, die in den Namensdatenbankdateien von Spectrum Technology Platform gespeichert sind. Basierend auf dem Vergleich parst er die Namensdaten in den Feldern „Vorname“, „Zweiter Vorname“ und „Nachname“ und weist jedem Namen einen Entitätstyp sowie ein Geschlecht zu. Er verwendet neben den Namensdaten außerdem die Mustererkennung.
Standardize Nicknames
In dieser Vorlage wird der „Table Lookup“-Schritt mit „Standardize Nicknames“ benannt: Der „Standardize Nicknames“-Schritt sucht zunächst nach Vornamen in der „Nicknames.xml“-Datenbank und ersetzt alle Spitznamen durch eine regulärere Form des Spitznamens. Der Name Tommy wird z. B. durch Thomas ersetzt.
Transformer
In dieser Vorlage wird der Transformer-Schritt mit „Assign Titles“ benannt: Der „Assign Titles“-Schritt verwendet ein benutzerdefiniertes Skript, um jede Zeile in der Datenstromausgabe mithilfe des „Parse Personal Name“-Schrittes zu durchsuchen und einen TitleOfRespect-Wert basierend auf dem GenderCode-Wert zuzuweisen.
Das benutzerdefinierte Skript lautet wie folgt:
if (row.get('TitleOfRespect') == '') { if (row.get('GenderCode') == 'M') row.set('TitleOfRespect', 'Mr') if (row.get('GenderCode') == 'F') row.set('TitleOfRespect', 'Ms')
Jedes Mal, wenn der „Assign Titles“-Schritt den Buchstaben M im Feld GenderCode erkennt, wird der Wert für TitleOfRespect auf Mr (Herr) eingestellt. Jedes Mal, wenn der „Assign Titles“-Schritt den Buchstaben F im Feld GenderCode erkennt, wird der Wert für TitleOfRespect auf Ms (Frau) eingestellt.
Match Key Generator
Der Match Key Generator verarbeitet benutzerdefinierte Regeln, die aus Algorithmen und Eingabequellenfeldern bestehen, um das Vergleichsschlüsselfeld zu generieren. Ein Vergleichsschlüssel ist ein nicht eindeutiger Schlüssel, der von ähnlichen Datensätzen geteilt wird, die Datensätze als potenzielle Dubletten identifizieren. Der Vergleichsschlüssel wird zur Vereinfachung des Vergleichsprozesses verwendet, indem nur die Datensätze miteinander verglichen werden, die den gleichen Vergleichsschlüssel enthalten. Ein Vergleichsschlüssel besteht aus Eingabefeldern. Jedes angegebene Eingabefeld verfügt über einen ausgewählten Algorithmus, der dafür ausgeführt wird. Das Ergebnis jedes Feldes wird dann verkettet, um ein einzelnes Vergleichsschlüsselfeld zu erstellen.
In dieser Vorlage sind zwei Vergleichsschlüsselfelder definiert: SubString (LastName (1:3)) und SubString (PostalCode (1:5)).
Beispiel: Wenn die eingehende Adresse wie folgt lauten würde:
FirstName – Fred
LastName – Mertz
PostalCode – 21114-1687
Und die Regeln Folgendes festlegen würden:
Eingabefeld |
Startposition |
Länge |
---|---|---|
LastName |
1 |
3 |
PostalCode |
1 |
5 |
Dann würde der Schlüssel basierend auf den oben angeführten Regeln und Eingabedaten wie folgt lauten:
Mer21114
Household Match
In dieser Datenflussvorlage wird der „Intraflow Match“-Schritt als „Household Match“ benannt. Dieser Schritt ermittelt Übereinstimmungen zwischen ähnlichen Datensätzen innerhalb eines einzelnen Eingabestreams. Verglichene Datensätze können ebenfalls mithilfe von Nicht-Name-/Nicht-Adresse-Informationen begrenzt werden. Die Vergleichsengine ermöglicht die Erstellung von hierarchischen Regeln basierend auf beliebigen Feldern, die in anderen Schritten definiert oder erstellt wurden.
Ein zu vergleichender Datensatz-Stream sowie Einstellungen, die angeben, welche Felder verglichen werden sollten, wie Punktzahlen bewertet werden sollten und aus was im Allgemeinen eine erfolgreiche Übereinstimmung besteht.
Mit dieser Vorlage erstellen Sie eine benutzerdefinierte Vergleichsregel, die „LastName“ und „AddressLine1“ vergleicht. Aktivieren Sie das Kontrollkästchen Daten für Analyse generieren, um Daten für den Interflow-Zusammenfassungsbericht zu generieren.
Hier sind einige Richtlinien zur Erstellung Ihrer Vergleichshierarchie:
- Ein übergeordneter Knoten muss einen eindeutigen Namen haben. Es darf kein Feld sein.
- Das untergeordnete Feld muss ein Spectrum Technology Platform-Datentypfeld sein. Das heißt, dass es durch eine oder mehrere Komponenten verfügbar ist.
- Alle untergeordneten Elemente unter einem übergeordneten Element müssen dieselben logischen Operatoren verwenden. Zur Kombination von Connectors müssen Sie zunächst übergeordnete Zwischenknoten erstellen.
- Schwellenwerte übergeordneter Elemente können nicht größer sein als die der untergeordneten Elemente.
- Übergeordnete Knoten müssen keinen Schwellenwert aufweisen.
Write to File
Die Vorlage enthält einen „Write to File“-Schritt, der eine Textdatei erstellt, die die Adressen als eine Sammlung von Haushalten zeigt.
Intraflow-Zusammenfassungsbericht
Die Vorlage enthält den „Intraflow Match“-Zusammenfassungsbericht. Erweitern Sie nach Ausführung des Auftrags die Option Berichte im Fenster Ausführungsdetails, und klicken Sie auf IntraflowMatchSummary.
Der „Intraflow Match“-Zusammenfassungsbericht enthält die Statistik für die verarbeiteten Datensätze und zeigt ein Balkendiagramm, das die Datensatzanzahl und die Gesamtpunktzahl der Übereinstimmungen darstellt.