Parsen chinesischer Namen - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

Diese Vorlage demonstriert, wie chinesische Namen in Komponententeile geparst werden. Die Parsing-Regel trennt die einzelnen Token im Feld Name und kopiert sie in zwei Felder: LastName und FirstName.

Geschäftsszenario

Sie arbeiten für ein Finanzdienstleistungsunternehmen, das untersuchen möchte, ob eine Einschließung der chinesischen Zeichen für seine Chinesisch sprechenden Kunden in diverser Korrespondenz umsetzbar ist.

Sie führen im Internet Recherchen durch, um das chinesische Benennungssystem zu verstehen, und finden folgende Ressource, in der erläutert wird, wie sich chinesische Namen zusammensetzen:

en.wikipedia.org/wiki/Chinese_names

Im folgenden Datenfluss wird eine Lösung für das Geschäftsszenario bereitgestellt:


Datenfluss der Lösung für das Geschäftsszenario

Diese Datenflussvorlage ist im Enterprise Designer verfügbar. Öffnen Sie Datei > Neu > Datenfluss > Aus Vorlage, und wählen Sie ParseChineseNames aus. Dieser Datenfluss erfordert Data Normalization.

In diesem Datenfluss werden Daten aus einer Datei gelesen und über den „Open Parser“-Schritt verarbeitet. Dieser Datenfluss geht bei jeder Datenzeile in der Eingabedatei wie folgt vor:

Read from File

Bei diesem Schritt werden der Dateiname, der Speicherort und das Layout der Datei identifiziert, welche die zu parsenden Namen enthält. Die Datei enthält männliche und weibliche Namen.

Open Parser

Dieser Schritt definiert, ob eine kulturspezifische Domänengrammatik, die im Domäneneditor erstellt wurde, verwendet wird, oder ob eine domänenunabhängige Grammatik definiert wird. Bei einer von Ihnen im Domain Editor erstellten kulturspezifischen Parsing-Grammatik handelt es sich um eine überprüfte Parsing-Grammatik, die einer Kultur und einer Domäne zugeordnet ist. Bei einer von Ihnen in Open Parser erstellten domänenunabhängigen Parsing-Grammatik handelt es sich um eine überprüfte Parsing-Grammatik, die keiner Kultur und keiner Domäne zugeordnet ist.

In dieser Vorlage ist die Parsing-Grammatik als domänenunabhängige Grammatik definiert.

Der „Open Parser“-Schritt enthält eine Parsing-Grammatik, in der folgende Befehle und Ausdrücke definiert sind:

  • %Tokenize ist auf „Keine“ festgelegt. Wenn Tokenize auf None gesetzt ist, muss die Parsing-Grammatikregel alle Leerzeichen und andere Token-Trennzeichen innerhalb der Regeldefinition enthalten.
  • %InputField ist so eingestellt, dass Eingabedaten aus dem Feld Name geparst werden.
  • %OutputFields ist zum Kopieren geparster Daten in zwei Felder festgelegt: LastName und FirstName.

Der Ausdruck <root> definiert das Muster für chinesische Namen:

  • Ein Vorkommen von LastName
  • Ein bis drei Vorkommen von FirstName

Die Regelvariablen, die die Domäne definieren, müssen die gleichen Namen wie die im erforderlichen Befehl OutputFields definierten Ausgabefelder verwenden.

Die Regelvariable CJKCharacter definiert das Zeichenmuster für Chinesisch/Japanisch/Koreanisch (CJK). Das Zeichenmuster ist so definiert, dass nur Zeichen in Form von Buchstaben verwendet werden. Die Regel lautet wie folgt:

<CJKCharacter> = @RegEx("([\p{InCJKUnifiedIdeographs}&&\p{L}])"); 
  • Der reguläre Ausdruck \p{InX} wird verwendet, um einen Unicode-Block für eine bestimmte Kultur anzugeben, in dem X für die Kultur steht. In dieser Instanz lautet die Kultur „CJKUnifiedIdeographs“.
  • In regulären Ausdrücken ist eine Zeichenklasse ein Satz von Zeichen, die Sie abgleichen möchten. Beispiel: [aeiou] ist die Zeichenklasse, die nur Vokale enthält. Zeichenklassen können innerhalb anderer Zeichenklassen erscheinen und können sich aus dem Vereinigungsoperator (implizit) und dem Schnittmengenoperator (&&) zusammensetzen. Der Vereinigungsoperator bezeichnet eine Klasse mit allen Zeichen, die in mindestens einer der zugehörigen Operandenklassen enthalten sind. Der Schnittmengenoperator bezeichnet eine Klasse mit allen Zeichen, die mit den sich überschneidenden Unicode-Blöcken überlappen.
  • Mit dem regulären Ausdruck \p{L} wird der Unicode-Block angegeben, der nur Buchstaben umfasst.

Klicken Sie zum Testen der Parsing-Grammatik auf die Registerkarte Vorschau. Geben Sie die unten aufgeführten Namen in das Feld Name ein, und klicken Sie auf Vorschau.

Vorschau der Parsing-Grammatik

Sie können auch andere gültige und ungültige Namen eingeben, um zu sehen, wie die Eingabedaten geparst werden.

Sie können mithilfe des Features „Ablaufverfolgung“ eine grafische Darstellung eines der endgültigen Parsing-Ergebnisse anzeigen oder die Parsing-Ereignisse durchlaufen. Klicken Sie auf den Link in der Spalte Ablaufverfolgung, um die Ablaufverfolgungsdetails für die Datenzeile anzuzeigen.

Write to File

Die Vorlage enthält einen „Write to File“-Schritt. Neben dem Eingabefeld enthält die Ausgabedatei die Felder LastName und FirstName. Wählen Sie in der Liste der Vergleichsergebnisse ein Vergleichsergebnis aus, und klicken Sie dann auf Entfernen.