Konfigurieren von Optionen - dataflow_designer - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

Um die Optionen für den Advanced Transformer anzugeben, erstellen Sie eine Regel. Sie können mehrere Regeln erstellen und dann die Reihenfolge angeben, in der die Regeln angewendet werden sollen. So erstellen Sie eine Regel:

  1. Doppelklicken Sie auf die Instanz von Advanced Transformer auf der Arbeitsfläche. Das Dialogfeld Advanced Transformer-Optionen wird angezeigt.
  2. Wählen Sie die Anzahl der Laufzeitinstanzen aus und klicken Sie auf OK. Verwenden Sie die Option „Laufzeitinstanzen“, um einen Datenfluss zu konfigurieren, um mehrere, parallele Instanzen eines Schrittes auszuführen und so potenziell die Leistung zu erhöhen.
  3. Klicken Sie auf die Schaltfläche Hinzufügen. Das Dialogfeld Regeloptionen für Advanced Transformer wird angezeigt.
    Anmerkung: Wenn Sie mehrere Transformer-Regeln hinzufügen, können Sie die Schaltflächen Nach oben und Nach unten verwenden, um die Reihenfolge zu ändern, in der die Regeln angewendet werden.
  4. Wählen Sie den Typ der Transformationsaktion aus, die Sie ausführen möchten, und klicken Sie auf OK. Die Optionen sind in der nachfolgenden Tabelle aufgeführt.
Tabelle 1. Advanced Transformer-Optionen

Option

Beschreibung

Quelle

Gibt das Quelleingabefeld an, das zum Suchen und Aufteilen ausgewertet werden soll.

Extrahieren mit

Wählen Sie Relationsdaten oder Reguläre Ausdrücke aus.

Wählen Sie Relationsdaten, wenn Sie mit den XML-Relationen unter <Drive>:\Program Files\Precisely\Spectrum\server\modules\advancedtransformer\data. scannen und teilen möchten. Weitere Informationen zu jeder Optionen finden Sie in den Relationsdateninformationen.

Wählen Sie Reguläre Ausdrücke aus, wenn Sie zum Scannen und Aufteilen reguläre Ausdrücke verwenden möchten. Reguläre Ausdrücke bieten viele zusätzliche Optionen zum Aufteilen von Daten. Sie können einen der vordefinierten regulären Ausdrücke verwenden, indem Sie ihn aus der Liste auswählen. Alternativ können Sie mit der RegEx-Syntax einen eigenen erstellen.

Beispiel: Sie könnten die Daten aufteilen, wenn der erste numerische Wert gefunden wird, so wie in „John Smith 123 Main St.“, wo „John Smith“ in ein Feld und „123 Main St.“ in ein anderes Feld übernommen würde. Weitere Informationen zu den einzelnen Optionen finden Sie unten unter „Optionen für reguläre Ausdrücke“.

Relationsdatenoptionen

Nicht extrahierte Daten

Gibt das Ausgabefeld an, das die transformierten Daten enthalten soll. Wenn der ursprüngliche Wert ersetzt werden soll, geben Sie im Feld „Ziel“ dasselbe Feld an wie zuvor im Dropdown-Feld „Quelle“.

Sie können in das Feld „Ziel“ auch einen neuen Feldnamen eingeben. Wenn Sie einen neuen Feldnamen eingeben, ist dieser Feldname in den Schritten in Ihrem Datenfluss verfügbar, die dem Advanced Transformer nachgeschaltet sind.

Extrahierte Daten

Gibt das Ausgabefeld an, in das die extrahierten Daten eingefügt werden sollen.

Sie können in das Feld „Extrahierte Daten“ auch einen neuen Feldnamen eingeben. Wenn Sie einen neuen Feldnamen eingeben, ist dieser Feldname in den Schritten in Ihrem Datenfluss verfügbar, die dem Advanced Transformer nachgeschaltet sind.

Tokenisierungszeichen

Gibt beliebige Sonderzeichen an, die Sie tokenisieren möchten. Bei der Tokenisierung werden Begriffe getrennt. Beispiel: Bei einem Feld mit den Daten „Smith, John“ würden Sie das Komma tokenisieren. Das ergäbe die Begriffe:

  • Smith
  • ,
  • John

Nun, wo die Begriffe getrennt sind, können die Daten durch Scannen auf und Extrahieren des Kommas aufgeteilt werden. „Smith“ und „John“ werden so sauber als zu standardisierende Daten identifiziert.

Tabelle

Gibt die Relation an, die die Begriffe enthält, anhand denen das Feld aufgeteilt werden soll. Eine Liste der Relationen finden Sie unter Advanced Transformer-Tabellen. Weitere Informationen zum Erstellen oder Ändern von Relationen finden Sie unter Einführung in Suchtabellen.

Aus mehreren Wörtern bestehende Begriffe suchen

Aktivieren Sie dieses Kästchen, um mehrere Wortsuchläufe innerhalb einer gegebenen Zeichenfolge zu erlauben. Beispiel:

Eingabezeichenfolge = „Cedar Rapids 52401“, Geschäftsregel = „Cedar Rapids“ in Zeichenfolge auf Basis einer Relation mit dem Eintrag identifizieren; Cedar Rapids = US Output = Identifiziert Vorkommen von „Cedar Rapids“ und übernimmt die Begriffe in ein neues Feld, z. B. Ort.

Bei der Mehrwortsuche stoppt die Suche beim ersten Vorkommen einer Übereinstimmung.

Anmerkung: Die Auswahl dieser Option kann die Leistung beeinträchtigen.

Extrahieren

Gibt den Typ der durchzuführenden Extrahierung an. Wählen Sie aus Folgenden aus:

Begriff extrahieren
Extrahiert den durch die ausgewählte Relation identifizierten Begriff.
N Wörter auf der rechten Seite des Begriffs
Extrahiert Wörter auf der rechten Seite des Begriffs. Sie geben die Anzahl der zu extrahierenden Wörter an. Wenn Sie beispielsweise die zwei Wörter rechts vom identifizierten Begriff extrahieren möchten, geben Sie 2 an.
N Wörter auf der linken Seite des Begriffs
Extrahiert Wörter auf der linken Seite des Begriffs. Sie geben die Anzahl der zu extrahierenden Wörter an. Wenn Sie beispielsweise die zwei Wörter links vom identifizierten Begriff extrahieren möchten, geben Sie 2 an.

Wenn Sie Wörter rechts oder links des Begriffs extrahieren möchten, können Sie angeben, ob der Begriff selbst in die Zieldaten oder die extrahierten Daten eingefügt werden soll. Sie haben beispielsweise dieses Feld:

2300 BIRCH RD STE 100

Sie möchten „STE 100“ extrahieren und in das in „Extrahierte Daten“ angegebene Feld übernehmen. Sie würden den Begriff in das Feld mit den extrahierten Daten einfügen, somit also die Abkürzung „STE“ und das Wort „100“.

Wenn Sie weder „Ziel“ noch „Extrahierte Daten“ auswählen, wird der Begriff nicht eingefügt und verworfen.

Optionen für reguläre Ausdrücke

Reguläre Ausdrücke

Wählen Sie einen der vordefinierten regulären Ausdrücke aus der Liste aus, oder erstellen Sie im Textfeld einen eigenen. Der Advanced Transformer unterstützt die RegEx-Standardsyntax.

Java 2 Platform enthält ein Paket mit Namen java.util.regex, das die Verwendung regulärer Ausdrücke ermöglicht. Weitere Informationen finden Sie unter: java.sun.com/docs/books/tutorial/essential/regex/index.html .

Auslassungsschaltfläche

Klicken Sie auf diese Schaltfläche, um einen neuen regulären Ausdruck hinzuzufügen oder zu entfernen.

Gruppe auffüllen

Nachdem Sie einen vordefinierten RegEx-Ausdruck ausgewählt oder einen neuen eingegeben haben, klicken Sie auf Gruppe auffüllen, um beliebige RegEx-Gruppen zu extrahieren und den vollständigen Ausdruck sowie beliebige gefundene RegEx-Gruppen in die Liste „Gruppen“ zu übernehmen.

Gruppen

Diese Spalte zeigt die regulären Ausdrücke für die ausgewählte Gruppe „Reguläre Ausdrücke“ an.

Wenn Sie beispielsweise den RegEx-Ausdruck „Date“ auswählen, wird der folgende Ausdruck im Textfeld angezeigt: (1[012]{1,2}|0?[1-9])[-/.]([12][0-9]|3[01]{1,2}|0?[1-9])[-/.](([0-9]{4})). Dieser RegEx-Ausdruck besteht aus drei Teilen, und der vollständige Ausdruck und jeder der drei Teile kann an ein anderes Ausgabefeld gesendet werden. Der vollständige Ausdruck wird im Quellenfeld gesucht. Wird eine Übereinstimmung im Quellenfeld gefunden, werden die zugehörigen Teile in das zugewiesene Ausgabefeld verschoben. Beispiel: Das Quellfeld ist „On 12/14/2006“, Sie wenden den Ausdruck „Date“ darauf an und legen fest, dass das vollständige Datum (z. B. „12/14/2006“) in das Feld DATE, „12“ in das Feld MONTH, „14“ in das Feld DAY und „2006“ in das Feld YEAR übernommen werden sollen. In diesem Fall wird nach dem Datum gesucht. Wird es gefunden, werden die entsprechenden Informationen in das entsprechende Ausgabefeld übernommen.

Quellenfeld: „On 12/14/2006“ DATE: „12/14/2006“ MONTH: „12“ DAY: „14“ YEAR: „2006“

Ausgabefeld

Dropdown-Menü zum Auswählen eines Ausgabefeldes.