Optionen - dataflow_designer - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

In der folgenden Tabelle sind die Optionen für den Duplicate Synchronization-Schritt aufgeführt.

Name der Option

Beschreibung/gültige Werte

Gruppieren nach

Gibt das Feld an, das zum Erstellen von zu synchronisierenden Datensatzgruppen verwendet werden soll. Wenn Sie den Vergleichsschritt früher im Datenfluss verwendet haben, z. B. bei Interflow Match, Intraflow Match oder Transactional Match, sollten Sie das Feld „CollectionNumber“ auswählen, um die vom Vergleichsschritt als Gruppen erstellten Sammlungen zu verwenden. Wenn Sie jedoch Datensätze nach einem anderen Feld gruppieren möchten, wählen Sie das Feld hier aus. Wenn Sie beispielsweise Datensätze mit demselben Wert im Feld „AccountNumber“ synchronisieren möchten, müssten Sie „AccountNumber“ auswählen.

Sortieren

Wenn Sie ein Feld im Gruppierungsfeld angeben, müssen Sie dieses Kästchen aktivieren, um die Datensätze nach dem Wert im ausgewählten Feld zu sortieren. Diese Option ist standardmäßig aktiviert.

Erweitert

Klicken Sie auf diese Schaltfläche, um die Optionen für die Sortierleistung anzugeben. Standardmäßig werden die Optionen für die Sortierleistung verwendet, die in der Management Console festgelegt sind. Es handelt sich dabei um die Standardleistungsoptionen für Ihr System. Wenn Sie die Standardleistungsoptionen Ihres Systems überschreiben möchten, müssen Sie das Kästchen Optionen für Sortierleistung außer Kraft setzen aktivieren und anschließend die für diese Felder gewünschten Werte angeben:

Beschränkung für Datensätze im Arbeitsspeicher
Gibt die maximale Anzahl von Datenzeilen an, die ein Sorter im Arbeitsspeicher belässt, bevor er sie auf die Festplatte auslagert. Standardmäßig erfolgt eine Sortierung von bis zu 10.000 Datensätze in einem Arbeitsspeicher und eine Sortierung von mehr als 10.000 Datensätzen auf einem Datenträger. Der maximale Wert umfasst 100.000 Datensätze. In der Regel erfolgt eine Sortierung im Arbeitsspeicher deutlich schneller als auf einem Datenträger. Daher sollte hierfür ein Wert festgelegt werden, der hoch genug ist, damit ein Großteil der Sortierungen im Arbeitsspeicher erfolgen kann und nur umfangreiche Datasets auf einen Datenträger geschrieben werden.
Anmerkung: Vorsicht bei Umgebungen, in denen Aufträge gleichzeitig ausgeführt werden: Durch das Erhöhen der Einstellung Beschränkung für Datensätze im Arbeitsspeicher wird die Wahrscheinlichkeit erhöht, dass nicht mehr genügend Arbeitsspeicher verfügbar ist.
Maximale Anzahl temporärer Dateien
Gibt die maximale Anzahl temporärer Dateien an, die von einem Sortiervorgang verwendet werden können. Die Verwendung einer größeren Anzahl temporärer Dateien kann zu einer besseren Leistung führen. Die optimale Anzahl hängt jedoch stark von der Konfiguration des Servers ab, auf dem Spectrum Technology Platform ausgeführt wird. Sie sollten mit verschiedenen Einstellungen experimentieren und dabei die Auswirkungen auf die Leistung beobachten, wenn mehr oder weniger temporäre Dateien verwendet werden. Verwenden Sie für die Berechnung der ungefähren Anzahl temporärer Dateien die folgende Gleichung:

(NumberOfRecords × 2) ÷ InMemoryRecordLimit = NumberOfTempFilesN

Anmerkung: Die maximale Anzahl der temporären Dateien darf 1.000 nicht überschreiten.
Anmerkung: Welche Einstellungen für die Sortierleistung optimal sind, hängt von der Hardwarekonfiguration Ihres Servers ab. Sie können diese Gleichung als allgemeine Richtlinie verwenden, um eine gute Sortierleistung zu erzielen:

(InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords

Anmerkung: Welche Einstellungen für die Sortierleistung optimal sind, hängt von der Hardwarekonfiguration Ihres Servers ab. Sie können diese Gleichung als allgemeine Richtlinie verwenden, um eine gute Sortierleistung zu erzielen:

(InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords

Regeln

Die „Duplicate Synchronization“-Regeln bestimmen, aus welchen Datensätzen die Daten in alle anderen Datensätze in der Sammlung kopiert werden sollen.

Wählen Sie zum Hinzufügen einer Regel „Regeln“ in der Regelhierarchie aus, und klicken Sie auf Regel hinzufügen.

Wenn Sie mehrere Regeln angeben, müssen Sie einen logischen Operator auswählen, der zwischen jeder Regel zu verwenden ist. Wählen Sie And aus, wenn die neue Regel und die vorherige Regel beide erfüllt sein müssen, damit die Bedingung erfüllt ist. Wählen Sie Or aus, wenn entweder die vorherige Regel oder die neue Regel erfüllt sein muss, damit die Bedingung erfüllt ist.

Option Beschreibung

Feldname

Gibt den Namen des Datenflussfeldes an, dessen Wert Sie auswerten möchten, um zu bestimmen, ob der Datensatz gefiltert werden soll.

Typ

Gibt den Datentyp im Feld an. Zur Auswahl stehen:

Nicht numerisch
Wählen Sie diese Option aus, wenn das Feld nicht numerische Daten enthält (z. B. string-Daten).
Numerisch
Wählen Sie diese Option aus, wenn das Feld numerische Daten enthält (z. B. double, float usw.).

Operator

Gibt den Vergleichstyp an, den Sie zur Auswertung des Feldes verwenden möchten. Zur Auswahl stehen:

Enthält
Bestimmt, ob das Feld den angegebenen Wert enthält. Zum Beispiel enthält „Segelboot“ den Wert „boot“.
Gleich
Bestimmt, ob das Feld exakt den angegebenen Wert enthält.
Größer als
Bestimmt, ob der Feldwert größer als der angegebene Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
Größer oder gleich
Bestimmt, ob der Feldwert größer als oder gleich dem angegebenen Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
Höchste
Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den höchsten Wert im Feld aufweist. Wenn die Felder in der Gruppe beispielsweise Werte von 10, 20, 30 und 100 enthalten, würde der Datensatz mit dem Feldwert 100 ausgewählt werden. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
Ist leer
Bestimmt, ob das Feld keinen Wert enthält.
Ist nicht leer
Bestimmt, ob das Feld einen Wert enthält.
Kleiner als
Bestimmt, ob der Feldwert kleiner als der angegebene Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
Kleiner oder gleich
Bestimmt, ob der Feldwert kleiner als oder gleich dem angegebenen Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
Längste
Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den längsten Wert (in Byte) im Feld aufweist. Wenn die Gruppe beispielsweise die Werte „Mike“ und „Michael“ enthält, wird der Datensatz mit dem Wert „Michael“ ausgewählt. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
Niedrigste
Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den niedrigsten Wert im Feld aufweist. Wenn die Felder in der Gruppe beispielsweise Werte von 10, 20, 30 und 100 enthalten, würde der Datensatz mit dem Feldwert 10 ausgewählt werden. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
Häufigste
Bestimmt, ob der Feldwert den Wert enthält, der in diesem Feld unter den Datensätzen in der Gruppe am häufigsten auftritt. Wenn zwei oder mehr Werte am häufigsten auftreten, werden keine Aktionen durchgeführt.
Ungleich
Bestimmt, ob der Feldwert nicht mit dem angegebenen Wert übereinstimmt.

Werttyp

Gibt den Werttyp an, den Sie mit dem Wert des Feldes vergleichen möchten. Zur Auswahl stehen:

Anmerkung: Diese Option ist nicht verfügbar, wenn Sie den Operator „Höchste“, „Niedrigste“ oder „Längste“ auswählen.
Feld
Wählen Sie diese Option, wenn Sie den Wert eines anderen Datenflussfeldes mit dem Feld vergleichen möchten.
Zeichenfolge
Wählen Sie diese Option, wenn Sie das Feld mit einem spezifischen Wert vergleichen möchten.
Wert

Gibt den Wert an, der mit dem Wert des Feldes verglichen werden soll. Wenn Sie im Feld Feldtyp den Eintrag „Feld“ ausgewählt haben, müssen Sie ein Datenflussfeld auswählen. Wenn Sie im Feld Werttyp den Eintrag „Zeichenfolge“ ausgewählt haben, müssen Sie den bei dem Vergleich zu verwendenden Wert eingeben.

Anmerkung: Diese Option ist nicht verfügbar, wenn Sie den Operator „Höchste“, „Niedrigste“ oder „Längste“ auswählen.

Aktionen

Aktionen bestimmen, welches Feld in andere Datensätze in der Gruppe kopiert werden soll. Um eine Aktion hinzuzufügen, müssen Sie „Aktion“ im Bedingungsbaum „Duplicate Synchronization“ auswählen und anschließend auf Aktion hinzufügen klicken. Definieren Sie die Aktion anhand der folgenden Optionen.

Option Beschreibung

Quelltyp

Gibt den Datentyp an, der in andere Datensätze in der Gruppe kopiert werden soll. Die folgenden Optionen stehen zur Auswahl:

Feld
Wählen Sie diese Option aus, wenn Sie einen Wert aus einem Feld in die anderen Datensätze in der Gruppe kopieren möchten.
Zeichenfolge
Wählen Sie diese Option aus, wenn Sie einen konstanten Wert in die anderen Datensätze in der Gruppe kopieren möchten.

Quelldaten

Gibt die Daten an, die in die anderen Datensätze in der Gruppe kopiert werden sollen. Wenn der Quelltyp „Field“ ist, müssen Sie das Feld auswählen, dessen Wert in die anderen Datensätze in der Gruppe kopiert werden soll. Wenn der Quelltyp „String“ ist, müssen Sie einen konstanten Wert angeben, der in die anderen Datensätze in der Gruppe kopiert werden soll.
Anmerkung: Wenn die Quelldaten Nullwerte aufweisen, werden sie nicht zu den anderen Datensätzen in der Gruppe kopiert. Die anderen Datensätze behalten ihre ursprünglichen Werte.

Ziel

Gibt das Feld in den anderen Datensätzen an, in das die im Feld Quelldaten angegebenen Daten kopiert werden sollen. Wenn Sie beispielsweise die Daten in das Feld „AccountBalance“ in allen anderen Datensätzen in der Gruppe kopieren möchten, müssten Sie „AccountBalance“ angeben.

„Duplicate Synchronization“-Regel und -Aktion

Diese „Duplicate Synchronization“-Regel und -Aktion wählen den Datensatz aus, bei dem die Punktzahl 100 beträgt, und kopieren das Feld „AccountNumber“ in alle anderen Datensätze in der Gruppe.

Feldname der
Regel: MatchScore
Feldtyp: Numerisch
Operator: Gleich
Werttyp: Zeichenfolge
Wert: 100

Quelltyp für
Aktion: Feld
Quelldaten: AccountNumber
Ziel: NewAccountNumber