Optionen - dataflow_designer - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

In der folgenden Tabelle sind die Optionen für den Filter-Schritt aufgeführt.

Name der Option

Beschreibung/gültige Werte

Gruppieren nach

Gibt das Feld an, das zum Erstellen von zu filternden Datensatzgruppen verwendet werden soll. Der Filter-Schritt wird einen oder mehrere Datensätze aus jeder Gruppe beibehalten, je nachdem, wie Sie den Schritt konfigurieren. Wenn Sie den Vergleichsschritt früher im Datenfluss verwendet haben, z. B. bei Interflow Match, Intraflow Match oder Transactional Match, sollten Sie das Feld „CollectionNumber“ auswählen, um die vom Vergleichsschritt als Gruppen erstellten Sammlungen zu verwenden. Wenn Sie jedoch Datensätze nach einem anderen Feld gruppieren möchten, wählen Sie das Feld hier aus. Wenn Sie beispielsweise alle bis auf einen Datensatz aus den Datensätzen mit demselben Wert im Feld „AccountNumber“ herausfiltern möchten, müssten Sie „AccountNumber“auswählen.

Sortieren

Wenn Sie ein Feld im Gruppierungsfeld angeben, müssen Sie dieses Kästchen aktivieren, um die Datensätze nach dem Wert im ausgewählten Feld zu sortieren. Diese Option ist standardmäßig aktiviert.

Erweitert

Klicken Sie auf diese Schaltfläche, um die Optionen für die Sortierleistung anzugeben. Standardmäßig werden die Optionen für die Sortierleistung verwendet, die in der Management Console festgelegt sind. Es handelt sich dabei um die Standardleistungsoptionen für Ihr System. Wenn Sie die Standardleistungsoptionen Ihres Systems überschreiben möchten, müssen Sie das Kästchen Optionen für Sortierleistung außer Kraft setzen aktivieren und anschließend die für diese Felder gewünschten Werte angeben:

Beschränkung für Datensätze im Arbeitsspeicher
Gibt die maximale Anzahl von Datenzeilen an, die ein Sorter im Arbeitsspeicher belässt, bevor er sie auf die Festplatte auslagert. Standardmäßig erfolgt eine Sortierung von bis zu 10.000 Datensätze in einem Arbeitsspeicher und eine Sortierung von mehr als 10.000 Datensätzen auf einem Datenträger. Der maximale Wert umfasst 100.000 Datensätze. In der Regel erfolgt eine Sortierung im Arbeitsspeicher deutlich schneller als auf einem Datenträger. Daher sollte hierfür ein Wert festgelegt werden, der hoch genug ist, damit ein Großteil der Sortierungen im Arbeitsspeicher erfolgen kann und nur umfangreiche Datasets auf einen Datenträger geschrieben werden.
Anmerkung: Vorsicht bei Umgebungen, in denen Aufträge gleichzeitig ausgeführt werden: Durch das Erhöhen der Einstellung Beschränkung für Datensätze im Arbeitsspeicher wird die Wahrscheinlichkeit erhöht, dass nicht mehr genügend Arbeitsspeicher verfügbar ist.
Maximale Anzahl temporärer Dateien
Gibt die maximale Anzahl temporärer Dateien an, die von einem Sortiervorgang verwendet werden können. Die Verwendung einer größeren Anzahl temporärer Dateien kann zu einer besseren Leistung führen. Die optimale Anzahl hängt jedoch stark von der Konfiguration des Servers ab, auf dem Spectrum Technology Platform ausgeführt wird. Sie sollten mit verschiedenen Einstellungen experimentieren und dabei die Auswirkungen auf die Leistung beobachten, wenn mehr oder weniger temporäre Dateien verwendet werden. Verwenden Sie für die Berechnung der ungefähren Anzahl temporärer Dateien die folgende Gleichung:

(NumberOfRecords × 2) ÷ InMemoryRecordLimit = NumberOfTempFilesN

Anmerkung: Die maximale Anzahl der temporären Dateien darf 1.000 nicht überschreiten.
Anmerkung: Welche Einstellungen für die Sortierleistung optimal sind, hängt von der Hardwarekonfiguration Ihres Servers ab. Sie können diese Gleichung als allgemeine Richtlinie verwenden, um eine gute Sortierleistung zu erzielen:

(InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords

Anmerkung: Welche Einstellungen für die Sortierleistung optimal sind, hängt von der Hardwarekonfiguration Ihres Servers ab. Sie können diese Gleichung als allgemeine Richtlinie verwenden, um eine gute Sortierleistung zu erzielen:

(InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords

Anzahl zurückgegebener doppelter Datensätze beschränken

Gibt die maximale Anzahl der Datensätze an, die aus jeder Gruppe zurückgegeben werden. Wenn Sie diese Option auf 1 einstellen, können Sie Filterregeln definieren, um zu bestimmen, welcher Datensatz in jeder Gruppe zurückgegeben werden soll. Wenn keine Regeln definiert sind, wird der erste Datensatz in jeder Sammlung zurückgegeben und der Rest wird verworfen. In diesem Modus definieren die Filterregeln, welcher Datensatz beibehalten wird.

Wenn Sie beispielsweise eine Regel definieren, bei der der Datensatz mit der höchsten Punktzahl in einer Gruppe beibehalten wird, und Sie diese Option auf 1 einstellen, wird der Datensatz mit der höchsten Punktzahl in jeder Gruppe beibehalten und die anderen Datensätze in der Gruppe werden verworfen.

Wenn Sie diese Option auf einen Wert über 1 einstellen, können Sie keine Filterregeln festlegen.

Anmerkung: Wenn keiner der Datensätze in der Sammlung den definierten Regelkriterien entspricht, werden keine Datensätze aus der Gruppe zurückgegeben.

Duplikate aus Sammlung entfernen

Gibt an, dass Filterregeln verwendet werden sollen, um zu bestimmen, welche Datensätze aus der Sammlung entfernt werden. Die restlichen Datensätze in der Sammlung werden beibehalten. Wenn diese Option aktiviert ist, müssen Sie eine Regel definieren.

Anmerkung: Wenn lediglich ein Datensatz in einer Gruppe enthalten ist, werden die Filterregeln ignoriert und der Datensatz wird beibehalten.

Regeloptionen

Filterregeln bestimmen, welche Datensätze in einer Gruppe beibehalten oder entfernt werden sollen. Wenn Sie die Option Anzahl zurückgegebener doppelter Datensätze beschränken auswählen, bestimmen die Regeln, welche Datensätze nach dem Filtern erhalten bleiben. Wenn Sie die Option Duplikate aus Sammlung entfernen auswählen, bestimmen die Regeln, welche Datensätze aus dem Datenfluss entfernt werden.

Wählen Sie zum Hinzufügen einer Regel „Regeln“ in der Regelhierarchie aus, und klicken Sie auf Regel hinzufügen.

Wenn Sie mehrere Regeln angeben, müssen Sie einen logischen Operator auswählen, der zwischen jeder Regel zu verwenden ist. Wählen Sie And aus, wenn die neue Regel und die vorherige Regel beide erfüllt sein müssen, damit die Bedingung erfüllt ist. Wählen Sie Or aus, wenn entweder die vorherige Regel oder die neue Regel erfüllt sein muss, damit die Bedingung erfüllt ist.

Anmerkung: Es kann lediglich eine Bedingung in einem Filter-Schritt vorhanden sein. Wenn Sie „Bedingung“ in der Regelhierarchie auswählen, werden die Schaltflächen abgeblendet.
Option Beschreibung

Feldname

Gibt den Namen des Datenflussfeldes an, dessen Wert Sie auswerten möchten, um zu bestimmen, ob der Datensatz gefiltert werden soll.

Typ

Gibt den Datentyp im Feld an. Zur Auswahl stehen:

Nicht numerisch
Wählen Sie diese Option aus, wenn das Feld nicht numerische Daten enthält (z. B. string-Daten).
Numerisch
Wählen Sie diese Option aus, wenn das Feld numerische Daten enthält (z. B. double, float usw.).

Operator

Gibt den Vergleichstyp an, den Sie zur Auswertung des Feldes verwenden möchten. Zur Auswahl stehen:

Enthält
Bestimmt, ob das Feld den angegebenen Wert enthält. Zum Beispiel enthält „Segelboot“ den Wert „boot“.
Gleich
Bestimmt, ob das Feld exakt den angegebenen Wert enthält.
Größer als
Bestimmt, ob der Feldwert größer als der angegebene Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
Größer oder gleich
Bestimmt, ob der Feldwert größer als oder gleich dem angegebenen Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
Höchste
Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den höchsten Wert im Feld aufweist. Wenn die Felder in der Gruppe beispielsweise Werte von 10, 20, 30 und 100 enthalten, würde der Datensatz mit dem Feldwert 100 ausgewählt werden. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
Ist leer
Bestimmt, ob das Feld keinen Wert enthält.
Ist nicht leer
Bestimmt, ob das Feld einen Wert enthält.
Kleiner als
Bestimmt, ob der Feldwert kleiner als der angegebene Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
Kleiner oder gleich
Bestimmt, ob der Feldwert kleiner als oder gleich dem angegebenen Wert ist. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden.
Längste
Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den längsten Wert (in Byte) im Feld aufweist. Wenn die Gruppe beispielsweise die Werte „Mike“ und „Michael“ enthält, wird der Datensatz mit dem Wert „Michael“ ausgewählt. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
Niedrigste
Vergleicht den Wert des Feldes für die gesamte Datensatzgruppe und bestimmt, welcher Datensatz den niedrigsten Wert im Feld aufweist. Wenn die Felder in der Gruppe beispielsweise Werte von 10, 20, 30 und 100 enthalten, würde der Datensatz mit dem Feldwert 10 ausgewählt werden. Dieser Vorgang kann nur auf numerischen Feldern ausgeführt werden. Wenn mehrere Datensätze gleichzeitig den längsten Wert aufweisen, wird ein Datensatz ausgewählt.
Häufigste
Bestimmt, ob der Feldwert den Wert enthält, der in diesem Feld unter den Datensätzen in der Gruppe am häufigsten auftritt. Wenn zwei oder mehr Werte am häufigsten auftreten, werden keine Aktionen durchgeführt.
Ungleich
Bestimmt, ob der Feldwert nicht mit dem angegebenen Wert übereinstimmt.

Werttyp

Gibt den Werttyp an, den Sie mit dem Wert des Feldes vergleichen möchten. Zur Auswahl stehen:

Anmerkung: Diese Option ist nicht verfügbar, wenn Sie den Operator „Höchste“, „Niedrigste“ oder „Längste“ auswählen.
Feld
Wählen Sie diese Option, wenn Sie den Wert eines anderen Datenflussfeldes mit dem Feld vergleichen möchten.
Zeichenfolge
Wählen Sie diese Option, wenn Sie das Feld mit einem spezifischen Wert vergleichen möchten.
Wert

Gibt den Wert an, der mit dem Wert des Feldes verglichen werden soll. Wenn Sie im Feld Feldtyp den Eintrag „Feld“ ausgewählt haben, müssen Sie ein Datenflussfeld auswählen. Wenn Sie im Feld Werttyp den Eintrag „Zeichenfolge“ ausgewählt haben, müssen Sie den bei dem Vergleich zu verwendenden Wert eingeben.

Anmerkung: Diese Option ist nicht verfügbar, wenn Sie den Operator „Höchste“, „Niedrigste“ oder „Längste“ auswählen.

Beispiel einer Filterregel

Diese Regel behält in jeder Gruppe den Datensatz mit dem höchsten Wert im Feld „MatchScore“ bei. Hinweis: Die Optionen Wert und Werttyp gelten nicht, wenn der Operator „Höchste“ oder „Niedrigste“ eingestellt ist.

Feldname = MatchScore
Feldtyp = Numerisch
Operator = Höchste

Die Regel behält den Datensatz mit dem Wert „12345“ im Feld „AccountNumber“ bei.

Feldname = AccountNumber
Feldtyp= Numerisch
Operator = Gleich
Werttyp = Zeichenfolge
Wert = 12345