Optionen - dataflow_designer - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

In der folgenden Tabelle werden die Optionen für „Best of Breed“ aufgeführt.

Name der Option

Beschreibung/gültige Werte

Gruppieren nach

Gibt das Feld an, anhand dessen Gruppen von Datensätzen erstellt werden sollen, die in einen einzelnen „Best of Breed“-Datensatz zusammengeführt werden sollen, sodass ein „Best of Breed“-Datensatz aus jeder Gruppe erstellt wird. Wenn Sie den Vergleichsschritt früher im Datenfluss verwendet haben, sollten Sie das Feld „CollectionNumber“ auswählen, um die vom Vergleichsschritt als Gruppen erstellten Sammlungen zu verwenden. Wenn Sie jedoch Datensätze nach einem anderen Feld gruppieren möchten, wählen Sie das Feld hier aus. Wenn Sie beispielsweise alle Datensätze, die denselben Wert im Feld „AccountNumber“ aufweisen, in einem „Best of Breed“-Datensatz zusammenführen möchten, müssten Sie „AccountNumber“ auswählen.

Sortieren

Wenn Sie ein Feld im Gruppierungsfeld angeben, müssen Sie dieses Kästchen aktivieren, um die Datensätze nach dem Wert im ausgewählten Feld zu sortieren. Diese Option ist standardmäßig aktiviert.

Erweitert

Klicken Sie auf diese Schaltfläche, um die Optionen für die Sortierleistung anzugeben. Standardmäßig werden die Optionen für die Sortierleistung verwendet, die in der Management Console festgelegt sind. Es handelt sich dabei um die Standardleistungsoptionen für Ihr System. Wenn Sie die Standardleistungsoptionen Ihres Systems überschreiben möchten, müssen Sie das Kästchen Optionen für Sortierleistung außer Kraft setzen aktivieren und anschließend die für diese Felder gewünschten Werte angeben:

Beschränkung für Datensätze im Arbeitsspeicher
Gibt die maximale Anzahl von Datenzeilen an, die ein Sorter im Arbeitsspeicher belässt, bevor er sie auf die Festplatte auslagert. Standardmäßig erfolgt eine Sortierung von bis zu 10.000 Datensätze in einem Arbeitsspeicher und eine Sortierung von mehr als 10.000 Datensätzen auf einem Datenträger. Der maximale Wert umfasst 100.000 Datensätze. In der Regel erfolgt eine Sortierung im Arbeitsspeicher deutlich schneller als auf einem Datenträger. Daher sollte hierfür ein Wert festgelegt werden, der hoch genug ist, damit ein Großteil der Sortierungen im Arbeitsspeicher erfolgen kann und nur umfangreiche Datasets auf einen Datenträger geschrieben werden.
Anmerkung: Vorsicht bei Umgebungen, in denen Aufträge gleichzeitig ausgeführt werden: Durch das Erhöhen der Einstellung Beschränkung für Datensätze im Arbeitsspeicher wird die Wahrscheinlichkeit erhöht, dass nicht mehr genügend Arbeitsspeicher verfügbar ist.
Maximale Anzahl temporärer Dateien
Gibt die maximale Anzahl temporärer Dateien an, die von einem Sortiervorgang verwendet werden können. Die Verwendung einer größeren Anzahl temporärer Dateien kann zu einer besseren Leistung führen. Die optimale Anzahl hängt jedoch stark von der Konfiguration des Servers ab, auf dem Spectrum Technology Platform ausgeführt wird. Sie sollten mit verschiedenen Einstellungen experimentieren und dabei die Auswirkungen auf die Leistung beobachten, wenn mehr oder weniger temporäre Dateien verwendet werden. Verwenden Sie für die Berechnung der ungefähren Anzahl temporärer Dateien die folgende Gleichung:

(NumberOfRecords × 2) ÷ InMemoryRecordLimit = NumberOfTempFilesN

Anmerkung: Die maximale Anzahl der temporären Dateien darf 1.000 nicht überschreiten.
Anmerkung: Welche Einstellungen für die Sortierleistung optimal sind, hängt von der Hardwarekonfiguration Ihres Servers ab. Sie können diese Gleichung als allgemeine Richtlinie verwenden, um eine gute Sortierleistung zu erzielen:

(InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords

Anmerkung: Welche Einstellungen für die Sortierleistung optimal sind, hängt von der Hardwarekonfiguration Ihres Servers ab. Sie können diese Gleichung als allgemeine Richtlinie verwenden, um eine gute Sortierleistung zu erzielen:

(InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords

Ursprüngliche Datensätze beibehalten

Wählen Sie diese Option aus, um alle Datensätze in der Sammlung zusammen mit dem „Best of Breed“-Datensatz beizubehalten. Deaktivieren Sie diese Option, wenn Sie lediglich den „Best of Breed“-Datensatz benötigen.

Ersten Datensatz verwenden

Wählen Sie diese Option aus, wenn „Best of Breed“ automatisch den ersten Datensatz in der Sammlung als den Vorlagendatensatz auswählen soll. Der Vorlagendatensatz ist der Datensatz, auf dem der „Best of Breed“-Datensatz basiert.

Vorlagendatensatz definieren

Wählen Sie diese Option aus, um Regeln für die Auswahl des Vorlagendatensatzes zu definieren. Weitere Informationen finden Sie unter Regeln für den Vorlagendatensatz definieren.