Empfehlungen zur Leistungsoptimierung - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

Die folgenden Abschnitte kombinieren viele Tipps, mit denen Sie die Leistung verschiedener Datenqualitätsschritte verbessern können. Die aufgeführten Empfehlungen helfen Ihnen dabei, die entsprechende Leistung für die Schritte Advanced Matching, Data Normalization und Universal Name zu erzielen.

Die folgenden Empfehlungen gelten für alle Schritte:
  • Anzahl der Datensätze: Wenn Datensätze vor dem Senden zur Verarbeitung analysiert und gefiltert werden, wird die Leistung verbessert, da eine Erhöhung der Anzahl der Datensätze zu einer proportionalen Verlängerung der Zeit führt.
  • Cluster: Die Leistung steigt, wenn die Verarbeitung im Clustermodus durchgeführt wird.

Leistungsempfehlungen für Advanced Matching-Schritte

Schritt Leistungsempfehlungen

Intraflow Match

  • Gruppengröße: Wenn die Gruppengröße bzw. der Vergleichsschlüssel auf das optimale Maß minimiert wird, erzielen Sie eine bessere Leistung, da eine Erhöhung der Gruppengröße bei gleicher Anzahl von Datensätzen zu einer erhöhten Verarbeitungszeit führt.
  • Schnellschlüssel: Wenn Sie während der Vergleiche einen Schnellschlüssel verwenden, wird die Leistung verbessert. Allerdings sollte dieser jedoch evaluiert werden, um sicherzustellen, dass der Schnellschlüssel ein guter Kandidat für den Schnellvergleich ist.
  • Eingabedaten: Wenn die empfangenen Eingabedaten nach Vergleichsschlüssel sortiert werden, wird die Leistung verbessert.
  • Vergleichsregel: Optimieren Sie die Vergleichsregel, um die Leistung zu erhöhen, da eine komplexe Vergleichsregel die Leistung verschlechtert.

Interflow Match

  • Gruppengröße: Wenn die Gruppengröße bzw. der Vergleichsschlüssel auf das optimale Maß minimiert wird, erzielen Sie eine bessere Leistung, da eine Erhöhung der Gruppengröße bei gleicher Anzahl von Datensätzen zu einer erhöhten Verarbeitungszeit führt.
  • Vergleichsregel und -schlüssel: Optimieren Sie die Vergleichsregel und Vergleichsschlüssel entsprechend, da dies eine entscheidende Rolle bei der Steigerung der Leistung spielt.

Transactional Match

Dieser Schritt ist schnell im Vergleich zum „Intraflow Match“-Schritt. Es wird jedoch empfohlen, den entsprechenden Schritt je nach Ihren Anforderungen zu wählen, da beide zwei verschiedenen Zwecken dienen. Darüber hinaus wirkt sich die Gruppengröße im Gegensatz zum „Intraflow Match“-Schritt nicht auf die Leistung aus, da die Kopfdublette nur einmal mit dem Kandidaten abgeglichen wird.

Best of Breed

Duplikat-Synchronisation

Filter

Bedingung: Wenn Sie die Anzahl an Bedingungen minimieren, verbessern Sie die Leistung, da eine erhöhte Anzahl von Bedingungen zu mehr Verarbeitungszeit führt.

Match Key Generator

Laufzeit: Eine Erhöhung der Laufzeitinstanzen erhöht die Leistung.

Candidate Finder Die folgenden Empfehlungen verbessern die Leistung für den Suchindex.
  • Laufzeit: Die Leistung des Suchvorgangs steigt, wenn die Laufzeitinstanzen zunehmen. Die Konfiguration des Computers entscheidet darüber, wie viele Laufzeitinstanzen verwendet werden können.

    Beispielsweise haben wir eine Leistungsverbesserung beobachtet, wenn die Laufzeitinstanzen erhöht werden.

  • Felder: Die Leistung von Erstellungs- und Suchvorgängen nimmt mit zunehmender Anzahl von Feldern im Index ab. Die Leistung des Aktualisierungsvorgangs bleibt jedoch unabhängig von der Anzahl der Felder im Index nahezu gleich.

    Beispielsweise beobachteten wir Leistungseinbußen bei einer Suche, wenn die Anzahl der Felder erhöht wurde.

  • Batchgröße: Die Leistung variiert, wenn sich die Batchgröße ändert. Mit unterschiedlichen Batchwerten wird die optimale Batchgröße für den Computer ermittelt. Dies hängt vom Arbeitsspeicher und den CPU-Ressourcen des Computers ab.
  • Shards: Der Aktualisierungsvorgang verbessert sich bis zu einem gewissen Grad, wenn die Anzahl der Shards zunimmt. Die Suchleistung verschlechtert sich mit einer größeren Anzahl an Shards.

    Wir haben zum Beispiel beobachtet, dass das Update relativ schneller wird, wenn die Shards zunehmen, während die Suchleistung abnimmt.

  • Bedingungen für Candidate Finder (CF): Die Suche nimmt Zeit in Anspruch, wenn die Anzahl der Bedingungen im „Candidate Finder“-Schritt zunimmt.

    Beispielsweise beobachteten wir Leistungseinbußen, wenn die Anzahl der CF-Abfragen erhöht wurde.

  • Analysator: Die Suche mit einem Schlüsselwort-Analysator ist viel schneller als mit einem Standard-Analysator.

    Beispielsweise haben wir eine Leistungsverbesserung beobachtet, als der Analysator vom Standard- in den Schlüsselwort-Analysator geändert wurde.

Anmerkung: Die Leistung des Suchindex hängt von verschiedenen Faktoren ab, und die oben genannten Punkte sind nur ein Hinweis darauf, wie die Leistung je nach angewendeter Konfiguration variieren kann. Sie sollten unbedingt das Endbenutzerszenario verstehen. Dieses ist der Schlüsselfaktor für die Entscheidung, welche Hardware, welche Indexeinstellungen, welches Cluster-Setup und welche sonstigen Konfigurationsparameter ausgewählt werden, um eine optimale Leistung zu erzielen.

Leistungsempfehlung für „Data Normalization“-Schritte

Schritt Leistungsempfehlung

Table Lookup

Advanced Transformer

Open Parser

Laufzeit: Eine Erhöhung der Laufzeitinstanzen erhöht die Leistung.