Optionen - dataflow_designer - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092
  1. Wählen Sie im Feld Vergleichsregel laden eine der vordefinierten Vergleichsregeln aus, die Sie entweder unverändert verwenden oder nach Bedarf ändern können. Wenn Sie eine neue Vergleichsregel erstellen möchten, ohne eine der vordefinierten Vergleichsregeln als Startpunkt zu verwenden, klicken Sie auf Neu. Im Datenfluss darf lediglich eine benutzerdefinierte Regel enthalten sein.
    Anmerkung: Verwenden Sie beim Erstellen einer neuen Regel keine Sonderzeichen.
    Anmerkung: Das Feature „Datenflussoptionen“ im Enterprise Designer ermöglicht es, die Vergleichsregel für die Konfiguration zur Laufzeit verfügbar zu machen.
  2. Klicken Sie auf Gruppieren nach, um ein Feld auszuwählen, das zum Gruppieren von Datensätzen in der Vergleichswarteschlange verwendet werden soll. Intraflow Match führt lediglich Vergleichsvorgänge zwischen Datensätzen in derselben Vergleichswarteschlange durch.
  3. Aktivieren Sie das Kästchen Sortieren, um eine Vorabvergleichssortierung Ihrer Eingabe basierend auf dem im Feld Gruppieren nach ausgewählten Feld durchzuführen.
  4. Klicken Sie auf Erweitert, um zusätzliche Optionen der Sortierleistung festzulegen.
    Anmerkung: Welche Einstellungen für die Sortierleistung optimal sind, hängt von der Hardwarekonfiguration Ihres Servers ab. Sie können diese Gleichung als allgemeine Richtlinie verwenden, um eine gute Sortierleistung zu erzielen:

    (InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords

  5. Klicken Sie auf Schnellvergleich aktiviert, um einen Erstvergleich zwischen Schnellschlüsselwerten durchzuführen, was zur Bestimmung dient, ob zwei Datensätze als Übereinstimmung gelten.

    Der Schnellschlüsselvergleich kann ein hilfreiches Tool zur Reduzierung der Anzahl an durchgeführten Vergleichen sein und somit die Ausführungsgeschwindigkeit verbessern. Ein zu weit gefasster Schnellschlüssel hat viele falsch-positive Übereinstimmungen zur Folge. Sie können einen Schnellschlüssel als Teil der Generierung eines Vergleichsschlüssels über den MatchKeyGenerator generieren. Weitere Informationen finden Sie unter Match Key Generator.

    Wenn zwei Datensätze eine genaue Übereinstimmung im Schnellschlüssel aufweisen, wird der Kandidat als eine 100 %-ige Dublette eingeordnet. Wenn der Schnellvergleichsschlüssel in zwei Datensätzen nicht übereinstimmt, werden diese anhand der regelbasierten Methode verglichen.

    Um zu ermitteln, ob ein Kandidat mithilfe eines Schnellvergleichsschlüssels verglichen wurde, sehen Sie nach, ob das Feld ExpressKeyIdentified „Y“ (ja) oder „N“ (nein) enthält. Beachten Sie, dass Datensatzkopfdubletten immer den Wert „N“ in ExpressKeyIdentified enthalten.

  6. Geben Sie im Textfeld Anfängliche Sammlungsnummer die Startnummer ein, die dem Sammlungsnummernfeld für Datensatzdubletten zugewiesen werden soll.

    Die Sammlungsnummer identifiziert jede Datensatzdublette in einer Vergleichswarteschlange. Eindeutige Datensätze erhalten die Sammlungsnummer 0. Jeder Datensatzdublette wird eine Sammlungsnummer zugewiesen, die mit dem im Textfeld Anfängliche Sammlungsnummer angegebenen Wert beginnt.

  7. Wählen Sie eine der folgenden Optionen aus:
    Option Bezeichnung
    Kopfdublette mit allen Kandidaten vergleichen Bei dieser Option wird die Kopfdublette mit allen Kandidaten in derselben Übereinstimmungsgruppe (Option „Gruppieren nach“) verglichen, auch wenn bereits eine Dublette innerhalb der Übereinstimmungsgruppe ermittelt wurde. Beispiel:

    Kopfdublette: John Smith
    Kandidat: Bill Jones
    Kandidat: John Smith
    Kandidat: John Smith

    Im Beispiel würde die Kopfdublette „John Smith“ mit den beiden Kandidaten „John Smith“ verglichen werden.

    Aktivieren Sie das Kästchen Eindeutige Kandidaten zurückgeben, um Datensätze innerhalb einer Übereinstimmungsgruppe aus dem Kandidatenport zurückzugeben, die als eindeutige Datensätze identifiziert wurden.

    Kopfdublette nicht mehr mit Kandidaten vergleichen, wenn n Dubletten gefunden wurden Bei dieser Option wird die Kopfdublette mit allen Kandidaten in derselben Übereinstimmungsgruppe (Option „Gruppieren nach“) verglichen. Der Vergleich wird jedoch beendet, wenn die benutzerdefinierte Anzahl an Dubletten ermittelt wurde. Wenn Sie beispielsweise wählen, Kandidaten nicht mehr zu vergleichen, sobald eine Dublette ermittelt wird, und Ihnen die folgenden Daten vorliegen:

    Kopfdublette: John Smith
    Kandidat: Bill Jones
    Kandidat: John Smith
    Kandidat: John Smith

    Im Beispiel würde der Vergleich des Kopfdubletten-Datensatzes „John Smith“ in der Übereinstimmungsgruppe beendet werden, wenn der erste Kandidat „John Smith“ als Dublette identifiziert werden würde.

  8. Klicken Sie auf Daten für Analyse generieren, um Vergleichsergebnisse zu generieren. Weitere Informationen finden Sie unter Analysieren von Vergleichsergebnissen.
  9. Über Eindeutigen Datensätzen Sammlungsnummer 0 zuweisen (standardmäßig aktiviert) werden Nullen als Sammlungsnummern eindeutigen Datensätzen zugewiesen. Deaktivieren Sie diese Option, um statt der Null andere Sammlungsnummern für eindeutige Datensätze zu generieren. Die Sammlungsnummern für eindeutige Datensätze werden gemäß der Reihenfolge der anderen Sammlungsnummern nummeriert. Wenn Ihr Vergleichsdatenfluss beispielsweise fünf Datensätze ermittelt und die ersten drei Datensätze eindeutig sind, werden die Sammlungsnummern wie in der ersten Gruppe unten dargestellt zugewiesen. Wenn Ihr Vergleichsdatenfluss fünf Datensätze ermittelt und die letzten beiden Datensätze eindeutig sind, werden die Sammlungsnummern wie in der zweiten Gruppe unten dargestellt zugewiesen.
    Option Bezeichnung
    Sammlungsnummer Datensatztyp
    1 Eindeutig
    2 Eindeutig
    3 Eindeutig
    4 Dublette/Kopfdublette
    4 Dublette/Kopfdublette
       
    Sammlungsnummer Datensatztyp
    1 Dublette/Kopfdublette
    1 Dublette/Kopfdublette
    2 Eindeutig
    3 Eindeutig
    4 Eindeutig
    Wenn dieses Kästchen aktiviert bleibt, wird allen in Ihrem Datenfluss ermittelten eindeutigen Datensätzen standardmäßig die Sammlungsnummer Null zugewiesen.
  10. Wählen Sie die Option Vergleichsregelname zurückgeben, um den ausgewählten Vergleichsregelnamen in die Schrittausgabe aufzunehmen.
  11. Wählen Sie Ausführliche Vergleichsinformationen zurückgeben aus, wenn detaillierte Übereinstimmungsinformationen als Ausgabe für Ihre Vergleichsregel angezeigt werden sollen. Weitere Informationen über Ausgabefelder finden Sie unter Ausgabe.
    Anmerkung: Wenn Sie dieses Feld aktivieren, wird die Gesamtleistung des Schritts beeinträchtigt.
  12. Wenn Sie eine neue benutzerdefinierte Vergleichsregel erstellen, finden Sie unter Erstellen einer Vergleichsregel weitere Informationen.
  13. Klicken Sie auf Auswerten, um zu prüfen, wie ein Kopfdubletten-Datensatz im Vergleich zu Kandidatendatensätzen ausgewertet wurde. Weitere Informationen finden Sie unter Interflow Match.