Vergleichen von Datensätzen zwischen und innerhalb von Quellen - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

Diese Schritte beschreiben, wie Sie einen „Intraflow Match“-Schritt verwenden können, um Datensätze in einer Datei zu identifizieren, die mit Datensätzen in einer anderen oder in derselben Datei übereinstimmen. Wenn Sie beispielsweise zwei Dateien haben (Datei A und Datei B), können Sie feststellen, ob in Datei A Datensätze vorhanden sind, die mit Datensätzen in Datei B übereinstimmen. Darüber hinaus können Sie herausfinden, ob in Datei A Datensätze vorhanden sind, die mit anderen Datensätzen in Datei A übereinstimmen. Dies erreichen Sie durch die Verwendung eines „Stream Combiner“- und einer „Intraflow Match“-Schrittes.

  1. Erstellen Sie im Enterprise Designer einen neuen Datenfluss.
  2. Ziehen Sie einen Quellschritt auf die Arbeitsfläche.
  3. Doppelklicken Sie auf den Quellschritt und konfigurieren Sie ihn. Anweisungen zum Konfigurieren von Quellschritten finden Sie im Datenfluss-Designer-Handbuch.
  4. Ziehen Sie einen zweiten Quellschritt auf die Arbeitsfläche und konfigurieren Sie ihn, die zweite Datenquelle in den Datenfluss einzulesen.
  5. Ziehen Sie einen „Stream Combiner“-Schritt auf die Arbeitsfläche und verbinden Sie die beiden Quellschritte mit diesem.

    Wenn Ihr Datenfluss beispielsweise aus zwei „Read from File“-Schritten bestehen würde, sähe der Datenfluss nach dem Hinzufügen des „Stream Combiner“-Schrittes folgendermaßen aus:

    „Stream Combiner“ im Datenfluss
  6. Ziehen Sie einen „Match Key Generator“-Schritt auf die Arbeitsfläche und verbinden Sie ihn mit dem „Stream Combiner“-Schritt.

    Ihr Datenfluss könnte jetzt beispielsweise aussehen wie folgt:

    „Match Key Generator“ im Datenfluss

    Match Key Generator erstellt einen nicht eindeutigen Schlüssel für jeden Datensatz, der dann von Vergleichsschritten verwendet werden kann, um Gruppen potenzieller Datensatzdubletten zu identifizieren. Vergleichsschlüssel erleichtern den Vergleichsprozess, da sie Ihnen erlauben, Datensätze nach Vergleichsschlüssel zu gruppieren und dann nur Datensätze innerhalb dieser Gruppen zu vergleichen.

  7. Doppelklicken Sie auf den „Match Key Generator“-Schritt.
  8. Klicken Sie auf Hinzufügen.
  9. Definieren Sie die Regel, die zur Generierung eines Vergleichsschlüssels für jeden Datensatz verwendet werden soll.
    Weitere Informationen finden Sie unter Optionen für den Match Key Generator.
  10. Klicken Sie auf OK, wenn Sie mit dem Definieren der Regel fertig sind.
  11. Wenn Sie weitere Vergleichsregeln hinzufügen möchten, klicken Sie auf Hinzufügen und fügen Sie sie hinzu. Klicken Sie andernfalls auf OK, wenn Sie fertig sind.
  12. Ziehen Sie einen „Intraflow Match“-Schritt auf die Arbeitsfläche und verbinden Sie ihn mit dem „Match Key Generator“-Schritt.

    Ihr Datenfluss könnte jetzt beispielsweise aussehen wie folgt:

    „Intraflow Match“ im Datenfluss
  13. Doppelklicken Sie auf den „Intraflow Match“-Schritt.
  14. Wählen Sie im Feld Vergleichsregel laden eine der vordefinierten Vergleichsregeln aus, die Sie entweder unverändert verwenden oder nach Bedarf ändern können. Wenn Sie eine neue Vergleichsregel erstellen möchten, ohne eine der vordefinierten Vergleichsregeln als Startpunkt zu verwenden, klicken Sie auf Neu. Im Datenfluss darf lediglich eine benutzerdefinierte Regel enthalten sein.
    Anmerkung: Verwenden Sie beim Erstellen einer neuen Regel keine Sonderzeichen.
    Anmerkung: Das Feature „Datenflussoptionen“ im Enterprise Designer ermöglicht es, die Vergleichsregel für die Konfiguration zur Laufzeit verfügbar zu machen.
  15. Wählen Sie im Feld Gruppieren nach den Eintrag MatchKey aus.

    Datensätze mit demselben Vergleichsschlüssel werden dann zusammen gruppiert. Die Vergleichsregel wird auf Datensätze innerhalb einer Gruppe angewendet, um herauszufinden, ob Dubletten vorhanden sind. Der Vergleichsschlüssel für jeden Datensatz wird vom „Generate Match Key“-Schritt generiert, den Sie weiter oben konfiguriert haben.

  16. Weitere Informationen zum Ändern der anderen Optionen finden Sie unter Erstellen einer Vergleichsregel.
  17. Klicken Sie auf OK, um Ihre „Intraflow Match“-Konfiguration zu speichern und zur Datenfluss-Arbeitsfläche zurückzukehren.
  18. Ziehen Sie einen Datenladeschritt auf die Arbeitsfläche und verbinden Sie ihn mit dem „Generate Match Key“-Schritt.

    Wenn Sie beispielsweise einen „Write to File“-Datenladeschritt verwenden, sieht Ihr Datenfluss folgendermaßen aus:

    „Write to File“ im Datenfluss
  19. Doppelklicken Sie auf den Datenladeschritt und konfigurieren Sie ihn.

    Weitere Informationen zum Konfigurieren von Datenladeschritten finden Sie im Datenfluss-Designer-Handbuch.