Vergleichen von Datensätzen einer Quelle mit Datensätzen einer anderen Quelle - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

In dieser Prozedur wird beschrieben, wie ein „Interflow Match“-Schritt verwendet wird, um Datensätze in einer Quelle zu identifizieren, die Datensätzen in einer anderen Quelle entsprechen. Die erste Quelle enthält verdächtige Datensätze und die zweite Quelle enthält Kandidatendatensätze. Der Datenfluss vergleicht nur Datensätze einer Quelle mit Datensätzen einer anderen Quelle. Es versucht nicht, Datensätze aus derselben Quelle miteinander zu vergleichen. Der Datenfluss gruppiert Datensätze in Sammlungen mit übereinstimmenden Datensätzen und schreibt diese Sammlungen in eine Ausgabedatei.

  1. Erstellen Sie im Enterprise Designer einen neuen Datenfluss.
  2. Ziehen Sie zwei Quellschritte auf die Arbeitsfläche. Konfigurieren Sie eine von ihnen so, dass auf die Quelle der verdächtigen Datensätze verwiesen wird, und konfigurieren Sie die andere so, dass auf die Quelle der Kandidatendatensätze verwiesen wird.

    Anweisungen zum Konfigurieren von Quellschritten finden Sie im Datenfluss-Designer-Handbuch.

  3. Ziehen Sie einen „Match Key Generator“-Schritt auf die Arbeitsfläche und verbinden Sie ihn mit einem der Quellschritte.

    Wenn Sie beispielsweise einen „Read from File“-Quellschritt verwenden, sieht Ihr Datenfluss jetzt folgendermaßen aus:

    „Read from File“ im Datenfluss

    Match Key Generator erstellt einen nicht eindeutigen Schlüssel für jeden Datensatz, der dann von Vergleichsschritten verwendet werden kann, um Gruppen potenzieller Datensatzdubletten zu identifizieren. Vergleichsschlüssel erleichtern den Vergleichsprozess, da sie Ihnen erlauben, Datensätze nach Vergleichsschlüssel zu gruppieren und dann nur Datensätze innerhalb dieser Gruppen zu vergleichen.

    Anmerkung: Sie fügen später einen zweiten „Match Key Generator“-Schritt hinzu. Fürs Erste benötigen Sie nur einen Schritt auf der Arbeitsfläche.
  4. Doppelklicken Sie auf den „Match Key Generator“-Schritt.
  5. Klicken Sie auf Hinzufügen.
  6. Definieren Sie die Regel, die zur Generierung eines Vergleichsschlüssels für jeden Datensatz verwendet werden soll.
    Weitere Informationen finden Sie unter Optionen für den Match Key Generator.
  7. Klicken Sie auf OK, wenn Sie mit dem Definieren der Regel fertig sind.
  8. Klicken Sie mit der rechten Maustaste auf den „Match Key Generator“-Schritt auf der Arbeitsfläche, und wählen Sie Schritt kopieren aus.
  9. Klicken Sie mit der rechten Maustaste in einen leeren Bereich der Arbeitsfläche, und wählen Sie Einfügen aus.
  10. Verbinden Sie die Kopie von „Match Key Generator“ mit dem anderen Quellschritt.

    Bei Verwendung eines „Read from File“-Eingabeschrittes etwa würde Ihr Datenfluss jetzt folgendermaßen aussehen:

    „Read from File“ im Datenfluss

    Der Datenfluss enthält nun zwei „Match Key Generator“-Schritte, die für jede Quelle mit exakt den gleichen Regeln Vergleichsschlüssel erzeugen. Die identische Konfiguration der „Match Key Generator“-Schritte ist wesentlich dafür, dass dieser Datenfluss ordnungsgemäß funktioniert.

  11. Ziehen Sie einen „Interflow Match“-Schritt auf die Arbeitsfläche und verbinden Sie die einzelnen „Match Key Generator“-Schritte mit ihm.

    Bei Verwendung eines „Read from File“-Eingabeschrittes etwa würde Ihr Datenfluss jetzt folgendermaßen aussehen:

    „Interflow Match“ im Datenfluss
  12. Doppelklicken Sie auf den „Interflow Match“-Schritt.
  13. Wählen Sie im Feld Vergleichsregel laden eine der vordefinierten Vergleichsregeln aus, die Sie entweder unverändert verwenden oder nach Bedarf ändern können. Wenn Sie eine neue Vergleichsregel erstellen möchten, ohne eine der vordefinierten Vergleichsregeln als Startpunkt zu verwenden, klicken Sie auf Neu. Im Datenfluss darf lediglich eine benutzerdefinierte Regel enthalten sein.
    Anmerkung: Verwenden Sie beim Erstellen einer neuen Regel keine Sonderzeichen.
    Anmerkung: Das Feature „Datenflussoptionen“ im Enterprise Designer ermöglicht es, die Vergleichsregel für die Konfiguration zur Laufzeit verfügbar zu machen.
  14. Wählen Sie im Feld Gruppieren nach den Eintrag MatchKey aus.

    Datensätze mit demselben Vergleichsschlüssel werden dann zusammen gruppiert. Die Vergleichsregel wird auf Datensätze innerhalb einer Gruppe angewendet, um herauszufinden, ob Dubletten vorhanden sind. Der Vergleichsschlüssel für jeden Datensatz wird von den „Generate Match Key“-Schritten generiert, die Sie weiter oben konfiguriert haben.

  15. Weitere Informationen zum Ändern der anderen Optionen finden Sie unter Erstellen einer Vergleichsregel.
  16. Ziehen Sie einen Datenladeschritt auf die Arbeitsfläche und verbinden Sie ihn mit dem „Interflow Match“-Schritt.

    Wenn Sie beispielsweise einen „Write to File“-Datenladeschritt verwenden, sieht Ihr Datenfluss folgendermaßen aus:

    „Write to File“ im Datenfluss
  17. Doppelklicken Sie auf den Datenladeschritt und konfigurieren Sie ihn.

    Weitere Informationen zum Konfigurieren von Datenladeschritten finden Sie im Datenfluss-Designer-Handbuch.

Sie haben jetzt einen Datenfluss, der Datensätze aus zwei Datenquellen miteinander vergleicht.

Vergleich von Datensätzen aus mehreren Quellen

Als Werbesendungsunternehmen möchten Sie Personen identifizieren, die sich in einer „Do-Not-Mail“-Liste befinden, um keine Werbesendung an sie zu senden. Sie verfügen über eine Liste von Empfängern in einer Datei und eine Liste von Personen, die keine Werbesendung in einer anderen Datei (eine Unterdrückungsdatei) erhalten möchten.

Im folgenden Datenfluss wird eine Lösung für dieses Geschäftsszenario bereitgestellt:

Datenfluss der Lösung für das Geschäftsszenario

Der „Read from File“-Schritt liest Daten aus Ihrer Mailiste, und der „Read from File 2“-Schritt liest Daten aus der Unterdrückungsliste. Die beiden „Match Key Generator“-Schritte sind identisch konfiguriert, sodass sie einen Vergleichsschlüssel erzeugen, der von „Interflow Match“ verwendet werden kann, um Gruppen potenzieller Übereinstimmungen zu bilden. „Interflow Match“ identifiziert Datensätze in der Mailingliste, die sich ebenfalls in der Unterdrückungsdatei befinden, und markiert diese Datensätze als Dubletten. Conditional Router sendet eindeutige Datensätze – d. h. die Datensätze, die nicht in der Unterdrückungsliste gefunden wurden – an „Write to File“, damit diese in eine Datei geschrieben werden. Der „Conditional Router“-Schritt sendet alle anderen Datensätze an „Write to Null“. Dort werden sie gelöscht.