Vergleichen von Datensätzen aus einer einzelnen Quelle - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum™ software
Product
Spectrum™ software > Qualität > Spectrum Quality
Version
23.1
ft:locale
de-DE
Product name
Spectrum Data Quality
ft:title
Spectrum Data Quality-Handbuch
First publish date
2007
ft:lastEdition
2023-10-25
ft:lastPublication
2023-10-25T06:24:19.942000

Diese Schritte beschreiben, wie Sie einen „Intraflow Match“-Schritt verwenden können, um Datensatzgruppen innerhalb einer einzelnen Datenquelle (wie eine Datei oder Datenbanktabelle) identifizieren können, die bezüglich Ihrer angegebenen Vergleichskriterien übereinstimmen. Der Datenfluss gruppiert Datensätze zu Sammlungen und schreibt die Sammlungen in eine Ausgabedatei.

  1. Erstellen Sie im Enterprise Designer einen neuen Datenfluss.
  2. Ziehen Sie einen Quellschritt auf die Arbeitsfläche.
  3. Doppelklicken Sie auf den Quellschritt und konfigurieren Sie ihn. Anweisungen zum Konfigurieren von Quellschritten finden Sie im Datenfluss-Designer-Handbuch.
  4. Ziehen Sie einen „Match Key Generator“-Schritt auf die Arbeitsfläche und verbinden Sie ihn mit dem Quellschritt.

    Wenn Sie beispielsweise einen „Read from File“-Quellschritt verwenden, sieht Ihr Datenfluss jetzt folgendermaßen aus:

    „Read from File“ im Datenfluss

    Match Key Generator erstellt einen nicht eindeutigen Schlüssel für jeden Datensatz, der dann von Vergleichsschritten verwendet werden kann, um Gruppen potenzieller Datensatzdubletten zu identifizieren. Vergleichsschlüssel erleichtern den Vergleichsprozess, da sie Ihnen erlauben, Datensätze nach Vergleichsschlüssel zu gruppieren und dann nur Datensätze innerhalb dieser Gruppen zu vergleichen.

  5. Doppelklicken Sie auf den „Match Key Generator“-Schritt.
  6. Klicken Sie auf Hinzufügen.
  7. Definieren Sie die Regel, die zur Generierung eines Vergleichsschlüssels für jeden Datensatz verwendet werden soll.
    Weitere Informationen finden Sie unter Optionen für den Match Key Generator.
  8. Klicken Sie auf OK, wenn Sie mit dem Definieren der Regel fertig sind.
  9. Wenn Sie weitere Vergleichsregeln hinzufügen möchten, klicken Sie auf Hinzufügen und fügen Sie sie hinzu. Klicken Sie andernfalls auf OK, wenn Sie fertig sind.
  10. Ziehen Sie einen „Intraflow Match“-Schritt auf die Arbeitsfläche und verbinden Sie ihn mit dem „Match Key Generator“-Schritt.

    Wenn Sie beispielsweise einen „Read from File“-Quellschritt verwenden, sieht Ihr Datenfluss jetzt folgendermaßen aus:

    „Read from File“ im Datenfluss
  11. Doppelklicken Sie auf den „Intraflow Match“-Schritt.
  12. Wählen Sie im Feld Vergleichsregel laden eine der vordefinierten Vergleichsregeln aus, die Sie entweder unverändert verwenden oder nach Bedarf ändern können. Wenn Sie eine neue Vergleichsregel erstellen möchten, ohne eine der vordefinierten Vergleichsregeln als Startpunkt zu verwenden, klicken Sie auf Neu. Im Datenfluss darf lediglich eine benutzerdefinierte Regel enthalten sein.
    Anmerkung: Verwenden Sie beim Erstellen einer neuen Regel keine Sonderzeichen.
    Anmerkung: Das Feature „Datenflussoptionen“ im Enterprise Designer ermöglicht es, die Vergleichsregel für die Konfiguration zur Laufzeit verfügbar zu machen.
  13. Wählen Sie im Feld Gruppieren nach den Eintrag MatchKey aus.

    Datensätze mit demselben Vergleichsschlüssel werden dann zusammen gruppiert. Die Vergleichsregel wird auf Datensätze innerhalb einer Gruppe angewendet, um herauszufinden, ob Dubletten vorhanden sind. Der Vergleichsschlüssel für jeden Datensatz wird vom „Generate Match Key“-Schritt generiert, den Sie weiter oben konfiguriert haben.

  14. Weitere Informationen zum Ändern der anderen Optionen finden Sie unter Erstellen einer Vergleichsregel.
  15. Klicken Sie auf OK, um Ihre „Intraflow Match“-Konfiguration zu speichern und zur Datenfluss-Arbeitsfläche zurückzukehren.
  16. Ziehen Sie einen Datenladeschritt auf die Arbeitsfläche und verbinden Sie ihn mit dem „Generate Match Key“-Schritt.

    Wenn Sie beispielsweise einen „Write to File“-Datenladeschritt verwenden, sieht Ihr Datenfluss folgendermaßen aus:

    „Write to File“ im Datenfluss
  17. Doppelklicken Sie auf den Datenladeschritt und konfigurieren Sie ihn.

    Weitere Informationen zum Konfigurieren von Datenladeschritten finden Sie im Datenfluss-Designer-Handbuch.

Sie verfügen jetzt über einen Datenfluss, der Datensätze aus einer einzelnen Quelle vergleicht.

Beispiel zum Vergleichen von Datensätzen aus einer einzelnen Quelle

Als Data Steward in einer Kreditkartengesellschaft möchten Sie Ihre Kundendatenbank analysieren und herausfinden, welche Adressen mehrmals vorhanden sind und welche Namen dort verzeichnet sind, damit Sie die Anzahl der doppelten Kreditkartenangebote, die an denselben Haushalt gesendet werden, minimieren können.

In diesem Beispiel wird gezeigt, wie Sie Mitglieder desselben Haushalts identifizieren, indem Sie Informationen innerhalb einer einzelnen Eingabedatei vergleichen und eine Ausgabedatei erstellen, die einen Datensatz pro Haushalt enthält.

Datenfluss zum Erstellen von Datensätzen für Haushalte

Der „Read from File“-Schritt liest Daten ein, die sowohl eindeutige Datensätze für Haushalte als auch Datensätze enthält, die sich möglicherweise auf denselben Haushalt beziehen. Die Eingabedatei enthält Namen und Adressen.

Der „Match Key Generator“ erstellt einen Vergleichsschlüssel, der bei ähnlichen Datensätzen einen nicht eindeutigen Schlüssel darstellt, um mögliche Dubletten zu identifizieren.

Der „Intraflow Match“-Schritt vergleicht Datensätze, die denselben Vergleichsschlüssel aufweisen, und markiert jeden Datensatz entweder als eindeutigen Datensatz oder als einen von mehreren Datensätzen für denselben Haushalt.

Der „Conditional Router“ sendet Datensätze, die Sammlungen von Datensätzen für jeden Haushalt sind, zum Filter-Schritt, der für jeden Haushalt alle Datensätze bis auf einen herausfiltert und diesen weiter zum „Stream Combiner“-Schritt leitet. Der „Conditional Router“-Schritt sendet außerdem eindeutige Datensätze direkt an den Stream Combiner.

Am Ende erstellt der „Write to File“-Schritt eine Ausgabedatei, die einen Datensatz für jeden Haushalt enthält.