Erstellen eines „Best of Breed“-Datensatzes - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

Um doppelte Datensätze aus Ihren Daten zu entfernen, können Sie Daten aus Gruppen doppelter Datensätze in einem einzelnen „Best of Breed“-Datensatz zusammenführen. Dieser Ansatz ist nützlich, wenn die einzelnen Datensatzdubletten Daten des gleichen Typs enthalten (z. B. Telefonnummern oder Namen) und Sie die besten Daten aus den einzelnen Datensätzen in dem erhalten gebliebenen Datensatz beibehalten möchten.

Diese Schritte beschreiben, wie ein Datenfluss erstellt wird, der doppelte Datensätze in einem Best of Breed-Datensatz zusammenführt.

  1. Erstellen Sie im Enterprise Designer einen Datenfluss, der doppelte Datensätze per Vergleich identifiziert.

    Der Vergleich ist der erste Schritt der Deduplizierung, weil Sie Datensätze identifizieren müssen, die ähnlich sind, etwa Datensätze mit derselben Kontonummer oder demselben Namen. Die folgenden Themen bieten eine Anleitung zum Erstellen eines Datenflusses, mit dem Datensätze verglichen werden.

    Anmerkung: Sie müssen den Datenfluss nur bis zu dem Punkt erstellen, an dem er Daten liest und mithilfe eines „Interflow Match“-, „Intraflow Match“- oder „Transactional Match“-Schrittes einen Vergleich durchführt. Sobald Sie einen Datenfluss bis zu diesem Punkt erstellt haben, fahren Sie mit den folgenden Schritten fort.
  2. Sobald Sie einen Datenfluss definiert haben, der Daten liest und Datensätze vergleicht, ziehen Sie den „Best of Breed“-Schritt auf die Arbeitsfläche. Verbinden Sie sie mit dem Schritt, der den Vergleich durchführt (Interflow Match, Intraflow Match oder Transactional Match).

    Wenn Ihr Datenfluss beispielsweise Daten aus einer Datei liest und den Vergleich mit Intraflow Match durchführt, sieht Ihr Datenfluss nach Hinzufügen eines „Best of Breed“-Schrittes so aus:

    „Best of Breed“-Schritt im Datenfluss
  3. Doppelklicken Sie auf den „Best of Breed“-Schritt auf der Arbeitsfläche.
  4. Wählen Sie im Gruppierungsfeld den Eintrag CollectionNumberaus.
  5. Wählen Sie unter Best-of-Breed-Einstellungen Regeln im Bedingungsbaum aus.
  6. Klicken Sie auf Regel hinzufügen.

    Datensätze in jeder Gruppe werden dahingehend überprüft, ob sie die Regeln erfüllen, die Sie hier definieren. Wenn ein Datensatz einer Regel entspricht, können seine Daten in den Best of Breed-Datensatz kopiert werden. Dies hängt davon ab, wie Sie die der Regel zugeordneten Aktionen konfigurieren. Sie definieren diese Aktionen später.

  7. Definieren Sie eine Regel, die ein doppelter Datensatz erfüllen muss, damit seine Daten in den Best of Breed-Datensatz kopiert werden.

    Konfigurieren Sie Optionen, um eine Regel zu definieren. Weitere Informationen finden Sie unter Regeloptionen.

  8. Klicken Sie auf OK.
  9. Klicken Sie im Baum auf den Knoten Aktionen.
  10. Klicken Sie auf Aktion hinzufügen.
  11. Geben Sie die Daten an, die in den Best of Breed-Datensatz kopiert werden sollen, wenn der Datensatz den in der Regel definierten Kriterien entspricht.
    Weitere Informationen finden Sie unter Aktionsoptionen.
  12. Klicken Sie auf OK.

    Sie haben jetzt „Best of Breed“ mit einer Regel und einer Aktion konfiguriert. Sie können bei Bedarf zusätzliche Regeln und Aktionen hinzufügen.

  13. Klicken Sie auf OK, um das Fenster Best of Breed zu schließen.
  14. Ziehen Sie eine Datenladeschritt auf die Arbeitsfläche und verbinden Sie ihn mit der „Best of Breed“-Schritt.

    Wenn Sie beispielsweise einen „Write to File“-Datenladeschritt verwenden, sieht Ihr Datenfluss folgendermaßen aus:

    „Write to File“ im Datenfluss
  15. Doppelklicken Sie auf den Datenladeschritt und konfigurieren Sie ihn.

    Weitere Informationen zum Konfigurieren von Datenladeschritten finden Sie im Datenfluss-Designer-Handbuch.

Sie haben jetzt einen Datenfluss, der übereinstimmende Datensätze identifiziert und Datensätze innerhalb einer Sammlung in einem einzelnen „Best of Breed“-Datensatz zusammenführt.