Einführung in die Datenqualität - spectrum_quality_1 - 23 - 23.1

Spectrum Data Quality-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Qualität > Spectrum Quality
Version
23.1
Language
Deutsch
Product name
Spectrum Data Quality
Title
Spectrum Data Quality-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:24:19.942092

Zur Datenqualität gehört es, die Genauigkeit, Aktualität, Vollständigkeit und Konsistenz der von einer Organisation verwendeten Daten sicherzustellen, damit die Daten nutzbar sind. Spectrum Technology Platform unterstützt Initiativen für höhere Datenqualität mithilfe der folgenden Funktionen.

Parsen

Parsing ist der Prozess des Analysierens einer Sequenz von Eingabezeichen in einem Feld und des Aufspaltens des Feldes in mehrere Felder. Ihnen liegt zum Beispiel möglicherweise das Feld „Name“ vor, das den Wert „John A. Smith“ enthält. Durch Parsing können Sie das Feld so aufspalten, dass Ihnen das Feld „FirstName“, das „John“ enthält, das Feld „MiddleName“, das „A“ enthält, und das Feld „LastName“, das „Smith“ enthält, zur Verfügung stehen.

Standardisierung

Bei der Standardisierung werden Daten desselben Typs einheitlich formatiert. Einige Datentypen, die standardisiert werden können, umfassen Telefonnummern, Datumswerte, Namen, Adressen und Identifikationsnummern. Beispielsweise können Telefonnummern formatiert werden, um nicht numerische Zeichen wie Klammern, Punkte oder Bindestriche zu entfernen.

Sie sollten Ihre Daten standardisieren, bevor Sie Vergleichs- oder Deduplizierungsaktivitäten durchführen, da standardisierte Daten genauer abgeglichen werden als uneinheitlich formatierte Daten.

Vergleichen

Beim Vergleichen werden Datensätze identifiziert, die auf irgendeine Weise zusammenhängen, die für Ihre Zwecke relevant ist. Wenn Sie beispielsweise versuchen, redundante Informationen aus Ihren Kundendaten zu entfernen, können Sie doppelte Datensätze für denselben Kunden identifizieren. Oder: Wenn Sie verhindern möchten, dass doppelte Marketingmaterialien an die gleiche Adresse gehen, können Sie Datensätze von Kunden identifizieren, die im gleichen Haushalt leben.

Deduplizierung

Bei der Deduplizierung werden Datensätze identifiziert, die eine Entität darstellen, aber aus unterschiedlichen Gründen mehrmals in das System eingegeben wurden, manchmal mit geringfügig unterschiedlichen Daten. So kann Ihr System etwa Lieferanteninformationen von verschiedenen Abteilungen Ihrer Organisation enthalten, wobei jede Abteilung eine andere Lieferanten-ID für denselben Lieferanten verwendet. Mit Spectrum Technology Platform können Sie diese Datensätze in einem einzelnen Datensatz für jeden Lieferanten konsolidieren.

Überprüfung von Ausnahmedatensätzen

In einigen Fällen können Sie Daten haben, die nicht zuverlässig automatisch verarbeitet und vom Data Steward überprüft werden müssen. Einige Beispiele für Datensätze, die eine manuelle Überprüfung erfordern, sind:
  • Fehler bei Adressenüberprüfungen
  • Fehler beim Geocoding
  • Übereinstimmungen mit niedrigem Zuverlässigkeitsniveau
  • Zusammenführungs-/Konsolidierungsentscheidungen

Das Data Stewardship Portal enthält Features, mit denen Sie Ausnahmedatensätze identifizieren und auflösen können.