Relationsdetails in Profilerstellungsergebnissen - discovery - 23 - 23.1

Spectrum Discovery-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Discovery
Version
23.1
Language
Deutsch
Product name
Spectrum Discovery
Title
Spectrum Discovery-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:23:10.810287
Klicken Sie im linken Bereich auf einen beliebigen Relationsnamen, um die folgenden Details anzuzeigen:
  • Vollständigkeit: Der Prozentsatz der vollständigen und unvollständigen Zeilen, die in Ihren Profildaten erkannt wurden.
    Anmerkung: Klicken Sie auf den Hyperlink Unvollständige Zeilen und Vollständige Zeilen, um die Datensätze in beiden Kategorien anzuzeigen.
  • Relationsübersicht: Zeigt diese Details für jede Spalte in der Relation an.
    • Spaltenname: Die Namen aller Spalten in der Relation
    • Datentyp: Der Datentyp in der Spalte
    • Vollständigkeit (%): Die Vollständigkeit der Datensätze in der Spalte
    • Eindeutigkeit: Die Eindeutigkeit der in der Spalte enthaltenen Daten
    • Erkannter Typ: Zeigt Semantiktypen wie E-Mail, Telefon, Ort, Vorname und Nachname an, die in der Zeichenfolge in dieser Spalte ermittelt wurden.
    • Weitere Statistiken: Zeigt verschiedene andere Statistiken wie Min. Länge, Max. Länge und Textmuster an.
  • Häufigkeit NULL-Anzahl: Zeigt die Anzahl der Nullwerte in jeder Relationszeile an.

Anzeigen von Ausreißern

Sie können eine Zusammenfassung der gefundenen Ausreißer für jede Spalte in Ihrer Relation anzeigen, indem Sie auf die Registerkarte Ausreißeranalyse klicken. Auf dieser Registerkarte werden Vorkommnisse nach Kategorie von Mustern, Werten, Längen oder Häufigkeiten für eine Spalte angezeigt, die nicht in den Bereich anderer Beobachtungen fallen.

Beispiel: Die zulässige Länge von Ländernamen beträgt bis zu 14 Zeichen. Zeichenfolgen mit 15 Zeichen werden in Ihren Daten erkannt. Diese Zeichenfolgen wird unter Längenausreißer kategorisiert. Die unterstützten Kategorien sind Längenausreißer, Häufigkeitsausreißer, Musterausreißer, Numerische Ausreißer, Semantikausreißer und Datentypausreißer.

Anzeigen von falsch formatierten Datensätzen

Unter der Profilerstellung Flatfile können Sie falsch formatierte Datensätze in Ihrer Relation anzeigen, indem Sie auf die Registerkarte Falsch formatierte Datensätze klicken. Diese Registerkarte zeigt die Kategorie und Anzahl der falsch formatierten Datensätze an. Ein Datensatz wird für die folgenden Kategorien als falsch formatiert behandelt:
  • Zeilen mit einer geringeren Anzahl von Feldern als die Anzahl der definierten Spalten
  • Zeilen mit einer größeren Anzahl von Feldern als die Anzahl der definierten Spalten

    Sie können auch eine Vorschau der falsch formatierten Datensätze anzeigen, indem Sie auf die Kategorie klicken. In der Vorschau werden die Datensatznummer, der Datensatz und der Grund für die Kategorisierung eines Datensatzes als falsch formatiert angezeigt.

Anzeigen von Datensatzdubletten

Sie können eine Übersicht der in Ihrer Relation erkannten Datensatzdubletten anzeigen, indem Sie auf die Registerkarte Analyse der Datensatzdubletten klicken.

Die Registerkarte Analyse der Datensatzdubletten bietet auch die Möglichkeit, die in den Daten festgelegten Datensatzdubletten aufzulösen, indem Sie auf die Schaltfläche Dubletten auflösen klicken. Wenn Sie darauf klicken, werden Sie zur Seite für die intelligente Regelerstellung des Moduls Prepare navigiert. Dort können Sie weitere Spalten aus Ihren Daten auswählen, um die Dubletten aufzulösen. Weitere Informationen zum Erstellen intelligenter Regeln finden Sie unter Vorbereiten von Qualitätsregeln.
Anmerkung: Bei der Auflösung der Dubletten wird nur eine Datenquelle vom Typ Flatfile oder Verbindung unterstützt. Bei einer Datenquelle vom Typ Modell wird ein Fehler angezeigt, wenn Sie auf die Schaltfläche Dubletten auflösen klicken.