Spaltendetails in Profilerstellungsergebnissen - discovery - 23 - 23.1

Spectrum Discovery-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Discovery
Version
23.1
Language
Deutsch
Product name
Spectrum Discovery
Title
Spectrum Discovery-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:23:10.810287
Basierend auf der Spalte, auf die Sie im linken Bereich der Seite Ergebnisse der Datenprofilerstellung klicken, werden die folgenden Details angezeigt:
Anmerkung: Die Kategorien in den Ringdiagrammen und die Werte auf der X- und Y-Achse der Diagramme sind mit Hyperlinks verknüpft. Durch Klicken auf die Links gelangen Sie zur zugehörigen Liste der Datensätze.
  • Vollständigkeit: Der Prozentsatz der in der Spalte erkannten vollständigen, NULL- und leeren Zeichenfolgen. Klicken Sie auf den Hyperlink, um die Datensätze in den einzelnen Kategorien anzuzeigen.
  • Eindeutigkeit: Diese Statistiken werden hier angezeigt:
    • Eindeutig: Datensätze ohne Duplikate in der Datenquelle.
    • Nicht eindeutig: Datensätze mit Duplikaten in der Datenquelle.
    • Verschieden: Eine Liste aller Datensätze in Ihrer Datenquelle, unabhängig davon, ob es sich um eindeutige oder nicht eindeutige Datensätze handelt.

    Ihre Spalte enthält beispielsweise die folgenden Namen:

    Roger Gigi Gigi Gigi Garey Elena Brad Brad
    Hierbei gilt:
    • Roger, Garey und Elena sind eindeutige Datensätze.

    • Gigi und Brad sind nicht eindeutige Datensätze.
    • Roger, Gigi, Garey, Brad und Elena sind verschiedene Datensätze.
  • Min. Länge und Max. Länge der Zeichen, falls die Spaltendaten eine Zeichenfolge sind
  • Die Werte für Standardabweichung (Stdev), Maximum (Max), Minimum (Min) Varianz und Durchschnitt, falls die Spalte numerische Daten enthält.
  • Histogramm repräsentiert die Verteilung der Daten, falls die Spalte numerische Daten enthält.
  • Perzentil für den Fall, dass die Spalte numerische Daten enthält.
  • Häufigkeit: Die Häufigkeit der Daten in der Spalte. Klicken Sie auf den mit einem Hyperlink versehenen Wert auf der X-Achse, um zur Liste der verknüpften Datensätze zu gelangen.
  • Zeichenfolgenlängen: Für den Fall, dass der Datentyp der Spalte eine Zeichenfolge ist.
  • Skriptverteilung: Für den Fall, dass der Datentyp der Spalte eine Zeichenfolge ist.
  • Häufigkeit des Textmusters: Für den Fall, dass der Datentyp der Spalte eine Zeichenfolge ist
  • Zeichenkategorien: Zeigt grafisch die Häufigkeiten der lateinischen Zeichentypen an, die in der ausgewählten Zeichenfolgenspalte erkannt wurden. Die verschiedenen Kategorien sind:
    • Groß-/Kleinschreibung: Groß-, Klein- und gemischte Schreibung
    • Zeichendatentypen: Alphabetisch, numerisch und alphanumerisch
    • Enthält Leerzeichen: Einzelnes Leerzeichen, mehrere Leerzeichen und vorgehende oder nachfolgende Leerzeichen
    • Sonderzeichen: Enthält Sonderzeichen oder nicht.
      Anmerkung: Hier werden nur die Sonderzeichen berücksichtigt, die bei der Konfiguration der Zeichenanalyse-Regel definiert wurden.

Anzeigen von Ausreißern

Sie können die in einer Spalte erkannten Ausreißer anzeigen, indem Sie auf die Registerkarte Ausreißer klicken. Diese Registerkarte zeigt eine tabellarische Struktur der nach Kategorie erkannten Ausreißer in Ihrer Spalte an. Details wie Muster, Länge, Wert oder Häufigkeit, Berechneter Bereich und Vorkommnis werden ebenfalls angezeigt.

Anzeigen der Seite „Vorschläge“

Diese Seite enthält eine umfassende Ansicht verschiedener Vorschläge, die für Ihre Daten generiert wurden. Sie können auswählen, diese Vorschläge zu übernehmen, um Ihre Daten zu bereinigen.

Diese Seite ist in zwei Abschnitte unterteilt:

  • Eine Kopfzeile mit den Profildetails: Die folgenden Details werden für das analysierte Profil angezeigt:
    • Profilname: Name des Profils
    • Beschreibung: Eine kurze Beschreibung des Profils
    • Gestartet: Das Datum (jjjj/mm/tt), die Uhrzeit (hh:mm:ss) und der Zeitraum (AM oder PM), in dem die Analyse gestartet wurde.
    • Datenquelle: Die Quelle der zu analysierenden Daten im Profil. Dies kann ein Physical oder Logical Model oder eine direkte Datenquellenverbindung sein.
    • Benutzer: Der Benutzer, der das Profil erstellt hat
    • Relationen: Die Anzahl der Relationen im ausgewähltem Modell
    • Datenquellentyp: Gibt an, ob die Datenquelle für das Profil ein Modell oder eine Datenbank ist.
    • Datensätze: Die Gesamtzahl der analysierten Datensätze
    • Schaltfläche Statistik: Öffnet die Seite Ergebnisse der Datenprofilerstellung. Weitere Informationen finden Sie unter Anzeigen von Vorschlägen auf der Seite „Ergebnisse der Datenprofilerstellung“.
  • Im zweiten Abschnitt wird der Name Ihrer Relation zusammen mit der Schaltfläche Empfehlung angezeigt. Wenn Sie auf diese Schaltfläche klicken, werden die Vorschläge Groovy-Skripte für Ihre Relation angezeigt. Beim Erweitern der Relation über das Symbol können Sie spaltenweise Vorschläge für Ihre Relation anzeigen.
Details wie Vorschläge und die entsprechenden Beschreibungen werden in Tabellenform für verschiedene Spalten angezeigt, in denen Vorschlagsaktionen generiert wurden. Die Schaltfläche Details anzeigen zeigt eine Vorschau der Statistiken und Optionen für Ihre Daten an. Sie können hier jeden Vorschlag auswählen, indem Sie auf die Schaltfläche Vorschlag auswählen klicken, oder einen bereits angewandten Vorschlag entfernen, indem Sie auf die Schaltfläche Vorschlag entfernen klicken. Das Symbol  zeigt die erfolgreiche Auswahl eines Vorschlags an. Sie können das Groovy-Skript für einen bestimmten Vorschlag anzeigen und kopieren, indem Sie auf die entsprechende Schaltfläche Empfehlung klicken.
Anmerkung: Klicken Sie neben dem Relationsnamen auf die Schaltfläche Empfehlung, um das Groove-Skript für alle Spalten einer bestimmten Relation herunterzuladen und zu kopieren. Durch Klicken auf diese Schaltfläche wird das Fenster Empfehlung angezeigt. In diesem Fenster werden Details wie der Relationsname, der Spaltenname und der generierte Vorschlag angezeigt, gefolgt vom Groovy-Skript.

Auf der Seite Ergebnisse der Datenprofilerstellung können Sie Vorschläge für unabhängige Statistiken anzeigen und auswählen. Überprüfen Sie die Statistiken Ihrer Daten und wählen Sie einen Vorschlag entsprechend Ihren Anforderungen aus. Weitere Informationen finden Sie unter Anzeigen von Vorschlägen auf der Seite „Ergebnisse der Datenprofilerstellung“.

Anzeigen von Vorschlägen auf der Seite „Ergebnisse der Datenprofilerstellung“

Sie können die zur Verfügung gestellten Vorschläge zur Bereinigung Ihrer Daten anzeigen. Diese Vorschläge werden basierend auf den Statistiken Ihrer Daten generiert. Sie können sie auswählen. Klicken Sie auf die Schaltfläche Vorschläge. Daraufhin wird ein neues Fenster mit Vorschlägen angezeigt. Sie können zum nächsten Vorschlag wechseln, indem Sie auf das Symbol  klicken.
Anmerkung: Klicken Sie zum Anzeigen der umgewandelten Daten nach dem Auswählen einer Option für einen Vorschlag auf das Symbol . Wenn Sie den Vorschlag auswählen möchten, klicken Sie auf die Schaltfläche Vorschlag auswählen. Nach erfolgreicher Auswahl des Vorschlags wird eine Meldung angezeigt.

Vorschläge für die Registerkarte „Zusammenfassung“

Für Zeichenkategorien können Sie die folgenden Vorschläge basierend auf Ihren Daten anzeigen:
  • Zeichendatentyp: Zeichendatentypen wie numerisch, alphanumerisch und alphabetisch, die in Ihren Daten erkannt wurden, werden in einem Tabellenformat mit ihren Häufigkeiten angezeigt. Aus der Liste der Optionen können Sie auswählen, diese Werte zu kürzen, zu eliminieren oder auf einen Standardwert festzulegen . Sie müssen diesen Wert in dem Textfeld angeben, das bei Auswahl dieser Option angezeigt wird.
  • Leerzeichen entfernen: Redundante Leerzeichen wie einzelne Leerzeichen, mehrere Leerzeichen und vorangehende und nachfolgende Leerzeichen in Ihren Daten werden ein einem Tabellenformat mit ihren Häufigkeiten angezeigt. Sie können jede dieser Optionen entsprechend Ihrer Anforderung auswählen:
    • Leerzeichen kürzen: Mit dieser Option werden vorangehende oder nachfolgende Leerzeichen in Ihren Daten entfernt.
    • Leerstellen minimieren: Mit dieser Option werden überflüssige Leerzeichen zwischen zwei beliebigen Wörtern und alle vorangehenden oder nachfolgenden Leerzeichen entfernt.
    • Leerzeichen entfernen: Mit dieser Option werden alle in Ihren Daten vorhandenen Leerzeichen entfernt.
  • Groß-/Kleinschreibung standardisieren: Sie können Ihre Daten regularisieren, indem Sie die Groß-/Kleinschreibung Ihrer Daten durch diese Option standardisieren, z. B. Gemischte Schreibung, Großschreibung und Kleinschreibung. Sie können die Schreibung Ihrer Daten in Kleinschreibung oder Großschreibung ändern, um Ihre Daten zu bereinigen und die Lesbarkeit zu verbessern.
  • Sonderzeichen entfernen: Mit dieser Option können Sie überflüssige Sonderzeichen in Ihren Daten entfernen. Die erkannten Sonderzeichen werden in einem Textfeld im Bereich Optionen angezeigt. Um Ihre Daten zu bereinigen, können Sie die zu entfernenden Sonderzeichen auswählen und die beizubehaltenden Zeichen mit der Rücktaste aus dem Textfeld löschen.
  • Steuerzeichen entfernen: Mit dieser Option können Sie redundante, nicht druckbare Steuerzeichen in Ihren Daten entfernen. Die in Ihren Daten gefundenen Steuerzeichen werden im Abschnitt Statistik angezeigt. Wählen Sie die Option Steuerzeichen entfernen aus und wenden Sie diesen Vorschlag an, um Ihre Daten weiter zu bereinigen.
Für Eindeutigkeit wird dieser Vorschlag angezeigt:

Semantiktyp erstellen: Sie können Ihre unterschiedlichen Daten in einen Semantiktyp wie Geschlecht, Vorname, Nachname, Land und Telefon kategorisieren. Klicken Sie auf das Statistikdiagramm der einzelnen Daten, um eine Vorschau Ihrer Daten anzuzeigen. Laden Sie diese Daten herunter und erstellen Sie Semantiktypen in der Relationsverwaltung. Weitere Informationen zur Relationsverwaltung finden Sie unter Einführung in Suchtabellen.

Für Vollständigkeit sehen Sie diesen Vorschlag:

Umgang mit Nullen: Sie können die in Ihren Daten vorhandenen Null-Zeichenfolgen und leeren Zeichenfolgen auf einen Standardwert festlegen. Dies erhöht die Einheitlichkeit und Vollständigkeit Ihrer Daten. Die Häufigkeiten der vollständigen, Null- und leeren Zeichenfolgen werden in einem Tabellenformat unter dem Abschnitt Statistik angezeigt. Geben Sie den gewünschten Standardwert in das Textfeld Optionen ein und wählen Sie diesen Vorschlag aus.

Vorschläge für die Registerkarte „Datumszusammenfassung“

Für Datumsmuster wird dieser Vorschlag angezeigt:

Datum standardisieren: Sie können die in Ihren Daten vorhandenen Datumsformate regulieren, um die Konsistenz Ihrer Daten zu verbessern. Häufigkeiten verschiedener Datumsformate, die in Ihren Daten gefunden werden, werden in einem Tabellenformat angezeigt. Wählen Sie das gewünschte Format aus dem Dropdown-Menü Datumsformat unter Optionen, und wählen Sie anschließend diesen Vorschlag aus.

Vorschläge für die Registerkarte „Benutzerdefiniertes Muster“

Für Datumsmuster wird der folgende Vorschlag angezeigt:

Musterbereinigung: Sie können Werte aus Ihren Daten entfernen, die nicht dem benutzerdefinierten Muster entsprechen, das Sie bei der Konfiguration eines Profils angegeben haben. Weitere Informationen zu benutzerdefinierten Mustern finden Sie unter Einspaltige Schlüsselanalyse. Die Kategorie mit der höchsten Häufigkeit dient als Referenz und andere Statistiken werden darauf abgestimmt. Sie können eine dieser Optionen für nicht übereinstimmende Statistiken auswählen:
  • Setzen Sie sie auf einen Standardwert. Geben Sie den Standardwert in das Textfeld ein.
  • Setzen Sie sie auf null.

Nachdem Sie die gewünschte Option gewählt haben, wählen Sie diesen Vorschlag aus, um Ihre Daten zu bereinigen.

Vorschläge für die Registerkarte „Ausreißer“

Für semantische Ausreißer wird der folgende Vorschlag angezeigt:

Trennung von Semantiktypen: Sie können alle in einer Spalte vorhandenen semantischen Ausreißer in eine separate Spalte verschieben und so die Einheitlichkeit und Klarheit Ihrer Daten verbessern. Die Häufigkeit der verschiedenen Ausreißer, die in Ihren Daten erkannt werden, wird in Tabellenform angezeigt. Sie können wählen, ob Sie einen der erkannten Ausreißer in eine eigene benutzerdefinierte Spalte verschieben und die Semantiktypen voneinander trennen möchten.

Wählen Sie die Ausreißer aus, die Sie in eine separate Spalte verschieben möchten, geben Sie den benutzerdefinierten Namen der Spalte in das Textfeld ein, und wählen Sie diesen Vorschlag aus.

Anmerkung: Beim Schließen des Vorschlagsfenster nach der erfolgreichen Anwendung eines beliebigen Vorschlags wird die Eingabeaufforderung Empfehlungen anzeigen angezeigt. Wenn Sie auf Ja klicken, gelangen Sie auf die Seite Vorschläge. Sie können das Groovy-Skript von dieser Seite kopieren und im Enterprise Designer verwenden. Weitere Informationen finden Sie unter Anzeigen der Seite „Vorschläge“.