- Vollständigkeit: Der Prozentsatz der in der Spalte erkannten vollständigen, NULL- und leeren Zeichenfolgen. Klicken Sie auf den Hyperlink, um die Datensätze in den einzelnen Kategorien anzuzeigen.
- Eindeutigkeit: Diese Statistiken werden hier angezeigt:
- Eindeutig: Datensätze ohne Duplikate in der Datenquelle.
- Nicht eindeutig: Datensätze mit Duplikaten in der Datenquelle.
- Verschieden: Eine Liste aller Datensätze in Ihrer Datenquelle, unabhängig davon, ob es sich um eindeutige oder nicht eindeutige Datensätze handelt.
Ihre Spalte enthält beispielsweise die folgenden Namen:
Hierbei gilt:Roger Gigi Gigi Gigi Garey Elena Brad Brad
-
Roger, Garey und Elena sind eindeutige Datensätze.
- Gigi und Brad sind nicht eindeutige Datensätze.
- Roger, Gigi, Garey, Brad und Elena sind verschiedene Datensätze.
- Min. Länge und Max. Länge der Zeichen, falls die Spaltendaten eine Zeichenfolge sind
- Die Werte für Standardabweichung (Stdev), Maximum (Max), Minimum (Min) Varianz und Durchschnitt, falls die Spalte numerische Daten enthält.
- Histogramm repräsentiert die Verteilung der Daten, falls die Spalte numerische Daten enthält.
- Perzentil für den Fall, dass die Spalte numerische Daten enthält.
- Häufigkeit: Die Häufigkeit der Daten in der Spalte. Klicken Sie auf den mit einem Hyperlink versehenen Wert auf der X-Achse, um zur Liste der verknüpften Datensätze zu gelangen.
- Zeichenfolgenlängen: Für den Fall, dass der Datentyp der Spalte eine Zeichenfolge ist.
- Skriptverteilung: Für den Fall, dass der Datentyp der Spalte eine Zeichenfolge ist.
- Häufigkeit des Textmusters: Für den Fall, dass der Datentyp der Spalte eine Zeichenfolge ist
- Zeichenkategorien: Zeigt grafisch die Häufigkeiten der lateinischen Zeichentypen an, die in der ausgewählten Zeichenfolgenspalte erkannt wurden. Die verschiedenen Kategorien sind:
- Groß-/Kleinschreibung: Groß-, Klein- und gemischte Schreibung
- Zeichendatentypen: Alphabetisch, numerisch und alphanumerisch
- Enthält Leerzeichen: Einzelnes Leerzeichen, mehrere Leerzeichen und vorgehende oder nachfolgende Leerzeichen
- Sonderzeichen: Enthält Sonderzeichen oder nicht. Anmerkung: Hier werden nur die Sonderzeichen berücksichtigt, die bei der Konfiguration der Zeichenanalyse-Regel definiert wurden.
Anzeigen von Ausreißern
Sie können die in einer Spalte erkannten Ausreißer anzeigen, indem Sie auf die Registerkarte Ausreißer klicken. Diese Registerkarte zeigt eine tabellarische Struktur der nach Kategorie erkannten Ausreißer in Ihrer Spalte an. Details wie Muster, Länge, Wert oder Häufigkeit, Berechneter Bereich und Vorkommnis werden ebenfalls angezeigt.
Anzeigen der Seite „Vorschläge“
Diese Seite ist in zwei Abschnitte unterteilt:
- Eine Kopfzeile mit den Profildetails: Die folgenden Details werden für das analysierte Profil angezeigt:
- Profilname: Name des Profils
- Beschreibung: Eine kurze Beschreibung des Profils
- Gestartet: Das Datum (jjjj/mm/tt), die Uhrzeit (hh:mm:ss) und der Zeitraum (AM oder PM), in dem die Analyse gestartet wurde.
- Datenquelle: Die Quelle der zu analysierenden Daten im Profil. Dies kann ein Physical oder Logical Model oder eine direkte Datenquellenverbindung sein.
- Benutzer: Der Benutzer, der das Profil erstellt hat
- Relationen: Die Anzahl der Relationen im ausgewähltem Modell
- Datenquellentyp: Gibt an, ob die Datenquelle für das Profil ein Modell oder eine Datenbank ist.
- Datensätze: Die Gesamtzahl der analysierten Datensätze
- Schaltfläche Statistik: Öffnet die Seite Ergebnisse der Datenprofilerstellung. Weitere Informationen finden Sie unter Anzeigen von Vorschlägen auf der Seite „Ergebnisse der Datenprofilerstellung“.
- Im zweiten Abschnitt wird der Name Ihrer Relation zusammen mit der Schaltfläche Empfehlung angezeigt. Wenn Sie auf diese Schaltfläche klicken, werden die Vorschläge Groovy-Skripte für Ihre Relation angezeigt. Beim Erweitern der Relation über das Symbol können Sie spaltenweise Vorschläge für Ihre Relation anzeigen.
Auf der Seite Ergebnisse der Datenprofilerstellung können Sie Vorschläge für unabhängige Statistiken anzeigen und auswählen. Überprüfen Sie die Statistiken Ihrer Daten und wählen Sie einen Vorschlag entsprechend Ihren Anforderungen aus. Weitere Informationen finden Sie unter Anzeigen von Vorschlägen auf der Seite „Ergebnisse der Datenprofilerstellung“.
Anzeigen von Vorschlägen auf der Seite „Ergebnisse der Datenprofilerstellung“
Vorschläge für die Registerkarte „Zusammenfassung“
- Zeichendatentyp: Zeichendatentypen wie numerisch, alphanumerisch und alphabetisch, die in Ihren Daten erkannt wurden, werden in einem Tabellenformat mit ihren Häufigkeiten angezeigt. Aus der Liste der Optionen können Sie auswählen, diese Werte zu kürzen, zu eliminieren oder auf einen Standardwert festzulegen . Sie müssen diesen Wert in dem Textfeld angeben, das bei Auswahl dieser Option angezeigt wird.
- Leerzeichen entfernen: Redundante Leerzeichen wie einzelne Leerzeichen, mehrere Leerzeichen und vorangehende und nachfolgende Leerzeichen in Ihren Daten werden ein einem Tabellenformat mit ihren Häufigkeiten angezeigt. Sie können jede dieser Optionen entsprechend Ihrer Anforderung auswählen:
- Leerzeichen kürzen: Mit dieser Option werden vorangehende oder nachfolgende Leerzeichen in Ihren Daten entfernt.
- Leerstellen minimieren: Mit dieser Option werden überflüssige Leerzeichen zwischen zwei beliebigen Wörtern und alle vorangehenden oder nachfolgenden Leerzeichen entfernt.
- Leerzeichen entfernen: Mit dieser Option werden alle in Ihren Daten vorhandenen Leerzeichen entfernt.
- Groß-/Kleinschreibung standardisieren: Sie können Ihre Daten regularisieren, indem Sie die Groß-/Kleinschreibung Ihrer Daten durch diese Option standardisieren, z. B. Gemischte Schreibung, Großschreibung und Kleinschreibung. Sie können die Schreibung Ihrer Daten in Kleinschreibung oder Großschreibung ändern, um Ihre Daten zu bereinigen und die Lesbarkeit zu verbessern.
- Sonderzeichen entfernen: Mit dieser Option können Sie überflüssige Sonderzeichen in Ihren Daten entfernen. Die erkannten Sonderzeichen werden in einem Textfeld im Bereich Optionen angezeigt. Um Ihre Daten zu bereinigen, können Sie die zu entfernenden Sonderzeichen auswählen und die beizubehaltenden Zeichen mit der Rücktaste aus dem Textfeld löschen.
- Steuerzeichen entfernen: Mit dieser Option können Sie redundante, nicht druckbare Steuerzeichen in Ihren Daten entfernen. Die in Ihren Daten gefundenen Steuerzeichen werden im Abschnitt Statistik angezeigt. Wählen Sie die Option Steuerzeichen entfernen aus und wenden Sie diesen Vorschlag an, um Ihre Daten weiter zu bereinigen.
Semantiktyp erstellen: Sie können Ihre unterschiedlichen Daten in einen Semantiktyp wie Geschlecht, Vorname, Nachname, Land und Telefon kategorisieren. Klicken Sie auf das Statistikdiagramm der einzelnen Daten, um eine Vorschau Ihrer Daten anzuzeigen. Laden Sie diese Daten herunter und erstellen Sie Semantiktypen in der Relationsverwaltung. Weitere Informationen zur Relationsverwaltung finden Sie unter Einführung in Suchtabellen.
Umgang mit Nullen: Sie können die in Ihren Daten vorhandenen Null-Zeichenfolgen und leeren Zeichenfolgen auf einen Standardwert festlegen. Dies erhöht die Einheitlichkeit und Vollständigkeit Ihrer Daten. Die Häufigkeiten der vollständigen, Null- und leeren Zeichenfolgen werden in einem Tabellenformat unter dem Abschnitt Statistik angezeigt. Geben Sie den gewünschten Standardwert in das Textfeld Optionen ein und wählen Sie diesen Vorschlag aus.
Vorschläge für die Registerkarte „Datumszusammenfassung“
Für Datumsmuster wird dieser Vorschlag angezeigt:
Datum standardisieren: Sie können die in Ihren Daten vorhandenen Datumsformate regulieren, um die Konsistenz Ihrer Daten zu verbessern. Häufigkeiten verschiedener Datumsformate, die in Ihren Daten gefunden werden, werden in einem Tabellenformat angezeigt. Wählen Sie das gewünschte Format aus dem Dropdown-Menü Datumsformat unter Optionen, und wählen Sie anschließend diesen Vorschlag aus.
Vorschläge für die Registerkarte „Benutzerdefiniertes Muster“
Für Datumsmuster wird der folgende Vorschlag angezeigt:
- Setzen Sie sie auf einen Standardwert. Geben Sie den Standardwert in das Textfeld ein.
- Setzen Sie sie auf null.
Nachdem Sie die gewünschte Option gewählt haben, wählen Sie diesen Vorschlag aus, um Ihre Daten zu bereinigen.
Vorschläge für die Registerkarte „Ausreißer“
Für semantische Ausreißer wird der folgende Vorschlag angezeigt:
Trennung von Semantiktypen: Sie können alle in einer Spalte vorhandenen semantischen Ausreißer in eine separate Spalte verschieben und so die Einheitlichkeit und Klarheit Ihrer Daten verbessern. Die Häufigkeit der verschiedenen Ausreißer, die in Ihren Daten erkannt werden, wird in Tabellenform angezeigt. Sie können wählen, ob Sie einen der erkannten Ausreißer in eine eigene benutzerdefinierte Spalte verschieben und die Semantiktypen voneinander trennen möchten.Wählen Sie die Ausreißer aus, die Sie in eine separate Spalte verschieben möchten, geben Sie den benutzerdefinierten Namen der Spalte in das Textfeld ein, und wählen Sie diesen Vorschlag aus.