Profiling-Bereich - Data360_Govern

Der Seitenbereich Profiling wird angezeigt, wenn Profiling-Daten für ein Business-Asset oder ein technisches Asset verfügbar sind. Er wird unter Verwendung der Data360 Govern DataProfiles v2.0 APIs gefüllt.

Der Name des Assets wird als erste Überschrift, gefolgt vom Asset-Typ und dann den Kategorien angezeigt.

Alle Kategorien werden standardmäßig mit maximal fünf Einträgen eingeblendet. Weitere Einträge können durch Klicken auf Mehr anzeigen angezeigt werden. Wenn eine Kategorie keine Einträge enthält, wird die Bezeichnung nicht angezeigt.

Anmerkung: Es werden die neuesten Profiling-Daten angezeigt. Datenprofile können mehrmals am Tag aktualisiert werden.

Der Bereich Profiling kann diese Kategorien enthalten:

Stichprobenübersicht
Stichprobenqualität
Stichprobenverteilung
Oberste Werte
Unterste Werte
Ungültig/Ausreißer
Formen
Statistik

Die Beispielkategorien sind immer die ersten angezeigten Kategorien und sollten immer Daten enthalten. Es gibt jedoch keine Überprüfung für erforderliche Felder in der API außer profileSetDate.

Stichprobenübersicht

Feld	Beschreibung	Quelle
Gültigkeitsdatum	Das Datum, an dem die neuesten Profiling-Informationen für das Asset eingegeben wurden.	`profileSetDate`
Gesamtzeilenanzahl	Die Gesamtzahl der Zeilen in einem gesamten Dataset.	`totalCount`
Zeilenanzahl (Stichprobe)	Die Anzahl der Zeilen, für die ein Profil erstellt wurde. Ein Prozentsatz der Gesamtanzahl wird ebenfalls angezeigt.	`sampleCount`
Basis-Typ	Der Datentyp.	`type`
Semantiktyp	Eine weitere Erklärung des Typs. Wenn der Typ beispielsweise „Zeichenfolge“ ist, kann der Semantiktyp E-Mail oder Name sein.	`typeQualifier`
Typkonfidenz	Ein Prozentsatz, der angibt, wie zuversichtlich Sie sein können, dass die Profiling-Ergebnisse vom angegebenen Typ stammen. Beispiel: „Ich bin zu 97,5 % sicher, dass die ausgewählten Daten aus einem Datumsfeld stammen.“ Angezeigt als Prozentsatz mit zwei Dezimalstellen Genauigkeit. Wenn der Wert in der API beispielsweise 0,9753 lautet, ist die Anzeige auf der Benutzeroberfläche 97,53 %.	`confidence`
Übereinstimmungserkennung	Die Anzahl der Dubletten und ähnlichen Felder in den Beispieldaten.

Semantiktypen

Semantiktypen sind standardisierte Zeichenfolgen, mit denen der Informationstyp bestimmter Daten beschrieben werden kann.

Wenn der Profiling-Seitenbereich angezeigt wird, wird überprüft, ob der Semantiktyp in den Semantikdefinitionen vorhanden ist. Wenn keine Übereinstimmung gefunden wird, wird das Abfragekriterium für den Semantiktyp angezeigt. Beispiel: HONORIFIC_EN.

Wenn eine Übereinstimmung gefunden wird, wird der Name des Semantiktyps als Link zum entsprechenden Typ angezeigt, z. B. Datum. Klicken Sie auf den Link, um den sekundären Seitenbereich Informationen links neben dem Bereich Profiling anzuzeigen. Die Definitionsdetails des betreffenden Semantiktyps werden angezeigt. Klicken Sie auf einen beliebigen Link im untergeordneten Seitenbereich Informationen, um die Semantiktypinformationen durch ihre Details zu ersetzen.

Wenn der Semantiktyp nicht mit den Profiling-Daten gesendet wird, wird die Bezeichnung Semantiktypen weiterhin angezeigt, aber mit Bindestrichen gefüllt.

Anmerkung: Historische Profiling-Informationen sind nie mit Semantiktypen verknüpft, da Sie das Gültigkeitsdatum der semantischen Definition nicht steuern können. Semantiktypen werden immer mit dem heutigen Gültigkeitsdatum erstellt.

Übereinstimmungserkennung

Das Feld Übereinstimmungserkennung wird als Teil der Kategorie Stichprobenübersicht angezeigt und zeigt die Anzahl der Dubletten und ähnlicher Felder in den Beispieldaten an. Die Übereinstimmungserkennung basiert auf der Datensignatur und der Datenstruktur, die von Data360 Analyze an Data360 Govern übergeben wird, nachdem für ein Asset ein Profil erstellt wurde. Alle Assets mit Profil werden basierend auf diesen übergebenen Feldern auf ähnliche oder doppelte Einträge überprüft. Wenn zwei Assets die gleiche Datensignatur haben, werden sie als Dubletten klassifiziert. Wenn sie jedoch die gleiche Datenstruktur haben, werden sie als gleiche Assets betrachtet.

Dubletten:

Ein rotes Badge wird links von der Bezeichnung zusammen mit der gefundenen Gesamtzahl angeordnet. Klicken Sie auf den Link, um das Dialogfeld Übereinstimmungserkennung zu öffnen.
Wenn Sie den Mauszeiger über die Bezeichnung schieben, wird eine QuickInfo mit der Anzahl der erkannten Assets angezeigt, die denselben Typ haben und übereinstimmende Daten aufweisen.
Wenn keine Dubletten vorhanden sind, wird das rote Badge ausgeblendet, und die Bezeichnung erscheint grau und ohne Link.

Ähnliche Felder:

Ein orangefarbenes Badge wird links von der Bezeichnung zusammen mit der gefundenen Gesamtzahl angeordnet. Klicken Sie auf den Link, um das Dialogfeld Übereinstimmungserkennung zu öffnen.
Wenn Sie den Mauszeiger über die Bezeichnung schieben, wird eine QuickInfo mit der Anzahl der erkannten Assets angezeigt, die denselben Typ haben, aber unterschiedliche Daten enthalten.
Wenn keine ähnlichen Felder vorhanden sind, wird das orangefarbene Badge ausgeblendet, und die Bezeichnung erscheint grau und ohne Link.

Das Dialogfeld Übereinstimmungserkennung enthält den Asset-Pfad für das Element, das Sie untersuchen, und ein Raster, mit den Details der Dublette oder ähnlicher Felder, je nachdem, auf welchen Link im Bereich Profiling geklickt wurde. Wenn Sie mehr als einen Asset-Pfad auswählen, wird rechts neben dem Filterfeld eine Menüschaltfläche angezeigt. Klicken Sie darauf, und wählen Sie Tags bearbeiten aus, wo Sie beispielsweise ein oder mehrere Tags zu den ausgewählten Asset-Pfaden hinzufügen können.

Anmerkung: Dublettenfeldern und ähnlichen Feldern können Sie keine Tags hinzufügen.

Stichprobenqualität

Neben jedem berechneten Prozentsatz befindet sich eine QuickInfo, die den Prozentsatz des Gesamtwerts angibt. Der Gesamtwert selbst ist relativ, z. B. der Gesamtwert des Beispiels, der Gesamtwert der gültigen und Ähnliches.

Feld	Beschreibung	Quelle
Qualitätsbalken	Ein horizontaler Balken mit einer Verteilung der Anzahlen gültiger, ungültiger und nicht ausgefüllter Zeilen aus den Beispieldaten.
Gültig	Die Anzahl der gültigen Werte, die in den Beispieldaten gefunden werden, basierend auf dem Typ oder dem Semantiktyp. Neben der Anzahl steht ein Prozentsatz. Dieser wird innerhalb von Data360 Govern berechnet und entspricht der „Anzahl Gültige“ dividiert durch die Beispielanzahl. Verschieden - Gibt an, wie viele der gültigen Werte unterschiedlich sind.	`matchCount` `cardinality`
Ungültig/Ausreißer	Die Anzahl der ungültigen Werte oder Ausreißerwerte, die in den Beispieldaten gefunden wurden. Neben der Anzahl steht ein Prozentsatz. Dieser wird innerhalb von Data360 Govern berechnet und entspricht der „Anzahl Ungültige/Ausreißer“ dividiert durch die Beispielanzahl.	`outlierCount`
Null/Leerzeichen	Die Anzahl von Nullen oder Leerzeichen, die in den Beispieldaten gefunden wurden. Neben der Anzahl steht ein Prozentsatz. Dieser wird innerhalb von Data360 Govern berechnet und entspricht der „Anzahl nicht Ausgefüllter“ dividiert durch die Beispielanzahl.	`nullCount + blankCount`

Stichprobenverteilung

Das Balkendiagramm zeigt die Verteilung von Beispielen entsprechend dem Datentyp. Beispiel für die folgenden Daten:

Datum/Uhrzeit - Das Balkendiagramm zeigt die Verteilung im Verlauf der Zeit.
String (Zeichenfolge) - Im Balkendiagramm wird die Verteilung nach unterschiedlichen Zeichenfolgenwerten dargestellt.
Zahl - Das Balkendiagramm zeigt die Bereichsverteilung zusammen mit der Standardabweichung und dem Mittelwert für die einzelnen Werte.
Boolesch: Das Balkendiagramm zeigt, ob die Werte true oder false sind.

Das Balkendiagramm zeigt die relevanten Ergebnisse mit grünen Balken an und enthält außerdem Ungültige/Ausreißer, falls vorhanden, mit einem roten Balken und Null/Leer-Werten mit einem grauen Balken.

Oberste Werte, unterste Werte, Ungültig/Ausreißer und Formen

Diese Kategorien verhalten sich alle ähnlich und werden nur angezeigt, wenn Daten dafür vorhanden sind. Jeder Wert wird als Balkendiagramm mit dem Wert und der Anzahl angezeigt.

Anmerkung: Die oberen und unteren Beispielmengen behalten die Sortierreihenfolge bei, in der sie empfangen werden. Die einzige Ausnahme sind Zahlentypenwerte, die nach dem Schlüsselwert sortiert werden, d. h. dass sie für oberste Werte absteigen und für unterste Werte aufsteigen.

Neben der Anzahl wird ein Prozentsatz angezeigt, der eine Berechnung der Anzahl der Werte dividiert durch die Beispielanzahl darstellt.

Oberste Werte - Die Werte stammen aus topK, mit der jeweiligen Anzahl in cardinalityDetail.
Unterste Werte - Die Werte stammen aus bottomK, mit der jeweiligen Anzahl in cardinalityDetail.
Ungültige/Ausreißerwerte - Die Werte und Anzahlen befinden sich in outlierDetail.
Formen - Die Werte und Anzahlen sind in shapesDetail angegeben.

Statistik

Es gibt eine Reihe von Statistiken, die über die APIs bereitgestellt werden.

Bezeichnung	Quelle
Nullanzahl	`nullCount`
Leerzeichenanzahl	`blankCount`
Minimaler Wert	`min`
Maximaler Wert	`max`
Minimale Länge	`minLength`
Maximale Länge	`maxLength`
Mittelwert	`mean`
Standardabweichung	`standardDeviation`
Mehrzeilig	`multiline`
Leerzeichen am Anfang	`leadingWhiteSpace`
Leerzeichen am Ende	`trailingWhiteSpace`
Anzahl Nullen an erster Stelle	`leadingZeroCount`
Validierung des regulären Ausdrucks	`regExp`

Die Verfügbarkeit eines bestimmten statistischen Wertes hängt teilweise vom Datentyp ab. Wenn der Datentyp beispielsweise Boolean ist, werden nur „Leerzeichenzahl“, „Nullanzahl“ und „Validierung des regulären Ausdrucks“ angezeigt, sofern diese einen Wert aufweisen.

Profiling-Bereich - Data360_Govern - Neuheiten

Data360 Govern – Hilfe