Der Seitenbereich Profiling wird angezeigt, wenn Profiling-Daten für ein Business-Asset oder ein technisches Asset verfügbar sind. Er wird unter Verwendung der Data360 Govern DataProfiles v2.0 APIs gefüllt.
Der Name des Assets wird als erste Überschrift, gefolgt vom Asset-Typ und dann den Kategorien angezeigt.
Alle Kategorien werden standardmäßig mit maximal fünf Einträgen eingeblendet. Weitere Einträge können durch Klicken auf Mehr anzeigen angezeigt werden. Wenn eine Kategorie keine Einträge enthält, wird die Bezeichnung nicht angezeigt.
Der Bereich Profiling kann diese Kategorien enthalten:
- Stichprobenübersicht
- Stichprobenqualität
- Stichprobenverteilung
- Oberste Werte
- Unterste Werte
- Ungültig/Ausreißer
- Formen
- Statistik
Die Beispielkategorien sind immer die ersten angezeigten Kategorien und sollten immer Daten enthalten. Es gibt jedoch keine Überprüfung für erforderliche Felder in der API außer profileSetDate
.
Stichprobenübersicht
Feld | Beschreibung | Quelle |
---|---|---|
Gültigkeitsdatum | Das Datum, an dem die neuesten Profiling-Informationen für das Asset eingegeben wurden. | profileSetDate |
Gesamtzeilenanzahl | Die Gesamtzahl der Zeilen in einem gesamten Dataset. | totalCount |
Zeilenanzahl (Stichprobe) |
Die Anzahl der Zeilen, für die ein Profil erstellt wurde. Ein Prozentsatz der Gesamtanzahl wird ebenfalls angezeigt. |
sampleCount |
Basis-Typ | Der Datentyp. | type |
Semantiktyp | Eine weitere Erklärung des Typs. Wenn der Typ beispielsweise „Zeichenfolge“ ist, kann der Semantiktyp E-Mail oder Name sein. | typeQualifier |
Typkonfidenz |
Ein Prozentsatz, der angibt, wie zuversichtlich Sie sein können, dass die Profiling-Ergebnisse vom angegebenen Typ stammen. Beispiel: „Ich bin zu 97,5 % sicher, dass die ausgewählten Daten aus einem Datumsfeld stammen.“ Angezeigt als Prozentsatz mit zwei Dezimalstellen Genauigkeit. Wenn der Wert in der API beispielsweise 0,9753 lautet, ist die Anzeige auf der Benutzeroberfläche 97,53 %. |
confidence |
Übereinstimmungserkennung | Die Anzahl der Dubletten und ähnlichen Felder in den Beispieldaten. |
Semantiktypen
Semantiktypen sind standardisierte Zeichenfolgen, mit denen der Informationstyp bestimmter Daten beschrieben werden kann.
Wenn der Profiling-Seitenbereich angezeigt wird, wird überprüft, ob der Semantiktyp in den Semantikdefinitionen vorhanden ist. Wenn keine Übereinstimmung gefunden wird, wird das Abfragekriterium für den Semantiktyp angezeigt. Beispiel: HONORIFIC_EN.
Wenn eine Übereinstimmung gefunden wird, wird der Name des Semantiktyps als Link zum entsprechenden Typ angezeigt, z. B. Datum. Klicken Sie auf den Link, um den sekundären Seitenbereich Informationen links neben dem Bereich Profiling anzuzeigen. Die Definitionsdetails des betreffenden Semantiktyps werden angezeigt. Klicken Sie auf einen beliebigen Link im untergeordneten Seitenbereich Informationen, um die Semantiktypinformationen durch ihre Details zu ersetzen.
Wenn der Semantiktyp nicht mit den Profiling-Daten gesendet wird, wird die Bezeichnung Semantiktypen weiterhin angezeigt, aber mit Bindestrichen gefüllt.
Übereinstimmungserkennung
Das Feld Übereinstimmungserkennung wird als Teil der Kategorie Stichprobenübersicht angezeigt und zeigt die Anzahl der Dubletten und ähnlicher Felder in den Beispieldaten an. Die Übereinstimmungserkennung basiert auf der Datensignatur und der Datenstruktur, die von Data360 Analyze an Data360 Govern übergeben wird, nachdem für ein Asset ein Profil erstellt wurde. Alle Assets mit Profil werden basierend auf diesen übergebenen Feldern auf ähnliche oder doppelte Einträge überprüft. Wenn zwei Assets die gleiche Datensignatur haben, werden sie als Dubletten klassifiziert. Wenn sie jedoch die gleiche Datenstruktur haben, werden sie als gleiche Assets betrachtet.
Dubletten:
- Ein rotes Badge wird links von der Bezeichnung zusammen mit der gefundenen Gesamtzahl angeordnet. Klicken Sie auf den Link, um das Dialogfeld Übereinstimmungserkennung zu öffnen.
- Wenn Sie den Mauszeiger über die Bezeichnung schieben, wird eine QuickInfo mit der Anzahl der erkannten Assets angezeigt, die denselben Typ haben und übereinstimmende Daten aufweisen.
- Wenn keine Dubletten vorhanden sind, wird das rote Badge ausgeblendet, und die Bezeichnung erscheint grau und ohne Link.
Ähnliche Felder:
- Ein orangefarbenes Badge wird links von der Bezeichnung zusammen mit der gefundenen Gesamtzahl angeordnet. Klicken Sie auf den Link, um das Dialogfeld Übereinstimmungserkennung zu öffnen.
- Wenn Sie den Mauszeiger über die Bezeichnung schieben, wird eine QuickInfo mit der Anzahl der erkannten Assets angezeigt, die denselben Typ haben, aber unterschiedliche Daten enthalten.
- Wenn keine ähnlichen Felder vorhanden sind, wird das orangefarbene Badge ausgeblendet, und die Bezeichnung erscheint grau und ohne Link.
Stichprobenqualität
- Neben jedem berechneten Prozentsatz befindet sich eine QuickInfo, die den Prozentsatz des Gesamtwerts angibt. Der Gesamtwert selbst ist relativ, z. B. der Gesamtwert des Beispiels, der Gesamtwert der gültigen und Ähnliches.
Feld | Beschreibung | Quelle |
---|---|---|
Qualitätsbalken | Ein horizontaler Balken mit einer Verteilung der Anzahlen gültiger, ungültiger und nicht ausgefüllter Zeilen aus den Beispieldaten. | |
Gültig |
Die Anzahl der gültigen Werte, die in den Beispieldaten gefunden werden, basierend auf dem Typ oder dem Semantiktyp. Neben der Anzahl steht ein Prozentsatz. Dieser wird innerhalb von Data360 Govern berechnet und entspricht der „Anzahl Gültige“ dividiert durch die Beispielanzahl. Verschieden - Gibt an, wie viele der gültigen Werte unterschiedlich sind. |
matchCount |
Ungültig/Ausreißer |
Die Anzahl der ungültigen Werte oder Ausreißerwerte, die in den Beispieldaten gefunden wurden. Neben der Anzahl steht ein Prozentsatz. Dieser wird innerhalb von Data360 Govern berechnet und entspricht der „Anzahl Ungültige/Ausreißer“ dividiert durch die Beispielanzahl. |
outlierCount |
Null/Leerzeichen |
Die Anzahl von Nullen oder Leerzeichen, die in den Beispieldaten gefunden wurden. Neben der Anzahl steht ein Prozentsatz. Dieser wird innerhalb von Data360 Govern berechnet und entspricht der „Anzahl nicht Ausgefüllter“ dividiert durch die Beispielanzahl. |
nullCount + blankCount |
Stichprobenverteilung
Das Balkendiagramm zeigt die Verteilung von Beispielen entsprechend dem Datentyp. Beispiel für die folgenden Daten:
- Datum/Uhrzeit - Das Balkendiagramm zeigt die Verteilung im Verlauf der Zeit.
- String (Zeichenfolge) - Im Balkendiagramm wird die Verteilung nach unterschiedlichen Zeichenfolgenwerten dargestellt.
- Zahl - Das Balkendiagramm zeigt die Bereichsverteilung zusammen mit der Standardabweichung und dem Mittelwert für die einzelnen Werte.
- Boolesch: Das Balkendiagramm zeigt, ob die Werte true oder false sind.
Das Balkendiagramm zeigt die relevanten Ergebnisse mit grünen Balken an und enthält außerdem Ungültige/Ausreißer, falls vorhanden, mit einem roten Balken und Null/Leer-Werten mit einem grauen Balken.
Oberste Werte, unterste Werte, Ungültig/Ausreißer und Formen
Diese Kategorien verhalten sich alle ähnlich und werden nur angezeigt, wenn Daten dafür vorhanden sind. Jeder Wert wird als Balkendiagramm mit dem Wert und der Anzahl angezeigt.
Neben der Anzahl wird ein Prozentsatz angezeigt, der eine Berechnung der Anzahl der Werte dividiert durch die Beispielanzahl darstellt.
- Oberste Werte - Die Werte stammen aus
topK
, mit der jeweiligen Anzahl incardinalityDetail
. - Unterste Werte - Die Werte stammen aus
bottomK
, mit der jeweiligen Anzahl incardinalityDetail
. - Ungültige/Ausreißerwerte - Die Werte und Anzahlen befinden sich in
outlierDetail
. - Formen - Die Werte und Anzahlen sind in
shapesDetail
angegeben.
Statistik
Es gibt eine Reihe von Statistiken, die über die APIs bereitgestellt werden.
Bezeichnung | Quelle |
---|---|
Nullanzahl | nullCount |
Leerzeichenanzahl | blankCount |
Minimaler Wert | min |
Maximaler Wert | max |
Minimale Länge | minLength |
Maximale Länge | maxLength |
Mittelwert | mean |
Standardabweichung | standardDeviation |
Mehrzeilig | multiline |
Leerzeichen am Anfang | leadingWhiteSpace |
Leerzeichen am Ende | trailingWhiteSpace |
Anzahl Nullen an erster Stelle | leadingZeroCount |
Validierung des regulären Ausdrucks | regExp |
Die Verfügbarkeit eines bestimmten statistischen Wertes hängt teilweise vom Datentyp ab. Wenn der Datentyp beispielsweise Boolean ist, werden nur „Leerzeichenzahl“, „Nullanzahl“ und „Validierung des regulären Ausdrucks“ angezeigt, sofern diese einen Wert aufweisen.