Le panneau latéral Profilage s’affiche lorsque des données de profilage sont disponibles, que ce soit pour un asset métier ou technique. Il est renseigné à l’aide des API Data360 Govern pour les profils de données v2.0.
Le nom de l’asset s’affiche comme premier titre, suivi du type d’asset, puis des catégories.
Toutes les catégories sont développées par défaut, avec un maximum de cinq entrées chacune. D’autres entrées peuvent être affichées en cliquant sur Afficher plus…. Si une catégorie n’a pas d’entrées, l’étiquette n’est pas affichée.
Le panneau Profilage peut inclure les catégories suivantes :
- Résumé de l’échantillon
- Qualité des échantillons
- Distribution des échantillons
- Valeurs supérieures
- Valeurs inférieures
- Valeurs non valides/hors normes
- Formes
- Statistiques
Les échantillons de catégories sont toujours les premières catégories qui s’affichent et doivent toujours contenir des données. Cependant, il n’y a pas de validation pour les champs obligatoires dans l’API, sauf pour profileSetDate
Résumé de l’échantillon
Champ | Description | Source |
---|---|---|
Date d’entrée en vigueur | La date de la dernière série d’informations de profilage reçue pour l’asset. | profileSetDate |
Nombre total de lignes | Le nombre total de lignes dans un ensemble de données complet. | totalCount |
Nombre de lignes de l’échantillon |
Le nombre de lignes qui sont profilées. Un pourcentage du nombre total est également affiché. |
sampleCount |
Type de base | Le type de données. | type |
Type sémantique | Une autre explication du type. Par exemple, si le type est « Chaîne », le type sémantique peut être Adresse e-mail ou Nom. | typeQualifier |
Type de fiabilité |
Un pourcentage de la confiance que vous pouvez avoir dans le fait que les résultats du profilage proviennent du type spécifié. Par exemple, « Je suis sûr à 97,5 % que les données échantillonnées proviennent d’un champ de date ». Affiché sous forme de pourcentage avec deux points de précision décimaux. Par exemple, si la valeur dans l’API est 0,9753, l’affichage dans l’interface utilisateur est de 97,53 %. |
confidence |
Détection des correspondances | Le nombre de doublons et de champs similaires dans les données d’échantillon. |
Types sémantiques
Les types sémantiques sont des chaînes de caractères normalisées qui permettent de décrire le type d’informations que représentent certaines données.
Lorsque le panneau latéral de profilage est affiché, un contrôle est effectué pour vérifier si le type sémantique est trouvé dans les définitions sémantiques. Si aucune correspondance n’est trouvée, le qualificatif est affiché par rapport au type sémantique. Par exemple, HONORIFIC_EN.
Si une correspondance est trouvée, le nom du type sémantique, par exemple, Date, s’affiche sous forme de lien vers le type approprié. Cliquez sur le lien pour afficher le panneau latéral secondaire Informations, situé à gauche du panneau de profilage. Les détails de la définition du type sémantique pertinent sont affichés. Cliquez sur n’importe quel lien du panneau latéral secondaire Informations pour remplacer les informations du type sémantique par ses détails.
Si le type sémantique n’est pas envoyé avec les données de profilage, l’étiquette Types sémantiques continuera à s’afficher, mais remplie de tirets.
Détection des correspondances
Le champ Détection des correspondances s’affiche dans la catégorie Résumé de l’échantillon et indique le nombre de doublons et de champs similaires dans les données de l’échantillon. La détection des correspondances est basée sur la signature et la structure des données transmises à Data360 Govern par Data360 Analyze après le profilage d’un asset. Tous les assets profilés sont vérifiés pour détecter les entrées similaires ou en double, en fonction des champs transmis. Si deux assets ont la même signature de données, ils sont classés comme des doublons, mais s’ils ont la même structure de données, ils sont considérés comme des assets similaires.
Doublons :
- Badge rouge, situé à gauche de l’étiquette, avec le nombre total détecté. Cliquez sur le lien pour ouvrir la boîte de dialogue Détection des correspondances.
- Si vous survolez l’étiquette, une infobulle affiche le nombre d’assets détectés qui sont du même type et dont les données correspondent.
- S’il n’y a aucun doublon, le badge rouge est masqué et l’étiquette apparaît en gris sans lien.
Champs similaires :
- Badge orange, situé à gauche de l’étiquette, avec le nombre total détecté. Cliquez sur le lien pour ouvrir la boîte de dialogue Détection des correspondances.
- Si vous survolez l’étiquette, une infobulle affiche le nombre d’assets détectés qui sont du même type mais avec des données différentes.
- S’il n’y a aucun champ similaire, le badge orange est masqué et l’étiquette apparaît en gris sans lien.
Qualité des échantillons
- Une infobulle s’affiche en regard de chaque pourcentage calculé, indiquant le pourcentage du total. Le total lui-même est relatif, par exemple, total de l’échantillon, total des valeurs valides et similaires.
Champ | Description | Source |
---|---|---|
Barre de qualité | Une seule barre horizontale avec une répartition du nombre de lignes valides, non valides et non remplies à partir des données de l’échantillon. | |
Valide |
Le nombre de valeurs valides trouvées dans les données d’échantillon, en fonction du type ou du type sémantique. En regard du nombre figure un pourcentage. Il est calculé dans Data360 Govern, et est égal au nombre valide divisé par le nombre d’échantillons. Distinct - Indique le nombre de valeurs valides distinctes. |
matchCount |
Valeurs non valides/hors normes |
Le nombre de valeurs non valides ou hors normes trouvées dans les données de l’échantillon. En regard du nombre figure un pourcentage. Il est calculé dans Data360 Govern, et est égal à la valeur non valide/hors normes divisée par le nombre d’échantillons. |
outlierCount |
Nul/Vide |
Le nombre de valeurs nulles ou vides trouvées dans les données de l’échantillon. En regard du nombre figure un pourcentage. Il est calculé dans Data360 Govern, et est égal au nombre non renseigné divisé par le nombre d’échantillons. |
nullCount + blankCount |
Distribution des échantillons
Le graphique à barres présente la répartition des échantillons, selon le type de données. Par exemple, si les données sont :
- Date/heure - Le graphique à barres montre la distribution dans le temps.
- Chaîne - Le graphique à barres affiche la distribution selon les valeurs distinctes des chaînes de caractères.
- Nombre - Le graphique à barres affiche la distribution de l’intervalle, ainsi que l’écart-type et la moyenne des valeurs distinctes.
- Booléen - Le graphique à barres indique si les valeurs sont true ou false.
Le diagramme à barres affiche les résultats pertinents avec des barres vertes, et inclut également les valeurs non valides/hors normes, le cas échéant, avec une barre rouge et les valeurs nulles/vides avec une barre grise.
Valeurs supérieures, Valeurs inférieures, Valeurs non valides/hors normes et Formes
Ces catégories se comportent toutes de manière similaire et ne s’affichent que si des données leur sont destinées. Chaque valeur s’affiche sous forme de graphique à barres avec la valeur et le nombre.
En regard du nombre, un pourcentage s’affiche. Il correspond à un calcul du nombre des valeurs divisé par le nombre d’échantillons.
- Valeurs supérieures - Les valeurs sont issues de
topK
et leur nombre est indiqué danscardinalityDetail
. - Valeurs inférieures - Les valeurs sont issues de
bottomK
et leur nombre est indiqué danscardinalityDetail
. - Valeurs non valides/hors normes - Les valeurs et les nombres se trouvent dans
outlierDetail
. - Formes - Les valeurs et les nombres se trouvent dans
shapesDetail
.
Statistiques
Il existe un ensemble de statistiques fournies via les API.
Étiquette | Source |
---|---|
Nombre de valeurs nulles | nullCount |
Nombre de blancs | blankCount |
Valeur minimale | min |
Valeur maximale | max |
Longueur minimale | minLength |
Longueur maximale | maxLength |
Moyenne | mean |
Écart-type | standardDeviation |
Plusieurs lignes | multiline |
Espace blanc de début de ligne | leadingWhiteSpace |
Espace blanc de fin de ligne | trailingWhiteSpace |
Nombre de zéros de tête | leadingZeroCount |
Expression régulière de validation | regExp |
La disponibilité d’une valeur statistique particulière dépend en partie du type de données. Par exemple, si le type de données est booléen, seuls le nombre de blancs, le nombre nul et l’expression régulière de validation seront affichés, s’ils ont une valeur.