Panneau de profilage - Data360_Govern

Le panneau latéral Profilage s’affiche lorsque des données de profilage sont disponibles, que ce soit pour un asset métier ou technique. Il est renseigné à l’aide des API Data360 Govern pour les profils de données v2.0.

Le nom de l’asset s’affiche comme premier titre, suivi du type d’asset, puis des catégories.

Toutes les catégories sont développées par défaut, avec un maximum de cinq entrées chacune. D’autres entrées peuvent être affichées en cliquant sur Afficher plus…. Si une catégorie n’a pas d’entrées, l’étiquette n’est pas affichée.

Remarque : Les données de profilage les plus récentes sont affichées. Les profils de données peuvent être mis à jour plusieurs fois par jour.

Le panneau Profilage peut inclure les catégories suivantes :

Résumé de l’échantillon
Qualité des échantillons
Distribution des échantillons
Valeurs supérieures
Valeurs inférieures
Valeurs non valides/hors normes
Formes
Statistiques

Les échantillons de catégories sont toujours les premières catégories qui s’affichent et doivent toujours contenir des données. Cependant, il n’y a pas de validation pour les champs obligatoires dans l’API, sauf pour profileSetDate

Résumé de l’échantillon

Champ	Description	Source
Date d’entrée en vigueur	La date de la dernière série d’informations de profilage reçue pour l’asset.	`profileSetDate`
Nombre total de lignes	Le nombre total de lignes dans un ensemble de données complet.	`totalCount`
Nombre de lignes de l’échantillon	Le nombre de lignes qui sont profilées. Un pourcentage du nombre total est également affiché.	`sampleCount`
Type de base	Le type de données.	`type`
Type sémantique	Une autre explication du type. Par exemple, si le type est « Chaîne », le type sémantique peut être Adresse e-mail ou Nom.	`typeQualifier`
Type de fiabilité	Un pourcentage de la confiance que vous pouvez avoir dans le fait que les résultats du profilage proviennent du type spécifié. Par exemple, « Je suis sûr à 97,5 % que les données échantillonnées proviennent d’un champ de date ». Affiché sous forme de pourcentage avec deux points de précision décimaux. Par exemple, si la valeur dans l’API est 0,9753, l’affichage dans l’interface utilisateur est de 97,53 %.	`confidence`
Détection des correspondances	Le nombre de doublons et de champs similaires dans les données d’échantillon.

Types sémantiques

Les types sémantiques sont des chaînes de caractères normalisées qui permettent de décrire le type d’informations que représentent certaines données.

Lorsque le panneau latéral de profilage est affiché, un contrôle est effectué pour vérifier si le type sémantique est trouvé dans les définitions sémantiques. Si aucune correspondance n’est trouvée, le qualificatif est affiché par rapport au type sémantique. Par exemple, HONORIFIC_EN.

Si une correspondance est trouvée, le nom du type sémantique, par exemple, Date, s’affiche sous forme de lien vers le type approprié. Cliquez sur le lien pour afficher le panneau latéral secondaire Informations, situé à gauche du panneau de profilage. Les détails de la définition du type sémantique pertinent sont affichés. Cliquez sur n’importe quel lien du panneau latéral secondaire Informations pour remplacer les informations du type sémantique par ses détails.

Si le type sémantique n’est pas envoyé avec les données de profilage, l’étiquette Types sémantiques continuera à s’afficher, mais remplie de tirets.

Remarque : Les informations de profilage historiques ne sont jamais liées à des types sémantiques, car vous ne pouvez pas contrôler la date d’entrée en vigueur de la définition sémantique. Les types sémantiques sont toujours créés avec la date du jour comme date d’entrée en vigueur.

Détection des correspondances

Le champ Détection des correspondances s’affiche dans la catégorie Résumé de l’échantillon et indique le nombre de doublons et de champs similaires dans les données de l’échantillon. La détection des correspondances est basée sur la signature et la structure des données transmises à Data360 Govern par Data360 Analyze après le profilage d’un asset. Tous les assets profilés sont vérifiés pour détecter les entrées similaires ou en double, en fonction des champs transmis. Si deux assets ont la même signature de données, ils sont classés comme des doublons, mais s’ils ont la même structure de données, ils sont considérés comme des assets similaires.

Doublons :

Badge rouge, situé à gauche de l’étiquette, avec le nombre total détecté. Cliquez sur le lien pour ouvrir la boîte de dialogue Détection des correspondances.
Si vous survolez l’étiquette, une infobulle affiche le nombre d’assets détectés qui sont du même type et dont les données correspondent.
S’il n’y a aucun doublon, le badge rouge est masqué et l’étiquette apparaît en gris sans lien.

Champs similaires :

Badge orange, situé à gauche de l’étiquette, avec le nombre total détecté. Cliquez sur le lien pour ouvrir la boîte de dialogue Détection des correspondances.
Si vous survolez l’étiquette, une infobulle affiche le nombre d’assets détectés qui sont du même type mais avec des données différentes.
S’il n’y a aucun champ similaire, le badge orange est masqué et l’étiquette apparaît en gris sans lien.

La boîte de dialogue Détection des correspondances inclut le chemin d’accès de l’asset pour l’élément sur lequel vous enquêtez, ainsi qu’une grille avec les détails des champs dupliqués ou similaires, en fonction du lien sur lequel vous avez cliqué dans le panneau de profilage. Si vous sélectionnez plusieurs chemins d’accès de l’asset, un bouton de menu s’affiche à droite du champ de filtre. Cliquez dessus et sélectionnez Modifier des tags, où vous pouvez, par exemple, ajouter un ou plusieurs tags aux chemins d’accès de l’asset sélectionnés.

Remarque : Vous ne pouvez pas ajouter de tags simultanément aux champs en double et aux champs similaires.

Qualité des échantillons

Une infobulle s’affiche en regard de chaque pourcentage calculé, indiquant le pourcentage du total. Le total lui-même est relatif, par exemple, total de l’échantillon, total des valeurs valides et similaires.

Champ	Description	Source
Barre de qualité	Une seule barre horizontale avec une répartition du nombre de lignes valides, non valides et non remplies à partir des données de l’échantillon.
Valide	Le nombre de valeurs valides trouvées dans les données d’échantillon, en fonction du type ou du type sémantique. En regard du nombre figure un pourcentage. Il est calculé dans Data360 Govern, et est égal au nombre valide divisé par le nombre d’échantillons. Distinct - Indique le nombre de valeurs valides distinctes.	`matchCount` `cardinality`
Valeurs non valides/hors normes	Le nombre de valeurs non valides ou hors normes trouvées dans les données de l’échantillon. En regard du nombre figure un pourcentage. Il est calculé dans Data360 Govern, et est égal à la valeur non valide/hors normes divisée par le nombre d’échantillons.	`outlierCount`
Nul/Vide	Le nombre de valeurs nulles ou vides trouvées dans les données de l’échantillon. En regard du nombre figure un pourcentage. Il est calculé dans Data360 Govern, et est égal au nombre non renseigné divisé par le nombre d’échantillons.	`nullCount + blankCount`

Distribution des échantillons

Le graphique à barres présente la répartition des échantillons, selon le type de données. Par exemple, si les données sont :

Date/heure - Le graphique à barres montre la distribution dans le temps.
Chaîne - Le graphique à barres affiche la distribution selon les valeurs distinctes des chaînes de caractères.
Nombre - Le graphique à barres affiche la distribution de l’intervalle, ainsi que l’écart-type et la moyenne des valeurs distinctes.
Booléen - Le graphique à barres indique si les valeurs sont true ou false.

Le diagramme à barres affiche les résultats pertinents avec des barres vertes, et inclut également les valeurs non valides/hors normes, le cas échéant, avec une barre rouge et les valeurs nulles/vides avec une barre grise.

Valeurs supérieures, Valeurs inférieures, Valeurs non valides/hors normes et Formes

Ces catégories se comportent toutes de manière similaire et ne s’affichent que si des données leur sont destinées. Chaque valeur s’affiche sous forme de graphique à barres avec la valeur et le nombre.

Remarque : Les ensembles d’échantillons supérieurs et inférieurs conservent l’ordre de tri dans lequel ils ont été reçus. La seule exception concerne les valeurs de type numérique, qui sont triées par valeur clé, ce qui signifie qu’elles descendent pour les valeurs supérieures et augmentent pour les valeurs inférieures.

En regard du nombre, un pourcentage s’affiche. Il correspond à un calcul du nombre des valeurs divisé par le nombre d’échantillons.

Valeurs supérieures - Les valeurs sont issues de topK et leur nombre est indiqué dans cardinalityDetail.
Valeurs inférieures - Les valeurs sont issues de bottomK et leur nombre est indiqué dans cardinalityDetail.
Valeurs non valides/hors normes - Les valeurs et les nombres se trouvent dans outlierDetail.
Formes - Les valeurs et les nombres se trouvent dans shapesDetail.

Statistiques

Il existe un ensemble de statistiques fournies via les API.

Étiquette	Source
Nombre de valeurs nulles	`nullCount`
Nombre de blancs	`blankCount`
Valeur minimale	`min`
Valeur maximale	`max`
Longueur minimale	`minLength`
Longueur maximale	`maxLength`
Moyenne	`mean`
Écart-type	`standardDeviation`
Plusieurs lignes	`multiline`
Espace blanc de début de ligne	`leadingWhiteSpace`
Espace blanc de fin de ligne	`trailingWhiteSpace`
Nombre de zéros de tête	`leadingZeroCount`
Expression régulière de validation	`regExp`

La disponibilité d’une valeur statistique particulière dépend en partie du type de données. Par exemple, si le type de données est booléen, seuls le nombre de blancs, le nombre nul et l’expression régulière de validation seront affichés, s’ils ont une valeur.

Panneau de profilage - Data360_Govern - Dernière

Aide Data360 Govern