Tutoriel - Créer des scores de qualité des données internes - Data360_Govern - Dernière

Aide Data360 Govern

Product type
Logiciels
Portfolio
Verify
Product family
Data360
Product
Data360 Govern
Precisely Data Integrity Suite > Govern
Version
Dernière
Language
Français
Product name
Data360 Govern
Title
Aide Data360 Govern
Copyright
2024
First publish date
2014

Cette rubrique vous guide tout au long des étapes nécessaires pour préparer et configurer des scores de qualité des données internes.

Avant de configurer un score

Avant de commencer à configurer le calcul de votre score de qualité des données, il est important que vous sachiez comment vous voulez que votre score soit déterminé. Le score de qualité des données de n’importe quel asset est composé des résultats de règle de qualité des données, pour une date d’entrée en vigueur. Vous devez comprendre les règles de qualité des données en place, les assets auxquelles elles s’appliquent et l’importance de chacune. Voici une liste de questions générales qui vous aideront à formuler votre configuration :

  • À quels assets souhaitez-vous attribuer un score ?

    Par exemple, tous les assets du type Base de données > Schéma > Table > Colonne.

  • Vos règles de qualité des données appartiennent-elles toutes à un seul type de règle, ou en existe-t-il plusieurs ?

  • Certaines règles de qualité des données sont-elles plus importantes que d’autres et, dans ce cas, doivent-elles contribuer davantage au score ?

    Par exemple, une règle dont la dimension de qualité est « Conformité » est-elle plus importante qu’une règle pour « Duplication » ?

  • L’importance du résultat de qualité des données dépend-elle du type d’asset dont il s’agit ?

    Par exemple, si une colonne est marquée comme un « élément de données critiques », la règle « Exactitude » doit-elle avoir une pondération supérieure à la règle « Nombre nul » ?

C’est le type de questions auxquelles il faut répondre et qu’il faut comprendre avant de commencer, car chacune d’entre elles a un impact important sur la façon dont vous allez configurer les mesures d’attribution d’un score.

Étape 1 : Établir les types de relations et les relations

Pour que le résultat de règle de qualité des données soit pris en compte dans le score d’un asset, cet asset doit être lié à une règle, directement ou indirectement, via le type fonctionnel de prédicat « Évaluation ».

Étant donné que les règles de qualité des données sont exécutées au niveau le plus bas d’un asset technique (comme une colonne ou un élément de données), les règles doivent être directement liées dans cette situation. Les règles évaluent les colonnes, par exemple.

Une relation indirecte avec la règle signifie qu’à un niveau supérieur, il existe un chemin d’accès à la relation entre l’asset auquel un score est attribué et un asset évalué par des règles. Tant qu’une relation directe existe, les assets de niveau supérieur se voient attribuer un score en sélectionnant le chemin d’accès à la relation qui se termine par un prédicat d’évaluation et un type de règle.

Vous devez établir la relation directe entre un asset et une règle. Govern déterminera ensuite les chemins d’accès des relations indirectes pour les assets de niveau supérieur, en fonction des relations existantes.

Par exemple :

Pour noter un terme métier qui est mappé aux colonnes, vous devez d’abord établir la relation entre les colonnes et les règles :

  1. Créez un type de règle et des règles individuelles.

  2. Créez un type de relation « Les règles évaluent les colonnes ».

    Lors de la création d’une définition de score pour les termes métier, la sélection des résultats de la règle inclura le chemin d’accès à la relation « Les termes métier est mappé aux colonnes, qui sont évaluées par les règles ».

    Pour plus d’informations, reportez-vous à Structure d’une mesure de qualité des données.

Créer des relations

Outre la création du type de relation, les relations réelles doivent être établies avant que les résultats de règle ne soient publiés et utilisés dans un calcul du score. Vous devez déterminer les colonnes qui sont évaluées, selon quelles règles, et établir les relations appropriées.

Si les résultats de règle sont publiés pour un asset, mais qu’aucune relation n’est établie entre l’asset et la règle, ces résultats de règle ne seront pas pris en compte dans le calcul du score de qualité des données.

Il est essentiel que vous effectuiez les actions suivantes :

  1. Déterminer les assets qui sont évalués, et selon quelles règles.
  2. Créer la relation avec le prédicat d’évaluation.

Par exemple :

La colonne « Numéro de compte » dispose de trois règles de qualité des données exécutées chaque semaine :

  • La règle 1 a comme dimension « Conformité ».
  • La règle 2 a comme dimension « Exhaustivité ».
  • La règle 3 a comme dimension « Exactitude ».

Pour prendre en compte les résultats des trois règles, vous devez relier la colonne « Numéro de compte » à « Règle 1 », « Règle 2 » et « Règle 3 ».

Conseil : Si, pour une raison quelconque, des règles de qualité des données sont exécutées et que les résultats sont publiés pour un asset, mais que vous ne souhaitez pas qu’ils soient utilisés dans le calcul du score, n’établissez pas de relation entre cette règle et l’asset. Les résultats peuvent toujours être publiés, mais ils ne seront jamais utilisés dans le score de qualité des données.

Étape 2 : Construire les mesures et la définition du score de qualité des données

Une fois qu’un type de relation est établi pour un type de règle qui évalue un type d’asset, vous êtes prêt à configurer les mesures de qualité des données.

La principale différence entre une mesure de gouvernance et une mesure de qualité des données est que le résultat de la mesure est un nombre, plutôt que true ou false. Lorsqu’une mesure de gouvernance est évaluée, le résultat final est :

  • Les critères du test de réussite ont été respectés (true).

    ou :

  • Les critères du test de réussite n’ont pas été respectés (false).

La pondération ou la pondération ajustée est ensuite utilisée comme contribution de la mesure au score.

En matière de mesure de qualité des données, le résultat de la mesure est un nombre, qui est ensuite utilisé en conjonction avec la pondération, pour déterminer la contribution au score.

  • Résultat de la mesure : le résultat de la mesure, en fonction de la configuration.
  • Résultat de règle : le résultat de l’exécution d’une règle de qualité des données, qui inclut le nombre d’enregistrements ayant réussi et échoué.

Cela signifie ce qui suit :

  1. Créer les définitions d’attribution de score.

  2. Créer les mesures.

Structure d’une mesure de qualité des données

Mesures

1) Entrez les informations de base sur la mesure.

2) Sélectionnez les résultats de règle à utiliser dans le calcul et l’opérateur.

3) Définissez quand et comment appliquer la mesure à quels assets, et comment pondérer le résultat de la mesure.

4) Déterminez la pondération par défaut de la mesure.

Informations sur la mesure de base (1)

Les informations de base d’une mesure de qualité des données sont identiques à celles d’une mesure de gouvernance. La pondération entrée est la pondération par défaut de la mesure, qui n’est remplacée que si des groupes de conditions sont établis dans la mesure.

Pour plus d’informations, reportez-vous à Définitions d’attribution de score, Conditions et pondération des assets.

Section Résultats de règle (2)

La section Résultats de règle est essentielle. Elle est utilisée pour définir les résultats de règle utilisés dans le calcul du résultat de la mesure. Bien qu’une relation doive être établie entre la règle et l’asset auquel un score est attribué pour que le résultat soit pris en compte, la section des résultats de règle permet d’affiner les résultats utilisés pour une mesure particulière.

Sélection des résultats de la règle

Sous Sélection des résultats de la règle, vous pouvez trouver tous les chemins directs et indirects potentiels entre l’asset auquel un score est attribué et l’asset évalué par les règles. Cela indique au système comment accéder aux résultats de règle, via un chemin d’accès à la relation d’un asset à un autre.

Plus le niveau de l’asset est élevé, plus le chemin d’accès est long. Veillez donc à bien comprendre les relations, ainsi que la manière dont vous souhaitez respecter les règles.

Opération au niveau des résultats

Une fois que la sélection des résultats a été effectuée, vous choisissez une opération au niveau des résultats. Il s’agit de l’opération effectuée sur la fraction de réussite des résultats de règle, pour la mesure pertinente à la date d’entrée en vigueur.

Exemple 1 :

Une colonne est évaluée par trois règles et, le 1er avril 2021, les résultats publiés ont donné les fractions de réussite suivantes :

  • Fraction de réussite de la règle 1 (Conformité) = 0,92
  • Fraction de réussite de la règle 2 (Exhaustivité) = 0,93
  • Fraction de réussite de la règle 3 (Exactitude) = 0,94

Si l’opération au niveau des résultats est = Moyenne, le résultat de la mesure sera donc égal à 0,93.

Si l’opération au niveau des résultats est = Minimum, le résultat de la mesure sera donc égal à 0,92.

Si l’opération au niveau des résultats est = Maximum, le résultat de la mesure sera donc égal à 0,94.

Filtres de résultat de règle

Alors que la section Résultats de règle fournit le chemin d’accès aux résultats de règle et l’opération à effectuer sur la fraction de réussite, les filtres de résultat de règle vous permettent d’affiner davantage les résultats de règle qui doivent être utilisés dans la mesure. Les filtres sont principalement appliqués lorsque vous souhaitez pondérer les règles différemment, en fonction d’une propriété de la règle elle-même, telle que « Dimension ».

Pour les assets de niveau supérieur ou les assets qui ont plusieurs relations dans le chemin d’accès, les filtres peuvent être utilisés pour pondérer les résultats différemment, en fonction des propriétés d’un asset au milieu du chemin d’accès à la relation.

Exemple 2 :

Les calculs ci-dessus, dans l’exemple 1, sont à nouveau utilisés mais, cette fois, le filtre de résultat de règle appliqué est Dimension = Conformité. Ensuite, seuls les résultats de la règle 1 seront utilisés pour déterminer le résultat de la mesure pour cette colonne.

Remarque : Si le filtrage des résultats de règle aboutit à un seul résultat de règle à utiliser, cette fraction de réussite sera utilisée dans le résultat de la mesure. L’opération au niveau des résultats n’est pas prise en compte s’il n’y a qu’un seul résultat de règle.

Le schéma suivant montre les résultats de règle qui seraient utilisés pour noter Colonne 1 et Colonne 2 lorsque le filtre de résultat de règle est Dimension = Conformité. Un résultat est trouvé pour Colonne 1 et un autre pour Colonne 2.

Dimension = Conformité

Exemple 3 :

Si vous attribuez un score à un terme métier qui est mappé à des colonnes, qui à leur tour sont évaluées par des règles, vous pouvez utiliser les filtres de résultat de règle pour pondérer les résultats en fonction des propriétés de règle ou de colonne.

Si vous appliquez le même filtre de résultat Dimension = Conformité à la mesure Terme métier A, la règle fournira à nouveau un résultat pour Colonne 1 et un pour Colonne 2 :

Terme métier A

Les opérations au niveau des résultats de type moyen, minimum et maximum sont effectuées sur les deux résultats fournis par Dimension = Conformité.

Exemple 4 :

Si vous appliquez le filtre de résultat de règle « Colonne : Élément de données critiques : Oui ». Ces résultats sont ensuite utilisés pour calculer le résultat de la mesure Terme métier A :

Élément de données critiques

Les opérations au niveau des résultats de type moyen, minimum et maximum sont effectuées sur les trois résultats fournis pour la colonne 1.

La section Résultats de règle de la mesure détermine les résultats de règle à utiliser et l’opération à effectuer sur les résultats trouvés.

Conditions et pondération des assets (3)

Ici, vous déterminez quand appliquer la mesure et si certains assets auquel un score est attribué doivent utiliser une pondération différente.

Les conditions et la pondération des assets fonctionnent de la même manière dans les mesures de qualité des données que dans les mesures de gouvernance. Elles déterminent si la mesure doit vraiment s’appliquer et, le cas échéant, si la pondération de la mesure diffère en fonction des différentes propriétés des assets. Pour plus d’informations, reportez-vous à Définitions d’attribution de score, Conditions et pondération des assets.

Noter uniquement les colonnes qui sont des éléments de données critiques est un exemple simple d’utilisation des conditions dans le score de qualité des données. Dans ce cas, vous ajoutez une condition à la mesure indiquant « Élément de données critique = True ».

Pour obtenir plus d’exemples de définitions de scores de qualité des données calculés en interne, reportez-vous à Exemples de scores de qualité des données calculés en interne.

Étape 3 : Publier les résultats de règle

Une fois que vous avez créé les relations et configuré la mesure vient le moment de l’obtention d’un score.

Le calcul du score de qualité des données est déclenché dans les scénarios suivants :

  • Lorsqu’un résultat de règle est publié, mis à jour ou supprimé.
  • Lorsqu’une mesure d’attribution de score est créée et que des résultats de règle existent pour la date d’entrée en vigueur des mesures.

Publier les résultats

Selon l’endroit où vos règles de qualité des données sont exécutées, l’affichage des résultats est simple et se fait via l’API /api/v2/metrics/quality/results. Si vous utilisez Swagger, vous pouvez le trouver sous la section Métriques.

Résultats de règle existants

Si vous disposez de résultats de règle existants et souhaitez les utiliser pour calculer le score de qualité des données, il y a quelques points à prendre en compte pour les dates historiques.

  • Le résultat de règle doit être lié à un asset.

    Avant que le score de qualité des données ne soit disponible, vous pouviez publier les résultats d’une règle, mais vous n’aviez pas besoin d’afficher l’asset auquel le résultat était destiné. Vous pouvez utiliser l’opération PUT dans l’API de requête pour mettre à jour les résultats de règle avec l’asset approprié.

  • La date d’entrée en vigueur du résultat doit être égale ou ultérieure à la date d’entrée en vigueur de la mesure.

    Si vous avez des résultats de règle datant du 1er janvier 2020 et que vous définissez une mesure dont la date d’entrée en vigueur est le 2 février 2021, le système recherchera les résultats de règle dont les dates d’entrée en vigueur est le 2 février 2021 ou après.

  • Le type de relation et les relations entre l’asset et les règles doivent être établis avant de configurer la mesure.

Conseils et suggestions

Quand créer une mesure ?

Une partie de la configuration d’un score de qualité des données consiste à comprendre quand vous devez créer une mesure différente. Voici certains scénarios qui permettent de déterminer quand cela peut s’avérer nécessaire.

  • Vous pouvez créer un score de qualité des données avec une seule mesure, si celle-ci répond à vos critères de calcul du score.

    Cette mesure prend la moyenne de tous les résultats de règle pour un asset, à la date d’entrée en vigueur. Ce scénario suppose que vos règles de qualité des données se trouvent sous un seul type de règle.

  • Si vos règles de qualité des données se trouvent sous différents types de règles, vous avez besoin d’une mesure différente pour chaque type de règle.

    En effet, vous aurez un type de relation différent avec l’asset auquel un score est attribué, et ce, pour chaque type de règle.

  • Si vous souhaitez que les différentes dimensions des règles soient pondérées différemment, configurez une mesure pour chaque dimension, en utilisant les filtres de résultat de règle.
  • Si vous souhaitez que la même dimension de règle soit pondérée différemment pour différents assets, cela est possible avec la pondération et les conditions des assets.

Comprendre les résultats de règle utilisés dans un résultat de mesure

Le sous-onglet Calcul, dans l’onglet d’attribution d’un score pour un score de qualité des données, comporte une option « Afficher les résultats de la règle ». Vous pouvez ainsi afficher une liste des résultats de règle qui ont été utilisés dans le calcul du résultat de la mesure.

Lorsqu’un résultat de règle est publié, un nouveau score sera calculé avec la date d’entrée en vigueur du résultat de règle

Le score de qualité des données part du principe que les règles de qualité des données sont exécutées pour un asset à un jour précis. Cela signifie qu’au niveau des colonnes, vous pouvez vous attendre à ce que les résultats de règle correspondent à une date d’entrée en vigueur, qui sera la date d’entrée en vigueur du score.

Dans le cas où un asset de niveau supérieur se voit attribuer un score, qui est mappé à son tour à plusieurs assets de niveau inférieur différents, tels que des colonnes, toutes les règles ne peuvent pas être exécutées le même jour. Vous pouvez obtenir des résultats qui sont utilisés dans le calcul d’un score tout au long de la semaine. Dans ce cas, le système affichera les résultats de règle précédente, le cas échéant. Par conséquent, vous pouvez voir des dates d’entrée en vigueur différentes lorsque vous cliquez sur « Afficher les résultats de la règle ».

Par exemple :

Le terme métier A est mappé à Table 1 > Colonne 1 et à Table 2 > Colonne 2. Les règles de qualité des données pour Colonne 1 sont exécutées le 1er avril, tandis qu’elles sont exécutées le 5 avril pour Colonne 2.

  • Lorsque les résultats de règle sont affichés pour Colonne 1 le 1er avril, un score sera calculé pour le 1er avril. Les résultats de Colonne 2 seront considérés comme nuls (0), car le score attend les résultats de règle pour Colonne 1 et Colonne 2.
  • Lorsque les résultats de règle sont publiés pour Colonne 2 le 5 avril, un score sera calculé pour le 5 avril. Il utilisera les résultats des règles du 1er avril pour Colonne 1 et du 5 avril pour Colonne 2. Lorsque vous cliquez sur « Afficher les résultats de la règle » pour le 5 avril, vous verrez les deux différentes dates d’entrée en vigueur utilisées.