Tutorial – Erstellen interner Datenqualitätsscores - Data360_Govern - Neuheiten

Data360 Govern – Hilfe

Product type
Software
Portfolio
Verify
Product family
Data360
Product
Data360 Govern
Precisely Data Integrity Suite > Govern
Version
Neuheiten
Language
Deutsch
Product name
Data360 Govern
Title
Data360 Govern – Hilfe
Copyright
2024
First publish date
2014

In diesem Thema werden die Schritte beschrieben, die zur Vorbereitung und Konfiguration von internen Datenqualitätsscores erforderlich sind.

Vor der Konfiguration eines Scores

Bevor Sie mit der Konfiguration der Berechnung Ihrer Datenqualitätsscores beginnen, müssen Sie wissen, wie Sie Ihren Score ermitteln wollen. Der Datenqualitätsscore eines Assets besteht aus Datenqualitätsregelergebnissen für ein Gültigkeitsdatum. Sie müssen die vorhandenen Datenqualitätsregeln, die Assets, auf die sie angewendet werden, und ihre Bedeutung verstehen. Hier ist eine Liste mit allgemeinen Fragen, die Sie bei der Formulierung Ihrer Konfiguration unterstützen:

  • Welche Assets möchten Sie bewerten?

    Beispiel: Alle Assets vom Typ Datenbank > Schema > Tabelle > Spalte.

  • Beziehen sich Ihre Datenqualitätsregeln alle auf einen Regeltyp, oder sind es mehrere Typen?

  • Sind einige Datenqualitätsregeln wichtiger als andere? Und sollten sie mehr zum Score beitragen?

    Ist z. B. eine Regel mit einer Qualitätsdimension von „Konformität“ wichtiger als eine Regel für „Duplizierung“?

  • Ist die Bedeutung des Datenqualitätsergebnisses davon abhängig, um welche Art von Asset es sich handelt?

    Wenn eine Spalte beispielsweise als „kritisches Datenelement“ gekennzeichnet ist, sollte die „Genauigkeit“-Regel mehr Gewichtung erhalten als die „Nullanzahl“-Regel?

Solche Fragen müssen beantwortet und verstanden werden, bevor Sie beginnen, da sie alle wesentliche Auswirkungen auf die Konfiguration der Bewertungswerte haben.

Schritt 1: Beziehungstypen und Beziehungen festlegen

Damit ein Datenqualitätsregelergebnis für den Score eines Assets berücksichtigt wird, muss das Asset über den Prädikat-Funktionstyp „Evaluierung“ direkt oder indirekt mit einer Regel verknüpft sein.

Da Datenqualitätsregeln auf der niedrigsten Ebene eines technischen Assets ausgeführt werden (wie eine Spalte oder ein Datenelement), sollten Regeln in diesem Fall direkt verknüpft sein. Zum Beispiel „Regeln evaluieren Spalten“.

Eine indirekte Beziehung zur Regel bedeutet, dass es auf einer höheren Ebene einen Beziehungspfad vom bewerteten Asset zu einem Asset gibt, das von Regeln evaluiert wird. Solange eine direkte Beziehung besteht, können Assets auf höherer Ebene bewertet werden, indem Sie den Beziehungspfad auswählen, der in einem Evaluierungsprädikat und einem Regeltyp endet.

Sie müssen die direkte Beziehung eines Assets zu einer Regel festlegen. Govern bestimmt dann die indirekten Beziehungspfade für Assets höherer Ebene basierend auf vorhandenen Beziehungen.

Beispiel:

Um einen Business-Begriff zu bewerten, der Spalten zugeordnet ist, müssen Sie zunächst die Beziehung zwischen Spalten und Regeln festlegen:

  1. Erstellen Sie einen Regeltyp und einzelne Regeln.

  2. Erstellen Sie einen Beziehungstyp „Regeln evaluieren Spalte“.

    Bei der Erstellung einer Score-Definition für Business-Begriffe schließt die Auswahl der Regelergebnisse den Beziehungspfad „Business-Begriffe werden Spalten zugeordnet, die durch Regeln evaluiert werden“ ein.

    Weitere Informationen finden Sie unter Struktur einer Datenqualitätsmessgröße.

Erstellen von Beziehungen

Zusätzlich zur Erstellung des Beziehungstyps müssen die tatsächlichen Beziehungen eingerichtet werden, bevor Regelergebnisse gepostet und in einer Score-Berechnung verwendet werden. Sie müssen festlegen, welche Spalten evaluiert werden, und von welchen Regeln, und die entsprechenden Beziehungen einrichten.

Wenn Regelergebnisse für ein Asset gepostet werden, aber keine Beziehung zwischen dem Asset und der Regel eingerichtet wurde, werden diese Regelergebnisse bei der Berechnung des Datenqualitätsscores nicht berücksichtigt.

Es ist wichtig, dass Sie:

  1. Die Assets festlegen, die evaluiert werden, und nach welchen Regeln.
  2. Die Beziehung mit dem Evaluierungsprädikat erstellen.

Beispiel:

Die Spalte „Kontonummer“ enthält 3 Datenqualitätsregeln, die wöchentlich auf sie angewendet werden:

  • Regel 1 hat die Dimension „Konformität“.
  • Regel 2 hat die Dimension „Vollständigkeit“.
  • Regel 3 mit der Dimension „Genauigkeit“.

Um Ergebnisse aus allen drei Regeln zu berücksichtigen, müssen Sie die Spalte „Kontonummer“ mit „Regel 1“, „Regel 2“ und „Regel 3“ verknüpfen.

Tipp: Wenn aus irgendwelchem Grund Datenqualitätsregeln ausgeführt werden und die Ergebnisse für ein Asset gepostet werden, Sie aber nicht möchten, dass diese bei der Score-Berechnung verwendet werden, sollten Sie keine Beziehung zwischen dieser Regel und dem Asset einrichten. Ergebnisse können weiterhin gepostet werden, werden jedoch niemals im Datenqualitätsscore verwendet.

Schritt 2: Erstellen der Datenqualitätsscore-Definition und Messgrößen

Sobald ein Beziehungstyp für einen Regeltyp zur Evaluierung eines Asset-Typs eingerichtet ist, können Sie die Datenqualitätsmessgrößen konfigurieren.

Der Hauptunterschied zwischen einer Governance-Messgröße und einer Datenqualitätsmessgröße besteht darin, dass das Ergebnis der Messgröße eine Zahl ist, nicht true oder false. Wenn eine Governance-Messgröße evaluiert wird, ist das Endergebnis entweder:

  • Die Kriterien für „Test bestanden“ wurden erfüllt (true).

    oder:

  • Die Kriterien für „Test bestanden“ wurden nicht erfüllt (false).

Die Gewichtung oder angepasste Gewichtung wird dann als Beitrag der Messgröße zum Score verwendet.

Bei einer Datenqualitätsmessgröße ist das Messergebnis eine Zahl, die dann zusammen mit der Gewichtung zur Bestimmung des Beitrags zum Score verwendet wird.

  • Messergebnis: Das Ergebnis der Messgröße basierend auf der Konfiguration.
  • Regelergebnis: Das Ergebnis der Ausführung einer Datenqualitätsregel, das die Anzahl der Datensätze beinhaltet, die bestanden bzw. die nicht bestanden haben.

Dies bedeutet:

  1. Erstellen Sie die Bewertungsdefinitionen.

  2. Erstellen Sie die Messgrößen.

Struktur einer Datenqualitätsmessgröße

Messgrößen

1) Geben Sie die grundlegenden Informationen für die Messgrößen ein.

2) Wählen Sie die Regelergebnisse für die Berechnung und den Operator aus.

3) Definieren Sie, wann und wie die Messgröße auf welche Assets angewendet wird und wie das Messergebnis gewichtet werden soll.

4) Standardgewichtung der Messgröße.

Grundlegende Informationen zur Messgröße (1)

Die grundlegenden Informationen für eine Datenqualitätsmessgröße sind die gleichen wie für eine Governance-Messgröße. Die eingegebene Gewichtung ist die Standardgewichtung für die Messgröße, die nur überschrieben wird, wenn innerhalb der Messgröße Bedingungsgruppen eingerichtet wurden.

Weitere Informationen finden Sie unter Bewertungsdefinitionen, Asset-Bedingungen und -Gewichtung.

Abschnitt Regelergebnisse (2)

Der Abschnitt Regelergebnisse ist von maßgeblicher Bedeutung. Er wird verwendet, um die Regelergebnisse zu definieren, die bei der Berechnung des Messgrößenergebnisses verwendet werden. Sie müssen zwar eine Beziehung zwischen der Regel und dem zu bewertenden Asset festlegen, damit das Ergebnis berücksichtigt wird, aber im Abschnitt „Regelergebnis“ können Sie die für eine bestimmte Messgröße verwendeten Ergebnisse weiter aufschlüsseln.

Auswahl der Regelergebnisse

Unter Auswahl der Regelergebnisse finden Sie alle potenziellen direkten und indirekten Pfade vom bewerteten Asset bis hin zum von den Regeln evaluierten Asset. Damit wird dem System mitgeteilt, wie es über einen Beziehungspfad von einem Asset zu einem anderen zu den Regelergebnissen gelangt.

Je höher die Asset-Ebene, desto länger der Pfad. Stellen Sie daher sicher, dass Sie die Beziehungen verstehen, und auch, wie Sie zu den Regeln gelangen.

Ergebnis-Operation

Wählen Sie nach der Ergebnisauswahl eine Ergebnis-Operation aus. Dies ist die Operation, die für den Anteil (bestanden) der Regelergebnisse für die relevante Messgröße am Gültigkeitsdatum ausgeführt wird.

Beispiel 1:

Eine Spalte wird durch drei Regeln evaluiert. Am 1. April 2021 wurden Ergebnisse gepostet, die die folgenden Anteile (bestanden) ergaben:

  • Regel 1 (Konformität) Anteil (bestanden) = 0,92
  • Regel 2 (Vollständigkeit) Anteil (bestanden) = 0,93
  • Regel 3 (Genauigkeit) Anteil (bestanden) = 0,94

Wenn die Ergebnis-Operation = Durchschnitt ist, entspricht das Messgrößenergebnis 0,93.

Wenn die Ergebnis-Operation = Minimum ist, entspricht das Messgrößenergebnis 0,92.

Wenn die Ergebnis-Operation = Maximum ist, entspricht das Messgrößenergebnis 0,94.

Regelergebnis-Filter

Der Abschnitt Regelergebnisse enthält den Pfad zu Regelergebnissen und die Operation, die für den Anteil (bestanden) ausgeführt werden soll. Mit den Regelergebnis-Filtern können Sie die Regelergebnisse, die in der Messgröße verwendet werden sollen, weiter aufschlüsseln. Die Filter werden hauptsächlich angewendet, wenn Sie Regeln unterschiedlich gewichten möchten, abhängig von einer Eigenschaft der eigentlichen Regel, z. B. „Dimension“.

Bei Assets höherer Ebene oder Assets mit mehr als einer Beziehung im Pfad können Sie Filter verwenden, um die Ergebnisse unterschiedlich zu gewichten, abhängig von den Eigenschaften eines Assets irgendwo in der Mitte des Beziehungspfades.

Beispiel 2:

Es werden wieder die obigen Berechnungen aus Beispiel 1 verwendet, hier wird jedoch der Regelergebnis-Filter „Dimension = Konformität“ angewendet. Dann würden nur die Ergebnisse von Regel 1 verwendet, um das Ergebnis der Messgröße für diese Spalte zu bestimmen.

Anmerkung: Wenn sich beim Filtern der Regelergebnisse nur ein Regelergebnis ergibt, das verwendet werden soll, wird dieser Anteil (bestanden) im Messgrößenergebnis verwendet. Die Ergebnis-Operation wird nicht verwendet, wenn es nur ein Regelergebnis gibt.

Das folgende Diagramm zeigt die Regelergebnisse, die für die Bewertung der Spalten 1 und 2 verwendet würden, wenn der Regelergebnis-Filter „Dimension = Konformität“ ist. Es wird ein Ergebnis für Spalte 1 und ein weiteres für Spalte 2 gefunden.

Dimension = Konformität

Beispiel 3:

Wenn Sie einen Business-Begriff bewerten, der Spalten zugeordnet wird, die wiederum durch Regeln evaluiert werden, können Sie die Ergebnisse mithilfe der Regelergebnis-Filter anhand der Regel- oder Spalteneigenschaften gewichten.

Wenn Sie denselben „Dimension = Konformität“-Ergebnisfilter auf „Business-Begriff A“ anwenden, liefert die Regel erneut ein Ergebnis für Spalte 1 und ein weiteres für Spalte 2:

Business-Begriff A

Die Ergebnis-Operationen „Durchschnitt“, „Minimum“ und „Maximum“ werden für die beiden von „Dimension = Konformität“ erzeugten Ergebnisse ausgeführt.

Beispiel 4:

Wenn Sie den Regelergebnis-Filter „Spalte: Kritisches Datenelement: Ja“ anwenden, werden die folgenden Ergebnisse zur Berechnung der Messgröße „Business-Begriff A“ verwendet:

Kritisches Datenelement

Die Ergebnis-Operationen „Durchschnitt“, „Minimum“ und „Maximum“ werden für die drei für Spalte 1 bereitgestellten Ergebnisse ausgeführt.

Der Abschnitt Regelergebnisse der Messgröße bestimmt die zu verwendenden Regelergebnisse und die auf die ermittelten Ergebnisse auszuführende Operation.

Asset-Bedingungen und -Gewichtung (3)

Hier legen Sie fest, wann die Messgröße angewendet werden soll und ob bestimmte bewertete Assets unter Verwendung einer anderen Gewichtung bewertet werden sollen.

Asset-Bedingungen und -Gewichtung verhalten sich in Datenqualitätsmessgrößen genauso wie in Governance-Messgrößen. Sie bestimmen, ob die Messgröße überhaupt angewendet werden soll, und wenn ja, ob sich die Gewichtung der Messgröße je nach den unterschiedlichen Asset-Eigenschaften unterscheidet. Weitere Informationen finden Sie unter Bewertungsdefinitionen, Asset-Bedingungen und -Gewichtung.

Ein einfaches Beispiel für die Verwendung von Bedingungen im Datenqualitätsscore ist, wenn Sie nur Spalten bewerten möchten, bei denen es sich um kritische Datenelemente handelt. In diesem Fall geben Sie für die Messgröße eine Bedingung mit der Angabe „Kritisches Datenelement = True“ ein.

Weitere Beispiele für intern berechnete Datenqualitätsscore-Definitionen finden Sie unter Beispiele für intern berechnete Datenqualitätsscores.

Schritt 3: Posten von Regelergebnissen

Sobald Sie die Beziehungen erstellt und die Messgröße konfiguriert haben, können Sie einen Score erhalten.

Die Berechnung des Datenqualitätsscores wird in den folgenden Szenarien ausgelöst:

  • Ein Regelergebnis wird gepostet, aktualisiert oder gelöscht.
  • Eine Bewertungsmessgröße wird erstellt und es gibt Regelergebnisse für das Gültigkeitsdatum der Messgröße.

Posten der Ergebnisse

Je nachdem, wo Ihre Datenqualitätsregeln ausgeführt werden, werden die Ergebnisse ganz einfach über die API /api/v2/metrics/quality/results gepostet. Wenn Sie Swagger verwenden, finden Sie sie im Abschnitt Metriken.

Vorhandene Regelergebnisse

Wenn Sie bereits Regelergebnisse haben und diese zur Berechnung des Datenqualitätsscores verwenden möchten, müssen Sie einige Dinge für frühere Daten berücksichtigen.

  • Das Regelergebnis muss mit einem Asset verknüpft sein.

    Bevor der Datenqualitätsscore bereitgestellt wurde, konnten Sie Regelergebnisse für eine Regel posten, aber Sie mussten nicht das Asset anzeigen, für das das Ergebnis bestimmt war. Sie können die PUT-Operation in der Anforderungs-API verwenden, um alle vorhandenen Regelergebnisse mit dem entsprechenden Asset zu aktualisieren.

  • Das Gültigkeitsdatum des Ergebnisses muss nach dem Gültigkeitsdatum der Messgröße liegen.

    Wenn Sie Regelergebnisse ab 1. Januar 2020 haben und eine Messgröße mit dem Gültigkeitsdatum 2. Februar 2021 einrichten, sucht das System nach Regelergebnissen mit Gültigkeitsdaten ab 2. Februar 2021.

  • Vor dem Einrichten der Messgröße müssen sowohl der Beziehungstyp als auch die Beziehungen vom Asset zu den Regeln festgelegt werden.

Tipps und Vorschläge

Wann erstelle ich eine neue Messgröße?

Zur Konfiguration eines Datenqualitätsscores gehört auch das Verständnis, wann Sie eine andere Messgröße erstellen müssen. Hier einige Szenarien, anhand derer Sie erkennen können, wann es notwendig sein kann.

  • Sie können einen Datenqualitätsscore nur mit einer Messgröße erstellen, wenn diese Ihre Kriterien für die Berechnung des Scores erfüllt.

    Diese Messgröße ermittelt den Durchschnitt aller Regelergebnisse für ein Asset am Gültigkeitsdatum. Dieses Szenario geht davon aus, dass Sie Ihre Datenqualitätsregeln unter einem einzigen Regeltyp haben.

  • Wenn sich Ihre Datenqualitätsregeln unter verschiedenen Regeltypen befinden, benötigen Sie für jeden Regeltyp eine andere Messgröße.

    Dies liegt daran, dass Sie für jeden Regeltyp einen anderen Beziehungstyp zu dem zu bewertende Asset haben.

  • Wenn Sie möchten, dass unterschiedliche Regeldimensionen unterschiedlich gewichtet werden, richten Sie mithilfe der Regelergebnis-Filter eine Messgröße für jede Dimension ein.
  • Wenn Sie möchten, dass dieselbe Regeldimension für unterschiedliche Assets unterschiedlich gewichtet wird, können Sie dies mit Asset-Gewichtung und -Bedingungen umsetzen.

Die in einem Messgrößenergebnis verwendeten Regelergebnisse verstehen

Die Unterregisterkarte „Berechnung“ auf der Registerkarte „Bewertung“ für eine Datenqualitätsscore enthält die Option „Regelergebnisse anzeigen“. Damit wird eine Liste der Regelergebnisse angezeigt, die bei der Berechnung des Messgrößenergebnisses verwendet wurden.

Wenn ein Regelergebnis gepostet wird, wird ein neuer Score mit dem Gültigkeitsdatum des Regelergebnisses berechnet.

Für den Datenqualitätsscore wird angenommen, dass Datenqualitätsregeln für ein Asset an einem bestimmten Tag ausgeführt werden. Dies bedeutet, dass Sie auf Spaltenebene erwarten können, dass Regelergebnisse für ein Gültigkeitsdatum eingehen, bei dem es sich um das Gültigkeitsdatum des Scores handelt.

Wenn ein Asset auf höherer Ebene bewertet wird, das wiederum mehreren unterschiedlichen Assets auf niedriger Ebene zugeordnet ist, wie beispielsweise Spalten, werden möglicherweise nicht alle Regeln am selben Tag ausgeführt. Sie erhalten möglicherweise Ergebnisse, die bei der Berechnung eines Scores im Laufe der Woche verwendet werden. In diesem Fall zeigt das System die vorherigen Regelergebnisse an, sofern verfügbar. Dadurch können unterschiedliche Gültigkeitsdaten angezeigt werden, wenn Sie auf „Regelergebnisse anzeigen“ klicken.

Beispiel:

Business-Begriff A ordnet Tabelle 1 > Spalte 1 und Tabelle 2 > Spalte 2 zu. Datenqualitätsregeln für Spalte 1 werden am 1. April ausgeführt, während sie für Spalte 2 am 5. April ausgeführt werden.

  • Wenn Regelergebnisse für Spalte 1 am 1. April gepostet werden, wird ein Score für Spalte 1 berechnet. Die Ergebnisse für Spalte 2 werden als Null (0) gezählt, da der Score Regelergebnisse für Spalte 1 und Spalte 2 erwartet.
  • Wenn die Regelergebnisse für Spalte 2 am 5. April gepostet werden, wird ein Score für den 5. April berechnet. Dabei werden die Regelergebnisse vom 1. April für Spalte 1 und vom 5. April für Spalte 2 verwendet. Wenn Sie auf „Regelergebnisse anzeigen“ klicken, werden Ihnen die beiden unterschiedlichen Gültigkeitsdaten angezeigt.