Tutorial: Creación de puntuaciones de calidad de datos internas - Data360_Govern - Más reciente

Ayuda de Data360 Govern

Product type
Software
Portfolio
Verify
Product family
Data360
Product
Precisely Data Integrity Suite > Govern
Data360 Govern
Version
Más reciente
Language
Español (España)
Product name
Data360 Govern
Title
Ayuda de Data360 Govern
Copyright
2024
First publish date
2014

En este tema se explican los pasos necesarios para preparar y configurar las puntuaciones de calidad de datos internas.

Antes de configurar una puntuación.

Antes de comenzar a configurar el cálculo de su puntuación de calidad de los datos, es importante que sepa de qué manera desea determinar su puntuación. La puntuación de calidad de los datos de cualquier activo se compone de los resultados de las reglas de calidad de datos para una fecha efectiva. Debe comprender las reglas de calidad de datos que están implementadas, los activos a los que se aplican y la importancia de cada uno. A continuación se ofrece una lista de preguntas generales que le ayudarán a formular su configuración:

  • ¿Qué activo desea puntuar?

    Por ejemplo, todos los activos del tipo Base de datos > Esquema > Tabla > Columna.

  • ¿Todas sus reglas de calidad de datos pertenecen a un tipo de regla o hay más de un tipo?

  • ¿Algunas reglas de calidad de datos son más importantes que otras? Y, en ese caso, ¿deben contribuir en mayor medida a la puntuación?

    ¿Por ejemplo, es más importante una regla con una dimensión de calidad de "Conformidad" que una regla para "Duplicación"?

  • ¿La importancia del resultado de la calidad de datos depende del tipo de activo?

    Por ejemplo, si una columna se marca como "Elemento de datos críticos", ¿debe tener la regla "Precisión" mayor ponderación que la regla "Recuento nulo"?

Estos son los tipos de preguntas a los que se debe responder y comprender antes de empezar, ya que cada una tiene un impacto significativo en la configuración de las medidas de puntuación.

Paso 1: establezca los tipos de relaciones y las relaciones.

Para que se tenga en cuenta el resultado de una regla de calidad de datos en la puntuación de un activo, este debe estar relacionado con una regla, directa o indirectamente, a través del tipo funcional de predicado "Evaluación".

Dado que las reglas de calidad de datos se ejecutan en el nivel más bajo de un activo técnico (como una columna o un elemento de datos), las reglas deben estar directamente relacionadas en ese caso. Por ejemplo, las reglas evalúan las columnas.

Si se relaciona indirectamente con la regla significa que, en un nivel superior, existe una ruta de relación desde el activo que se puntúa hasta un activo que se evalúa mediante reglas. Mientras exista una relación directa, los activos de un nivel más alto se pueden puntuar seleccionando la ruta de relación que finaliza en un predicado y tipo de regla de la evaluación.

Debe establecer una relación directa entre un activo y una regla. Luego, Govern determinará las rutas de las relaciones indirectas para los activos de mayor nivel, en función de las relaciones existentes.

Por ejemplo:

Para evaluar un término empresarial que se asigna a las columnas, primero debe establecer la relación entre las columnas y las reglas:

  1. Cree un tipo de regla y reglas individuales.

  2. Cree un tipo de relación "Las reglas evalúan columnas".

    Al crear una definición de puntuación de términos empresariales, la selección de resultados de la regla incluirá la ruta de las relaciones de las "Asignaciones de términos empresariales a las columnas, evaluadas por reglas".

    Para obtener más información, consulte Estructura de una medida de calidad de datos.

Creación de relaciones

Además de crear el tipo de relación, es necesario establecer las relaciones reales antes de publicar los resultados de las reglas y utilizarlos en cualquier cálculo de puntuación. Debe determinar las columnas que se evalúan, por qué reglas y establecer las relaciones adecuadas.

Si se publican los resultados de las reglas para un activo, pero no se ha establecido ninguna relación entre el activo y la regla, esos resultados de la regla no se tendrán en cuenta en el cálculo de la puntuación de calidad de los datos.

Es vital que:

  1. Determine los activos evaluados y por qué reglas.
  2. Cree la relación con el predicado de la evaluación.

Por ejemplo:

La columna "Número de cuenta" tiene tres reglas de calidad de datos, que se ejecutan en la columna cada semana:

  • La regla 1 tiene una dimensión de "Conformidad".
  • La regla 2 tiene una dimensión de "Completitud".
  • La regla 3 con una dimensión de "Precisión".

Para que se tengan en cuenta los resultados de las tres reglas, debe relacionar la columna "Número de cuenta" con la "Regla 1", la "Regla 2" y la "Regla 3".

Consejo: Si, por cualquier motivo, se ejecutan reglas de calidad de datos y se publican los resultados para un activo, pero no desea que se utilicen en el cálculo de la puntuación, no establezca una relación entre dicha regla y el activo. Se pueden publicar los resultados, pero nunca se utilizarán en la puntuación de calidad de los datos.

Paso 2: cree la definición y las medidas de la puntuación de calidad de los datos.

Una vez que se establece un tipo de relación para un tipo de regla para evaluar un tipo de activo, está listo para configurar las medidas de calidad de los datos.

La principal diferencia entre una medida de gobierno y una medida de calidad de datos es que el resultado de la medida es un número, en lugar de true o false. Cuando se evalúa una medida de gobierno, el resultado final es:

  • Se cumplieron los criterios de la prueba de aprobado (true).

    o:

  • No se cumplieron los criterios de la prueba de aprobado (false).

La ponderación o la ponderación ajustada se utiliza como la contribución de la medida a la puntuación.

Cuando se trata de una medida de calidad de datos, el resultado de la medida es un número, que luego se utiliza junto con la ponderación para determinar la contribución a la puntuación.

  • Resultado de la medida: El resultado de la medida basada en la configuración.
  • Resultado de la regla: El resultado de la ejecución de una regla de calidad de datos, que incluye el número de registros aprobados y suspensos.

Esto significa:

  1. Crear las Definiciones de puntuación.

  2. Crear las medidas.

Estructura de una medida de calidad de datos

Medidas

1) Introduzca la información básica de la medida.

2) Seleccione los resultados de la regla que se utilizarán en el cálculo y el operador.

3) Defina cuándo y cómo aplicar la medida a qué activos, y cómo ponderar el resultado de la medida.

4) Ponderación predeterminada de la medida.

Información básica de la medida (1)

La información básica para una medida de calidad de datos es la misma que para una medida de gobierno. La ponderación introducida es la ponderación predeterminada de la medida, que solo se anula si hay grupos de condiciones establecidos dentro de la medida.

Para obtener más información, consulte Definiciones de puntuación, Condiciones y ponderación de los activos.

Sección Resultados de las reglas (2)

La sección Resultados de las reglas es clave. Se utiliza para definir los resultados de las reglas que se utilizan en el cálculo del resultado de la medida. Aunque debe establecerse una relación entre la regla y el activo que se está puntuando para que se tenga en cuenta el resultado, la sección de resultados de la regla es donde puede refinar aún más los resultados que se utilizan para una medida en particular.

Selección de resultados de reglas

En Selección de resultados de reglas, puede encontrar todas las rutas directas e indirectas posibles del activo que se está puntuando al activo que evalúan las reglas. Esto le indica al sistema cómo llegar a los resultados de la regla a través de una ruta de relación de un activo a otro.

Cuanto mayor sea el nivel del activo, más larga será la ruta, por lo que debe asegurarse de comprender las relaciones, así como la forma en que desea aplicar las reglas.

Operación de resultados

Una vez realizada la selección del resultado, se elige una Operación de resultados. Esta es la operación que se realiza en la fracción de aprobados de los resultados de reglas para la medida correspondiente en la fecha efectiva.

Ejemplo 1:

Una columna se evalúa mediante tres reglas y, el 1 de abril de 2021, se publicaron resultados que proporcionaban las siguientes fracciones de aprobados:

  • Regla 1 (Conformidad), fracción de aprobados = 0,92
  • Regla 2 (Completitud), fracción de aprobados = 0,93
  • Regla 3 (Precisión), fracción de aprobados = 0,94

Si la operación de resultados es = promedio, el resultado de la medida sería igual a 0,93.

Si la operación de resultados es = mínimo, el resultado de la medida sería igual a 0,92.

Si la operación de resultados es = máximo, el resultado de la medida sería igual a 0,94.

Filtros del resultado de la regla

Mientras que la sección Resultados de reglas proporciona la ruta a los resultados de reglas y la operación que se realizará en la fracción de aprobados, los Filtros del resultado de la regla le permiten refinar aún más los resultados de la regla que se utilizarán en la medida. Los filtros se aplican principalmente cuando se desea ponderar las reglas de forma diferente, según una propiedad de la propia regla, como la "Dimensión".

Para los activos de un nivel superior o que tienen más de una relación en la ruta, se pueden utilizar filtros para ponderar los resultados de manera diferente, a partir de las propiedades de un activo en el medio de la ruta de la relación.

Ejemplo 2:

Se vuelven a utilizar los cálculos anteriores en el ejemplo 1, pero esta vez, el filtro del resultado de la regla aplicado es Dimensión = Conformidad. Por tanto, solo se utilizarían los resultados de la regla 1 para determinar el resultado de la medida para esa columna.

Nota: Si al filtrar los resultados de la regla se obtiene solo un resultado de la regla para usar, se utilizará esa fracción de aprobados en el resultado de la medida. La Operación de resultados no entra en funcionamiento si hay solo un resultado de regla.

El siguiente diagrama muestra los resultados de la regla que se utilizarían para puntuar la columna 1 y la columna 2 cuando el filtro del resultado de la regla sea Dimensión = Conformidad. Se ha encontrado un resultado para la columna 1 y uno para la columna 2.

Dimensión = Conformidad

Ejemplo 3:

Si está puntuando un término empresarial que se asigna a columnas, que a su vez se evalúan mediante reglas, pueden utilizarse Filtros del resultado de la regla para ponderar los resultados en función de las propiedades de las reglas o las columnas.

Si se aplica el mismo filtro de resultados de Dimensión = Conformidad a la medida del término empresarial A, la regla volverá a devolver un resultado para la columna 1 y otro para la columna 2:

Término empresarial A

Las operaciones de resultado promedio, mínimo y máximo se realizan en los dos resultados proporcionados por Dimensión = Conformidad.

Ejemplo 4:

Si aplica el filtro del resultado de la regla "Columna: Elemento de datos críticos: Sí", los siguientes resultados se utilizan para calcular el resultado de la medida del término empresarial A:

Elemento de datos críticos

Las operaciones de resultado promedio, mínimo y máximo se realizan en los tres resultados proporcionados por la columna 1.

La sección Resultados de las reglas de la medida determina los resultados de la reglas que se utilizarán y qué operación se realizará con los resultados encontrados.

Condiciones y ponderación de los activos (3)

Aquí, se determina cuándo aplicar la medida y si ciertos activos puntuados deben utilizar una ponderación diferente.

Las condiciones y la ponderación de los activos funcionan del mismo modo en las medidas de calidad de los datos y en las medidas de gobierno. Determinan si la medida debe aplicarse a todos y, en ese caso, si la ponderación de la medida difiere según las diferentes propiedades de los activos. Para obtener más información, consulte Definiciones de puntuación, Condiciones y ponderación de los activos.

Un ejemplo simple de utilización de las condiciones en la puntuación de calidad de los datos es cuando solo desea puntuar las columnas que son elementos de datos críticos. En este caso, usted coloca una condición en la medida que indica que "Elemento de datos críticos = True".

Para obtener más ejemplos de definiciones de puntuación de calidad de los datos calculada internamente, consulte Ejemplos de puntuación de calidad de los datos calculada internamente.

Paso 3: publique los resultados de las reglas.

Después de crear las relaciones y configurar la medida, es hora de obtener una puntuación.

El cálculo de la puntuación de calidad de los datos se activa en los siguientes casos:

  • Cuando se publica, actualiza o elimina un resultado de regla.
  • Cuando se crea una medida de puntuación y existen resultados de reglas para la fecha efectiva de las medidas.

Publicación de resultados

Según la ubicación en la que se hayan ejecutado sus reglas de calidad de datos, publicar los resultados es sencillo y se realiza a través de la API /api/v2/metrics/quality/results. Si está utilizando Swagger, puede encontrarlo en la sección Métricas.

Resultados de las reglas actuales

Si tiene resultados de reglas actuales y desea utilizarlos para calcular la puntuación de calidad de los datos, hay algunas cosas que se deben considerar para las fechas históricas.

  • El resultado de la regla debe tener un activo relacionado.

    Antes de que se publique la puntuación de calidad de los datos, puede publicar los resultados de las reglas para una regla, pero no necesita mostrar el activo para el que era el resultado. Puede utilizar la operación PUT en la API de solicitud para actualizar cualquier resultado de regla existente con el activo adecuado.

  • La fecha efectiva del resultado debe ser la fecha efectiva de la medida o posterior a esta.

    Si tiene resultados de reglas con fecha del 1 de enero del 2020 y configura una medida con una fecha efectiva del 2 de febrero del 2021, el sistema buscará resultados de reglas con fechas efectivas del 2 de febrero del 2021 o posteriores.

  • Se debe establecer tanto el tipo de relación como las relaciones del activo a las reglas antes de configurar la medida.

Consejos y sugerencias.

¿Cuándo se crea una nueva medida?

Parte de la configuración de una puntuación de calidad de los datos es la comprensión de cuándo se necesita crear una medida diferente. A continuación se presentan algunos casos que ayudan a determinar cuándo puede ser necesario.

  • Puede crear una puntuación de calidad de los datos con solo una medida, si esta cumple con los criterios para calcular la puntuación.

    Esta medida toma el promedio de todos los resultados de las reglas de un activo en la fecha efectiva. Esta situación parte de la premisa de que tiene sus reglas de calidad de los datos en un tipo de regla.

  • Si sus reglas de calidad de los datos están en diferentes tipos de reglas, necesitará una medida diferente para cada tipo de regla.

    Esto se debe a que tendrá un tipo de relación diferente al activo que se está puntuando para cada tipo de regla.

  • Si desea ponderar de forma diferente las diferentes dimensiones de las reglas, configure una medida para cada dimensión mediante los filtros de los resultados de las reglas.
  • Si desea que la misma dimensión de regla se pondere de forma diferente para diferentes activos, puede lograrlo mediante la ponderación y las condiciones de los activos.

Comprender los resultados de las reglas utilizados en un resultado de medida

La subficha Cálculo de la ficha Puntuación de una puntuación de calidad de los datos tiene la opción "Mostrar resultados de reglas". Se mostrará una lista de los resultados de las reglas que se utilizaron para calcular el resultado de la medida.

Cuando se publique un resultado de la regla, se calculará una nueva puntuación con la fecha efectiva del resultado de la regla

Existe la premisa en la puntuación de calidad de los datos de que las reglas de calidad de datos se ejecutan para un activo en un día específico. Esto significa que a nivel de columna, los resultados de las reglas pueden entrar para una fecha efectiva, que será la fecha efectiva de la puntuación.

En caso de que se esté puntuando un activo de nivel superior, que a su vez se asigna a varios activos de nivel inferior diferentes, como columnas, no todas las reglas pueden ejecutarse en el mismo día. Puede obtener resultados que se utilizan en el cálculo de una puntuación durante toda la semana. En ese caso, el sistema hará que aparezcan los resultados de la regla anterior, si estuvieran disponibles. Como resultado, puede observar diferentes fechas efectivas al hacer clic en "Mostrar resultados de reglas".

Por ejemplo:

El término empresarial A se asigna a la Tabla 1 > Columna 1 y a la Tabla 2 > Columna 2. Las reglas de calidad de datos de la columna 1 se ejecutan el 1 de abril, mientras que las de la columna 2 se ejecutan el 5 de abril.

  • Cuando se publiquen los resultados de las reglas para la columna 1 el 1 de abril, se calculará una puntuación para el 1 de abril. Se contarán los resultados de la columna 2 como cero (0), ya que la puntuación está esperando los resultados de las reglas para las columnas 1 y 2.
  • Cuando se publiquen los resultados de las reglas para la columna 2 el 5 de abril, se calculará una puntuación para el 5 de abril. Esta utilizará los resultados de las reglas de abril 1 para la columna 1 y 5 de abril para la columna 2. Al hacer clic en "Mostrar resultados de las reglas" para el 5 de abril, se verán las dos fechas efectivas diferentes utilizadas.