Panel de generación de perfiles - Data360_Govern

El panel lateral Generación de perfiles se muestra cuando hay datos sobre la generación de perfiles disponibles para un activo técnico o empresarial. Se rellena mediante las API de Data360 Govern DataProfiles v2.0.

El nombre del activo se muestra como primer título, seguido del tipo de activo y las categorías.

Todas las categorías se expanden de manera predeterminada con un máximo de cinco entradas cada una. Se pueden mostrar más entradas haciendo clic en Mostrar más. Si una categoría no tiene entradas, no se mostrará la etiqueta.

Nota: Se muestran los datos sobre la generación de perfiles más recientes. Los perfiles de datos pueden actualizarse varias veces al día.

El panel Generación de perfiles puede incluir estas categorías:

Resumen de muestras
Calidad de la muestra
Distribución de muestra
Valores superiores
Valores inferiores
Valores atípicos/no válidos
Formas
Estadísticas

Las categorías de muestra son siempre las primeras categorías que se muestran y deben tener datos en todo momento. Sin embargo, no existe ningún tipo de validación para los campos obligatorios en la API, a excepción de profileSetDate.

Resumen de muestras

Campo	Descripción	Origen
Fecha efectiva	La fecha del último conjunto de información sobre generación de perfiles recibido para el activo.	`profileSetDate`
Recuento total de filas	El número total de filas de un corpus de datos completo.	`totalCount`
Recuento de filas de muestra	El número de filas que incluye el perfil. También se muestra un porcentaje del recuento total.	`sampleCount`
Tipo de base	El tipo de datos.	`type`
Tipo de semántica	Una explicación adicional del tipo. Por ejemplo, si el tipo es "Cadena", el tipo de semántica podría ser Correo electrónico o Nombre.	`typeQualifier`
Seguridad del tipo	Un porcentaje de la confianza que puede tener en que los resultados del perfil sean del tipo especificado. Por ejemplo, "Estoy un 97,5 % seguro de que los datos de la muestra procedían de un campo de fecha". Se muestra como un porcentaje con dos decimales de precisión. Por ejemplo, si el valor en la API es 0,9753, en la IU este valor se mostrará como 97,53 %.	`confidence`
Detección de coincidencias	El número de duplicados y campos similares en los datos de muestra.

Tipos de semántica

Los tipos de semántica son cadenas estandarizadas de caracteres que permiten describir el tipo de información que representan ciertos datos.

Cuando se muestra el panel lateral de generación de perfiles, se lleva a cabo una comprobación para verificar que el tipo de semántica se encuentre en las definiciones semánticas. Si no se encuentra ninguna coincidencia, se muestra el qualifier con el tipo de semántica. Por ejemplo, HONORIFIC_EN.

Si se encuentra una coincidencia, el nombre del tipo de semántica (Fecha, por ejemplo) se muestra como un vínculo al tipo adecuado. Haga clic en el vínculo para visualizar el panel lateral secundario Información a la izquierda del panel Generación de perfiles. Se muestran los detalles de la definición del tipo de semántica pertinente. Haga clic en cualquier vínculo sobre el panel lateral secundario Información para reemplazar la información del tipo de semántica por sus detalles.

Si el tipo de semántica no se envía con los datos sobre la generación de perfiles, la etiqueta Tipos de semántica se mostrará, pero estará rellena de guiones.

Nota: La información sobre la generación de perfiles históricos nunca se vincula a los tipos de semántica, ya que no se puede controlar la fecha efectiva de la definición de semántica. Los tipos de semántica siempre se crean teniendo en cuenta el día de hoy como fecha efectiva.

Detección de coincidencias

El campo Detección de coincidencias se muestra como parte de la categoría Resumen de muestras y muestra el número de duplicados y campos similares en los datos de muestra. La detección de coincidencias se basa en la firma y la estructura de datos que transmite Data360 Analyze a Data360 Govern tras generar el perfil de un activo. Todos los activos perfilados se comprueban para detectar entradas similares o duplicadas en función de esos campos transmitidos. Si dos activos tienen la misma firma de datos, se clasificarán como duplicados. Pero si tienen la misma estructura de datos, se considerarán activos similares.

Duplicados:

Disponen de una insignia de color rojo, ubicada a la izquierda de la etiqueta, junto con el número total de elementos encontrados. Haga clic en el vínculo para abrir el cuadro de diálogo Detección de coincidencias.
Si pasa el cursor del ratón sobre la etiqueta, aparecerá una sugerencia con el número de activos detectados que pertenezcan al mismo tipo y tengan datos coincidentes.
Si no hay duplicados, la insignia de color rojo se silencia y la etiqueta aparece de color gris sin ningún vínculo.

Campos similares:

Disponen de una insignia de color naranja, ubicada a la izquierda de la etiqueta, junto con el número total de elementos encontrados. Haga clic en el vínculo para abrir el cuadro de diálogo Detección de coincidencias.
Si pasa el cursor del ratón sobre la etiqueta, aparecerá una sugerencia con el número de activos detectados que pertenezcan al mismo tipo, pero con datos diferentes.
Si no hay campos similares, la insignia de color naranja se silencia y la etiqueta aparece de color gris sin ningún vínculo.

El cuadro de diálogo Detección de coincidencias incluye la ruta de activo para el elemento que esté investigando y una cuadrícula con los detalles de los campos duplicados o similares, según el vínculo en el que se haya hecho clic en el panel Generación de perfiles. Si selecciona más de una ruta de activo, aparecerá un botón de menú a la derecha del campo de filtro. Haga clic en él y seleccione Editar etiquetas, donde puede añadir una o más etiquetas a las rutas de activos seleccionadas, por ejemplo.

Nota: No puede añadir etiquetas a los campos duplicados y a los campos similares al mismo tiempo.

Calidad de la muestra

Junto a cada porcentaje calculado encontrará una sugerencia con el porcentaje del total. El total es relativo; por ejemplo, el total de la muestra, el total de los valores válidos y otros similares.

Campo	Descripción	Origen
Barra de calidad	Una única barra horizontal con un recuento de filas válidas, no válidas y sin poblar de los datos de la muestra.
Válido	El número de valores válidos encontrados en los datos de la muestra según el tipo o el tipo de semántica. Junto al recuento se muestra un porcentaje. Se calcula dentro de Data360 Govern y equivale a un recuento válido dividido por el recuento de muestras. Único: indica cuántos de los valores válidos son distintos.	`matchCount` `cardinality`
Valores atípicos/no válidos	Número de valores atípicos o no válidos encontrados en los datos de muestra. Junto al recuento se muestra un porcentaje. Se calcula dentro de Data360 Govern y equivale a un recuento de valores atípicos/no válidos dividido por el recuento de muestras.	`outlierCount`
Nulo/en blanco	El recuento de valores nulos o en blanco encontrados en los datos de muestra. Junto al recuento se muestra un porcentaje. Se calcula dentro de Data360 Govern y equivale a un recuento de valores sin popular dividido por el recuento de muestras.	`nullCount + blankCount`

Distribución de muestra

El gráfico de barras muestra la distribución de muestras, según el tipo de datos. Por ejemplo, si los datos son:

Fecha/hora: el gráfico de barras muestra la distribución a lo largo del tiempo.
Cadena: el gráfico de barras muestra la distribución en función de valores de cadena diferentes.
Número: el gráfico de barras muestra la distribución del rango, junto con la desviación estándar y la media de los valores distintos.
Booleano: el gráfico de barras muestra si los valores son true o false.

El gráfico de barras muestra los resultados pertinentes con barras de color verde e incluye los valores atípicos/no válidos con una barra de color rojo, si los hubiera, y los valores nulos/vacíos con una gris.

Valores superiores, Valores inferiores, Valores atípicos/no válidos y Formas

Todas estas categorías se comportan de forma similar y solo se muestran si contienen datos. Cada valor se muestra como un gráfico de barras con el valor y el recuento.

Nota: Los conjuntos de muestras superior e inferior mantienen el orden de clasificación en el que se reciben. La única excepción son los valores de tipo numérico, que están ordenados por el valor clave. Es decir, descienden para los valores superiores y ascienden para los inferiores.

Junto al recuento, se muestra un porcentaje obtenido al dividir el recuento de valores por el recuento de muestras.

Valores superiores: los valores proceden de topK con el recuento de cada uno en cardinalityDetail.
Valores inferiores: los valores proceden de bottomK con el recuento de cada uno en cardinalityDetail.
Valores atípicos/no válidos: tanto los valores como los recuentos se encuentran en outlierDetail.
Formas: tanto los valores como los recuentos están en shapesDetail.

Estadísticas

Existe un conjunto de estadísticas que se entregan a través de las API.

Etiqueta	Origen
Recuento nulo	`nullCount`
Recuento en blanco	`blankCount`
Valor mínimo	`min`
Valor máximo	`max`
Longitud mínima	`minLength`
Longitud máxima	`maxLength`
Media	`mean`
Desviación estándar	`standardDeviation`
Múltiples líneas	`multiline`
Espacio en blanco inicial	`leadingWhiteSpace`
Espacio en blanco final	`trailingWhiteSpace`
Recuento cero inicial	`leadingZeroCount`
Expresión regular de validación	`regExp`

La disponibilidad de un valor estadístico concreto depende en parte del tipo de datos. Por ejemplo, si el tipo de datos es booleano, solo se mostrarán los valores Recuento en blanco, Recuento nulo y Expresión regular de validación, si contienen algún valor.

Panel de generación de perfiles - Data360_Govern - Más reciente

Ayuda de Data360 Govern