El panel lateral Generación de perfiles se muestra cuando hay datos sobre la generación de perfiles disponibles para un activo técnico o empresarial. Se rellena mediante las API de Data360 Govern DataProfiles v2.0.
El nombre del activo se muestra como primer título, seguido del tipo de activo y las categorías.
Todas las categorías se expanden de manera predeterminada con un máximo de cinco entradas cada una. Se pueden mostrar más entradas haciendo clic en Mostrar más. Si una categoría no tiene entradas, no se mostrará la etiqueta.
El panel Generación de perfiles puede incluir estas categorías:
- Resumen de muestras
- Calidad de la muestra
- Distribución de muestra
- Valores superiores
- Valores inferiores
- Valores atípicos/no válidos
- Formas
- Estadísticas
Las categorías de muestra son siempre las primeras categorías que se muestran y deben tener datos en todo momento. Sin embargo, no existe ningún tipo de validación para los campos obligatorios en la API, a excepción de profileSetDate
.
Resumen de muestras
Campo | Descripción | Origen |
---|---|---|
Fecha efectiva | La fecha del último conjunto de información sobre generación de perfiles recibido para el activo. | profileSetDate |
Recuento total de filas | El número total de filas de un corpus de datos completo. | totalCount |
Recuento de filas de muestra |
El número de filas que incluye el perfil. También se muestra un porcentaje del recuento total. |
sampleCount |
Tipo de base | El tipo de datos. | type |
Tipo de semántica | Una explicación adicional del tipo. Por ejemplo, si el tipo es "Cadena", el tipo de semántica podría ser Correo electrónico o Nombre. | typeQualifier |
Seguridad del tipo |
Un porcentaje de la confianza que puede tener en que los resultados del perfil sean del tipo especificado. Por ejemplo, "Estoy un 97,5 % seguro de que los datos de la muestra procedían de un campo de fecha". Se muestra como un porcentaje con dos decimales de precisión. Por ejemplo, si el valor en la API es 0,9753, en la IU este valor se mostrará como 97,53 %. |
confidence |
Detección de coincidencias | El número de duplicados y campos similares en los datos de muestra. |
Tipos de semántica
Los tipos de semántica son cadenas estandarizadas de caracteres que permiten describir el tipo de información que representan ciertos datos.
Cuando se muestra el panel lateral de generación de perfiles, se lleva a cabo una comprobación para verificar que el tipo de semántica se encuentre en las definiciones semánticas. Si no se encuentra ninguna coincidencia, se muestra el qualifier con el tipo de semántica. Por ejemplo, HONORIFIC_EN.
Si se encuentra una coincidencia, el nombre del tipo de semántica (Fecha, por ejemplo) se muestra como un vínculo al tipo adecuado. Haga clic en el vínculo para visualizar el panel lateral secundario Información a la izquierda del panel Generación de perfiles. Se muestran los detalles de la definición del tipo de semántica pertinente. Haga clic en cualquier vínculo sobre el panel lateral secundario Información para reemplazar la información del tipo de semántica por sus detalles.
Si el tipo de semántica no se envía con los datos sobre la generación de perfiles, la etiqueta Tipos de semántica se mostrará, pero estará rellena de guiones.
Detección de coincidencias
El campo Detección de coincidencias se muestra como parte de la categoría Resumen de muestras y muestra el número de duplicados y campos similares en los datos de muestra. La detección de coincidencias se basa en la firma y la estructura de datos que transmite Data360 Analyze a Data360 Govern tras generar el perfil de un activo. Todos los activos perfilados se comprueban para detectar entradas similares o duplicadas en función de esos campos transmitidos. Si dos activos tienen la misma firma de datos, se clasificarán como duplicados. Pero si tienen la misma estructura de datos, se considerarán activos similares.
Duplicados:
- Disponen de una insignia de color rojo, ubicada a la izquierda de la etiqueta, junto con el número total de elementos encontrados. Haga clic en el vínculo para abrir el cuadro de diálogo Detección de coincidencias.
- Si pasa el cursor del ratón sobre la etiqueta, aparecerá una sugerencia con el número de activos detectados que pertenezcan al mismo tipo y tengan datos coincidentes.
- Si no hay duplicados, la insignia de color rojo se silencia y la etiqueta aparece de color gris sin ningún vínculo.
Campos similares:
- Disponen de una insignia de color naranja, ubicada a la izquierda de la etiqueta, junto con el número total de elementos encontrados. Haga clic en el vínculo para abrir el cuadro de diálogo Detección de coincidencias.
- Si pasa el cursor del ratón sobre la etiqueta, aparecerá una sugerencia con el número de activos detectados que pertenezcan al mismo tipo, pero con datos diferentes.
- Si no hay campos similares, la insignia de color naranja se silencia y la etiqueta aparece de color gris sin ningún vínculo.
Calidad de la muestra
- Junto a cada porcentaje calculado encontrará una sugerencia con el porcentaje del total. El total es relativo; por ejemplo, el total de la muestra, el total de los valores válidos y otros similares.
Campo | Descripción | Origen |
---|---|---|
Barra de calidad | Una única barra horizontal con un recuento de filas válidas, no válidas y sin poblar de los datos de la muestra. | |
Válido |
El número de valores válidos encontrados en los datos de la muestra según el tipo o el tipo de semántica. Junto al recuento se muestra un porcentaje. Se calcula dentro de Data360 Govern y equivale a un recuento válido dividido por el recuento de muestras. Único: indica cuántos de los valores válidos son distintos. |
matchCount |
Valores atípicos/no válidos |
Número de valores atípicos o no válidos encontrados en los datos de muestra. Junto al recuento se muestra un porcentaje. Se calcula dentro de Data360 Govern y equivale a un recuento de valores atípicos/no válidos dividido por el recuento de muestras. |
outlierCount |
Nulo/en blanco |
El recuento de valores nulos o en blanco encontrados en los datos de muestra. Junto al recuento se muestra un porcentaje. Se calcula dentro de Data360 Govern y equivale a un recuento de valores sin popular dividido por el recuento de muestras. |
nullCount + blankCount |
Distribución de muestra
El gráfico de barras muestra la distribución de muestras, según el tipo de datos. Por ejemplo, si los datos son:
- Fecha/hora: el gráfico de barras muestra la distribución a lo largo del tiempo.
- Cadena: el gráfico de barras muestra la distribución en función de valores de cadena diferentes.
- Número: el gráfico de barras muestra la distribución del rango, junto con la desviación estándar y la media de los valores distintos.
- Booleano: el gráfico de barras muestra si los valores son true o false.
El gráfico de barras muestra los resultados pertinentes con barras de color verde e incluye los valores atípicos/no válidos con una barra de color rojo, si los hubiera, y los valores nulos/vacíos con una gris.
Valores superiores, Valores inferiores, Valores atípicos/no válidos y Formas
Todas estas categorías se comportan de forma similar y solo se muestran si contienen datos. Cada valor se muestra como un gráfico de barras con el valor y el recuento.
Junto al recuento, se muestra un porcentaje obtenido al dividir el recuento de valores por el recuento de muestras.
- Valores superiores: los valores proceden de
topK
con el recuento de cada uno encardinalityDetail
. - Valores inferiores: los valores proceden de
bottomK
con el recuento de cada uno encardinalityDetail
. - Valores atípicos/no válidos: tanto los valores como los recuentos se encuentran en
outlierDetail
. - Formas: tanto los valores como los recuentos están en
shapesDetail
.
Estadísticas
Existe un conjunto de estadísticas que se entregan a través de las API.
Etiqueta | Origen |
---|---|
Recuento nulo | nullCount |
Recuento en blanco | blankCount |
Valor mínimo | min |
Valor máximo | max |
Longitud mínima | minLength |
Longitud máxima | maxLength |
Media | mean |
Desviación estándar | standardDeviation |
Múltiples líneas | multiline |
Espacio en blanco inicial | leadingWhiteSpace |
Espacio en blanco final | trailingWhiteSpace |
Recuento cero inicial | leadingZeroCount |
Expresión regular de validación | regExp |
La disponibilidad de un valor estadístico concreto depende en parte del tipo de datos. Por ejemplo, si el tipo de datos es booleano, solo se mostrarán los valores Recuento en blanco, Recuento nulo y Expresión regular de validación, si contienen algún valor.