Reglas de generación de perfiles - discovery - 23.1

Guía de Spectrum Discovery

Product type
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Discovery
Version
23.1
Language
Español (México)
Product name
Spectrum Discovery
Title
Guía de Spectrum Discovery
First publish date
2007

Las reglas de generación de perfiles ejecutan distintos tipos de análisis en sus datos. Cuando configure un perfil, elija las reglas de generación de perfiles que ejecutan los tipos de análisis de datos que le interesan.

En esta sección, se describen las reglas de generación de perfiles admitidas en Spectrum Discovery.

Análisis de caracteres

Esta regla identifica patrones, secuencias y tipos de caracteres en campos de cadenas. Para configurar esta regla cuando se crea un perfil, haga clic en el ícono Configurar y agregue, edite o elimine los caracteres especiales de la lista completada previamente. Si activa esta regla, recibirá esta información para los campos de cadenas en sus datos:

  • Frecuencia: las frases más utilizadas en la columna de cadenas seleccionada.
  • Distribución de secuencias: las distintas secuencias identificadas en la columna de cadenas seleccionada y su recuento.
  • Longitudes de cadenas: la distribución de longitudes de cadenas en la columna de cadenas seleccionada.
  • Categorías de caracteres: los tipos de caracteres en la columna seleccionada, como letra, puntuación y número.
  • Patrones de texto: convierte los datos en la columna de cadenas en un patrón y muestra el patrón, su recuento y la incidencia porcentual. El patrón se determina usando esta regla:
    • Los caracteres latinos en mayúsculas se reemplazan por una "A"
    • Los caracteres latinos en minúsculas se reemplazan por una "a"
    • Los dígitos se reemplazan por un "9"
    • Los caracteres de control se reemplazan por

Análisis de claves de una sola columna

Se detecta la clave principal (candidata) en función del umbral de exclusividad y nivel de finalización que se configura para los datos del perfil.

Para configurar los valores de umbral, siga estos pasos:
  1. Seleccione la casilla de verificación de la regla y haga clic en el ícono Configurar .
  2. En la ventana emergente Configuración de la regla, ingrese el umbral del nivel de finalización y el de exclusividad. Por ejemplo, ingrese 90 como umbral del nivel de finalización y 80 como umbral de exclusividad.
  3. Haga clic en Aceptar.
Cuando ejecuta el perfil con esta regla seleccionada, recuperará el resultado en la sección Análisis de claves candidatas. Los detalles que aparecen son:
Nota: Solo se mostrará cuando cualquiera de las columnas de los datos seleccionados tenga una calificación tanto de nivel de finalización como de exclusividad por encima del valor de umbral. Por ejemplo, en nuestro caso, la columna debe tener una integridad superior a 90 y una exclusividad superior a 80.
  • Nombre de la columna: es el nombre de la columna que tiene los datos completos y únicos. Por ejemplo, UserID en este caso.
  • Nivel de finalización: es la calificación del nivel de finalización. Ejemplo: 100
  • Exclusividad : es la calificación de exclusividad. Ejemplo: 100
Si se dirige a la columna identificada, verá la representación gráfica del nivel de finalización y la exclusividad y el nombre de la clave principal (ejemplo: Clave candidata) junto al nombre de la columna.

Regla interna

Sirve para determinar estadísticas como el nivel de finalización, la exclusividad, la frecuencia y los valores atípicos del conjunto de datos.

Análisis de semántica

  1. Definido por el usuario: esta regla detecta los tipos semánticos definidos por el usuario en Definir glosario y los utiliza para perfilar el conjunto de datos. Mediante los tipos de semántica definidos por el usuario, se pueden encontrar datos en función de estos parámetros:
    1. Si definió una expresión en el tipo de semántica, encuentra su cruce en el conjunto de datos y obtiene el resultado en la página Resultados de la generación de perfiles de datos.
    2. Si especificó los datos que buscar, el tipo de semántica definido por el usuario los busca en el conjunto de datos y los presenta en la página Resultados de la generación de perfiles de datos. Por ejemplo, si se especifica Soltero, Casado en la opción Existe en del tipo de semántica, se recuperarán todos los registros que tengan estos valores.
  2. Búsqueda de Advaced Transformer: mediante esta regla, se determinan las tablas definidas por el usuario en la etapa Advanced Transformer y esta se utiliza para perfilar el conjunto de datos. Para ejecutar esta regla, debe instalar Spectrum Data Normalization y cargar las tablas de referencia de Advanced Transformer. Las tablas que configure aparecerán en la ficha Tipo de semántica de la página Definir glosario, que no se pueden editar.
    Nota: Las tablas se pueden editar en Enterprise Designer.

    Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos, se mostrarán los tipos de semántica detectados si los datos coinciden con la tabla definida en la etapa.

  3. Búsqueda de Open Parser: mediante esta regla, se determinan las tablas definidas por el usuario en la etapa Open Parser y esta se utiliza para perfilar el conjunto de datos. Para ejecutar esta regla, debe instalar Spectrum Data Normalization y cargar las tablas de referencia de Open Parser. Las tablas que configure aparecerán en la ficha Tipo de semántica de la página Definir glosario, que no se pueden editar.
    Nota: Las tablas se pueden editar en Enterprise Designer.

    Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos, se mostrarán los tipos de semántica detectados si los datos coinciden con la tabla definida en la etapa.

  4. Análisis de validación de tarjetas de crédito: seleccione esta regla para detectar, validar e identificar números de tarjetas de crédito como JCB, VISA, Diners Club (DINERS), MasterCard, Discover o American Express (AMEX). Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos se mostrará una ficha adicional denominada Resumen de tarjetas de crédito en la que figuran estos detalles:
    1. Validez: los números de tarjetas de crédito válidos y no válidos.
    2. Distribución de tarjetas de crédito: distribución por categorías de las tarjetas de crédito detectadas.
  5. Análisis de fechas: mediante esta regla, se detectan y validan las fechas en de columnas de cadenas. Además, identifica los patrones de fecha en las columnas y su distribución. Este análisis puede ser útil para detectar entradas de fecha en columnas erróneas, por ejemplo, en datos de correo electrónico. Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña Resumen de fechas adicional para las columnas de cadenas que tienen fechas. Esta pestaña muestra los siguientes detalles:
    1. Validez: los valores válidos y no válidos.
    2. Patrones de fecha: son los patrones de fecha detectados en las columnas seleccionadas, su recuento total y el porcentaje de ese patrón en el conjunto de datos.
  6. Análisis de correo electrónico: mediante esta regla, se detectan y validan las direcciones de correo electrónico, y se determina la distribución de dominios de correo electrónico en la columna de datos seleccionada. Si selecciona esta regla, la página Resultados de la generación de perfiles de datos muestra una pestaña Resumen de correos electrónicos adicional que, a su vez, muestra los siguientes detalles:
    1. Validez: los valores válidos y no válidos.
    2. Distribución de dominio: los diez principales dominios de correo electrónico en la columna de datos seleccionada.
  7. Análisis de número de teléfono: seleccione esta regla para detectar y validar números de teléfono e identificar números de teléfono, como números de línea fija, números de teléfonos móviles o cualquier otro tipo de número. Esta regla además proporciona la distribución de los números de teléfono por país y región. Debe configurar esta regla para definir el país predeterminado que usará cuando un número de teléfono no tenga un código de país. Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos se mostrará otra ficha denominada Resumen de números de teléfono en la que figuran estos detalles:
    1. Validez: los números de teléfono válidos y no válidos.
    2. Tipos de números de teléfono: los tipos números de teléfono, como móviles, línea terrestre, línea fija, VOIP, buscapersonas, correo de voz o número gratuito.
    3. Números de teléfono por país: la distribución por país de los números de teléfono detectados.
    4. Números de teléfono por región: es la distribución por región de los números de teléfono detectados.
  8. Análisis del número de identificación vehicular (Vehicle Identification Number, VIN): seleccione esta regla para detectar y validar los números de identificación vehicular. Esta regla además proporciona la distribución de los números de identificación vehicular por país y región. Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos se mostrará una ficha adicional denominada Resumen de VIN en la que figuran estos detalles:
    1. Validez: los números de identificación vehicular válidos y no válidos.
    2. Distribución por país de VIN: distribución por país de los números de identificación de vehículos detectados.
  9. Análisis del número de seguro social (Social Security Number, SSN): seleccione esta regla para detectar y validar los números de seguridad social. Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos se mostrará otra ficha denominada Resumen de SSN en la que figuran los números de seguro social válido y no válidos.
  10. Análisis del número de cuenta bancaria internacional (International Bank Account Number, IBAN): seleccione esta regla para detectar y validar números de cuenta bancaria internacional. Esta regla además proporciona la distribución de los números de cuenta de banco internacional por país y región. Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos se mostrará otra ficha denominada Resumen de IBAN en la que figuran estos detalles:
    1. Validez: los números de cuenta de banco internacional válidos y no válidos.
    2. Distribución por país de IBAN: distribución por país de los números cuenta de banco internacional detectados.
  11. Análisis de semántica: seleccione esta regla para detectar tipos de semántica, como nombre, ciudad, país, código de país ISO 2 y 3, apellido y estados. Esta regla puede ayudarlo a encontrar valores en columnas incorrectas, como nombres de ciudad en una columna País. Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos se mostrará otra ficha denominada Tipo de semántica en la que figuran los tipos de semántica detectados y su frecuencia.
  12. Análisis de direcciones de EE. UU.: mediante esta regla, se determina la calidad de los datos de su dirección mediante la base de datos de EE. UU. de Spectrum Universal Addressing. Para ejecutar esta regla, debe hacer lo siguiente:
    1. Instale la base de datos de Spectrum Universal Addressing y defínala como un recurso en Management Console. Para obtener más información sobre la adición de este recurso de base de datos, consulte la Guía de administración.
    2. Configure la regla de Análisis de direcciones de EE. UU. Para ello, haga clic en el botón Configurar e ingrese la siguiente información:
      • Base de datos de codificadores de direcciones de EE. UU.: seleccione el recurso de base de datos de Spectrum Universal Addressing configurado en Management Console.
      • Campo AddressLine1 al Campo AddressLine5: asigne estos campos a las columnas de la tabla que está analizando. No debe ingresar necesariamente nombres de columna en todos los campos. Sin embargo, mientras más específico sea, mejor será la puntuación de cruce.
      • Asigne las columnas de la tabla a los campos City, Country, USUrbanName, FirmName, PostalCode y StateProvince.

        Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos se mostrará la ficha Resumen de direcciones.

        • La leyenda debajo de la tabla muestra la puntuación de cruce para los datos, junto con la codificación de color.
        • Apunte a cualquier lugar en el área del gráfico para ver la puntuación de cruce. Las puntuaciones tienen los rangos (0, 1-25, 26-50, 51-80, 81-99 y 100), y cero significa que no hay cruces de los datos con la base de datos. El gráfico también muestra el porcentaje de registros coincidentes detectados (con código de color).
        • Haga clic en el área del gráfico para ver los datos coincidentes o no coincidentes con la base de datos.
  13. Análisis de direcciones internacionales: mediante esta regla, se determina la calidad de los datos de su dirección mediante la base de datos de Spectrum Global Address Validation. Para ejecutar esta regla, debe hacer lo siguiente:
    1. Instale la base de datos de Spectrum Global Address Validation y defínala como un recurso en Management Console. Para obtener más información, consulte la Guía de administración.
    2. Configure la regla Análisis de direcciones internacionales haciendo clic en el botón Configurar e ingresando la siguiente información:
      • Base de datos del motor de direccionamiento: seleccione el recurso de base de datos de Global Address Validation configurado en Management Console.
      • Umbral de confianza: ingrese el valor del umbral de confianza para detectar los campos que se ubican por debajo del valor especificado. El valor predeterminado para este campo es 80.
      • Lista de tablas: seleccione la tabla en la que desea que se ejecute esta regla.
      • Campo AddressLine1 al campo Country: asigne estos campos a las columnas de la tabla que está analizando.
      • Asigne las columnas de la tabla a los campos LastLine, City, CitySubdivision, PostalCode, State, StateSubdivision y FirmName. No debe ingresar necesariamente nombres de columna en todos los campos. Sin embargo, mientras más específico sea, mejor será la puntuación de cruce.
        Si selecciona esta regla, en la página Resultados de la generación de perfiles de datos se mostrará una ficha denominada Resumen de direcciones en la que figura lo siguiente.
        • Distribución de confianza en direcciones internacionales: la puntuación de cruce de los datos. La puntuación se codifica con color. Apunte a cualquier área del gráfico circular para ver el rango de puntuación (0, 1-25, 26-50, 51-80, 81-99 y 100), donde cero significa que no hubo coincidencias con los datos en la base de datos. Haga clic en el área del gráfico para obtener una vista previa de los datos coincidentes o no coincidentes.
        • Precisión de direcciones internacionales: esta distribución de niveles de validación de direcciones, como estado, casa, código postal, ciudad, subdivisión de ciudad y calle.
        • Distribución de campos que no se cruzan con las direcciones internacionales: la distribución de los campos no cruzados de la dirección, como Subdivisión de ciudad, Provincia del estado, Nombre de la calle y Código postal se muestran aquí. El umbral de confianza de esta dirección es menor que el valor definido en la configuración de la regla Análisis de direcciones internacionales.

Análisis de registro duplicado

Mediante esta regla, se identifican registros duplicados dentro de una tabla y se brinda ayuda para resolverlos mediante la función de regla inteligente. Si la tabla tiene registros duplicados, se mostrarán en grupos en otra ficha denominada Análisis de registros duplicados en los resultados. Analicémoslo con este ejemplo.

Ejemplo

Este es un ejemplo de cómo se determinan los registros duplicados. Supongamos que los datos que elige para perfilar contienen la siguiente información.
FirstName Dirección teléfono
Amanda 68846 John Island 949-727-4834
Aminda 2746 Thomas Ride Suite 252 949-727-4834
Amanda 68846 Jon Island 949-727-4834
Johnathan 2747 Thoms Ridge Suite 252 949-727-4834
manda 68846 Joan Island 949-727-4834
Bill 072 Courtney Mountains 142-025-5264
Judit 3317 Bryan Umion 675-223-2832
Juddith 830 Johnson Streen 675-223-2832
Charles 200 Mia Ramp Apt. 131 237-538-6959
Judith 3317 Brayn Union 675-223-2832
Judih 3317 Brain Union 838-045-9865
Según los datos de entrada anteriores, el sistema determina a nivel interno los duplicados en función de los algoritmos coincidentes cuando se comparan los registros y se muestran los siguientes resultados en grupos en la ficha Análisis de registros duplicados. Además, también proporciona las capacidades para resolver los duplicados. Para obtener más información, consulte Visualización de registros duplicados en Detalles de tabla en Resultados de generación de perfiles.
Nota: Según los algoritmos de coincidencia internos, solo los campos que se tienen en cuenta para buscar duplicados se resaltan en los grupos y se muestran en la parte superior.
Group1
FirstName Dirección teléfono
Amanda 68846 John Island 949-727-4834
Amanda 68846 Jon Island 949-727-4834
Group2
FirstName Dirección teléfono
Juddith 830 Johnson Streen 675-223-2832
Judith 3317 Brayn Union 675-223-2832

Configuración del servicio

Utilícela para utilizar los servicios predeterminados de Spectrum y los servicios que haya configurado con las distintas etapas de Spectrum para las que tiene licencia. Esta configuración sirve para reutilizar las transformaciones diseñadas con varias etapas de Spectrum en sus datos. Analicémoslo con este ejemplo.

Ejemplo: ha utilizado la etapa Validate Address y la etapa Conditional Router para filtrar las direcciones validadas. Puede usar esta transformación para perfilar los datos de entrada, de modo que la generación del perfil se ejecute en las direcciones validadas. Todo lo que necesita hacer es exponer este servicio en Enterprise Designer y utilizarlo aquí (en Spectrum Discovery) como regla de Configuración del servicio. Veamos cómo se hace.
  1. Seleccione la regla Configuración del servicio y haga clic en el ícono de engranaje correspondiente .
  2. En la ventana emergente Configuración del servicio, especifique estos detalles.
    Campo Descripción
    Web Seleccione el servicio requerido de la lista desplegable. En esta figuran todos los servicios expuestos.
    Nota: Haga clic en el enlace Agregar servicios para agregar varios servicios.
    Campos de entrada de servicio y campos de entrada de fuente Se muestra la lista de los campos utilizados como entrada en el servicio seleccionado. Cada campo de entrada de servicio tiene un Campo de entrada de Fuente correspondiente. Use el menú desplegable Campos de entrada de la fuente para seleccionar el campo requerido de los datos de entrada.
    Los datos del campo seleccionado se utilizarán como entrada cuando ejecuta el perfil.
    Nota: Los tipos de datos de los campos de entrada y los campos de la fuente con los que se asignan deben ser los mismos.
    Ejemplo:
    • Los campos de entrada de servicio son First_Name y Last_Name.
    • En los campos de entrada de la fuente correspondientes, seleccione FirstName y LastName.
    Ahora, cuando ejecute la generación de perfiles, los datos de las columnas FirstName y LastName de las fuentes de entrada se utilizarán para la generación de perfiles. Las transformaciones definidas en el servicio seleccionado se ejecutarán en estos datos de entrada y se perfilarán para que reciba los informes.
    Campos de salida de servicio Sirve para mostrar los campos de salida del servicio seleccionado. Seleccione los campos que desea en la salida del perfil. El cuadro de búsqueda con escritura automática se puede usar para buscar los campos obligatorios.
    Nota: Si el servicio tiene el tipo de datos Lista como salida, no podrá usarlo en la generación de perfiles.
  3. Haga clic en Aceptar.
  4. Cuando ejecute la generación de perfiles, el resultado se mostrará en la página Resultados de la generación de perfiles de datos en Name_Service. Haga clic en cualquiera de los campos de salida para ver las estadísticas relacionadas.
    Nota: Puede utilizar los servicios y obtener las salidas de la generación de perfiles incluso si no tiene una licencia para el módulo respectivo o si su licencia ha caducado. En la página Resumen del perfil habrá otra ficha para indicar la excepción de la licencia.

Análisis de patrones personalizados

Esta regla identifica cualquier patrón en la columna de cadenas. Puede configurar la cantidad de expresiones regulares que desee para cruzar con sus datos. Para configurar esta regla cuando cree un perfil, haga clic en el ícono Configurar e ingrese estos detalles:

  1. Clave: es el nombre del patrón que se va a identificar.
  2. Valor: es la expresión regular para el patrón.

    Por ejemplo, si desea identificar direcciones de correo electrónico en columnas de cadenas, ingrese la expresión regular ^(.+)@(.+)$ en el campo Valor y el correo electrónico en el campo Clave.

  3. Para agregar otra expresión, haga clic en el ícono Agregar y agregue los detalles del par de valores clave siguiente. Puede agregar la cantidad de expresiones que desee para cruzar con los datos.

Cuando active esta regla, obtendrá la siguiente información:

  • Validez: los valores que coincidieron con al menos uno de los patrones de expresiones regulares en la regla.
  • Distribución de coincidencias de patrón: la distribución de registros que coincidieron con las expresiones regulares.

Análisis de valor atípico

Seleccione esta regla para detectar los valores atípicos del perfil. Si el perfil tiene alguna frecuencia, tipo de semántica, patrón, longitud u otros valores atípicos, estos se mostrarán en otra ficha denominada Análisis de valores atípicos en los resultados.