Creación de una regla de cruce manual - discovery - 23.1

Guía de Spectrum Discovery

Product type
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Discovery
Version
23.1
Language
Español (México)
Product name
Spectrum Discovery
Title
Guía de Spectrum Discovery
First publish date
2007

Para crear una regla de cruce manual, siga estos pasos:
  1. En la página Detalles de la fuente, haga clic en el botón Crear regla de cruce.
    Se abrirá la página Crear regla de cruce.
  2. En la página Crear regla de cruce, vaya a la sección Proceso de cruce manual y haga clic en el botón Crear regla.
    Se abrirá la página Regla de cruce manual. En la página Regla de cruce manual, puede hacer lo siguiente:
    • configurar una de las reglas predefinidas de las Reglas de plantilla ubicadas en la esquina izquierda de la página, que puede usar tal como están; o

    • configurar una nueva regla de cruce y publicarla en el repositorio para su reutilización.

  3. Ingrese un nombre único para la regla de cruce en el campo Nombre de la regla.
  4. Opcional: Seleccione una clave de cruce del menú desplegable Clave de cruce vinculada que necesite vincular a la regla de cruce. También puede ver una vista previa de la clave de cruce si hace clic en el botón Acceder a la vista previa de la clave de cruce . Si hace clic, se abre una nueva ventana, donde puede seguir modificando o usar la misma clave de cruce según sus necesidades.
    Nota: Para desvincular la clave de cruce en cualquier momento, bórrela. Es obligatorio volver a publicar la regla para admitir los cambios.
  5. Especifique los campos del flujo de datos, ya sean principales o secundarios, que desea usar en la regla de cruce, así como la jerarquía de la regla de cruce.
    • Haga clic en el botón e ingrese un nombre para el elemento principal debajo de Establecer cruce cuando no sea “true”.
    • Haga clic en el botón y seleccione un campo para agregar al elemento principal de la lista desplegable debajo de Establecer cruce no sea “true”.
      Nota: Todos los nodos secundarios de un nodo principal deben usar el mismo operador lógico. Si desea usar diferentes operadores lógicos para cada campo, primero deberá crear elementos principales intermedios.
  6. Defina las opciones para estos elementos principales como se enumeran en la siguiente tabla, que figura en el nodo principal:
    Opción Descripción

    Coincidir cuando no sea verdadero

    Cambia el operador lógico del elemento principal de and a and not. Si selecciona esta opción, los registros solo coincidirán si no coinciden con la lógica definida en este elemento principal.
    Nota: Si selecciona la opción Establecer cruce cuando no sea “true”, se anulan las opciones del Método de cruce. Para obtener más información, consulte la sección Condiciones de cruce negativas en la Guía de Spectrum Data Quality.
    Método de comparación Seleccione una de estas opciones de la lista desplegable para determinar si un elemento principal es un cruce o no lo es:
    • Todo “true”: se considera que un elemento principal es un cruce si todos los elementos secundarios están determinados para el cruce. Este método crea un conector “and” entre los elementos secundarios.
    • Cualquier elemento “true”: se considera que un elemento principal es un cruce si, como mínimo, se determina uno de los elementos secundarios para el cruce. Este método crea un conector “or” entre los elementos secundarios.
    • Basado en el umbral: se considera que un elemento principal es un cruce si, como mínimo, se determina uno de los elementos secundarios para el cruce. Este método crea un conector “or” entre los elementos secundarios.

      Si selecciona esta opción, en el campo Umbral podrá especificar un valor de umbral. El Método de calificación determina qué conector lógico utilizar. Los umbrales del elemento principal no pueden ser mayores que el umbral de los elementos secundarios. Para obtener más información, consulte la matriz del método de comparación entre el método y la calificación debajo de esta tabla.

    Datos ausentes Seleccione una de estas opciones de la lista desplegable para especificar cómo calificar los datos en blanco de un campo:
    • Ignorar valores en blanco: se ignora el campo si está vacío.
    • Contabilizar como 0: asigna al campo una calificación de 0 si contiene datos en blanco.
    • Contabilizar como 100: asigna al campo una calificación de 100 si contiene datos en blanco.
    • Comparar valores en blanco: asigna a los campos sospechosos y candidatos una calificación de 100 si ambos contienen datos en blanco; de lo contrario, se asigna a los campos sospechosos y candidatos una calificación de 0.
    Método de calificación Seleccione una de estas opciones de la lista desplegable para determinar la puntuación de cruce:
    • Promedio ponderado: se utiliza el peso de cada elemento secundario para determinar la calificación de cruce promedio.
    • Promedio: se utiliza la calificación promedio de cada elemento secundario para determinar la calificación de un elemento principal.
    • Máximo: se utiliza la calificación más alta de los elementos secundarios para determinar la calificación del elemento principal.
    • Mínimo: se utiliza la calificación más baja de los elementos secundarios para determinar la calificación del elemento principal.
    • Suma total del vector: se utiliza la suma total del vector de cada elemento secundario para determinar la calificación del elemento principal. La fórmula para realizar el cálculo es:

      sqrt(a^2+b^2+c^2) / sqrt(n), en la que a, b y c son las calificaciones de tres elementos secundarios, y n es la cantidad de elementos secundarios.

      Para obtener más información, consulte la matriz del método de comparación entre el método y la calificación debajo de esta tabla.

    Evaluar Haga clic en el botón Evaluar para evaluar la regla de cruce. Para obtener más información, consulte Evaluación de una regla de cruce.
    Copiar la configuración a Sirve para copiar la misma configuración en cualquier cantidad de elementos.
    1. Utilice la lista desplegable para seleccionar o anular la selección de los elementos.
    2. Haga clic en Aplicar junto al campo Copiar configuración en a fin de copiar y aplicar la misma configuración para los elementos seleccionados.
    Nota: La configuración principal se puede copiar en un elemento principal, y la configuración secundaria solo en un elemento secundario.
    Matriz del método de comparación y el método de calificación
    En la siguiente tabla, se muestra la relación lógica entre el Método de comparación y el Método de calificación, y cómo cada combinación cambia la lógica utilizada durante el proceso de cruce.
    Método de calificación Método de comparación Comentarios
    Cualquier elemento verdadero Todo verdadero Según el umbral
    Promedio ponderado NA y y

    Solo está disponible cuando se selecciona Todo “true” o Basado en el umbral como el Método de comparación.

    Promedio NA y y
    Suma total del vector NA y y
    Máximo o NA o Solo está disponible cuando se selecciona Todo “true” o Basado en el umbral como el Método de comparación.
    Mínimo o NA o
  7. Defina las opciones para estos elementos secundarios como se muestran en la siguiente tabla, que figuran en el nodo secundario:
    Opción Descripción

    Coincidir cuando no sea verdadero

    Cambia el operador lógico de and a not. Si selecciona esta opción, la regla de cruce solo evaluará como verdadero si los registros no coinciden con la lógica definida en este elemento secundario.

    Por ejemplo, si desea identificar a personas que están asociadas a varias cuentas, podría crear una regla de cruce que coincida con el nombre, pero que no coincida con el número de cuenta. Utilizaría la opción Coincidir cuando no sea verdadero para el elemento secundario que no coincide con el número de cuenta.

    Campo de candidato

    Seleccione esto para asignar el campo del registro secundario que seleccione de la lista desplegable a un campo del archivo de entrada.

    Comparar de forma cruzada con Seleccione esto para elegir uno o más nombres de campo de la lista desplegable para establecer cruces de diferentes campos entre dos registros.
    Umbral

    Ingrese el umbral que debe cumplirse a nivel de campo individual para que se determine que ese campo es un cruce.

    Datos ausentes Seleccione una de estas opciones de la lista desplegable para especificar cómo calificar los datos en blanco de un campo:
    • Ignorar valores en blanco: se ignora el campo si está vacío.
    • Contabilizar como 0: asigna al campo una calificación de 0 si contiene datos en blanco.
    • Contabilizar como 100: asigna al campo una calificación de 100 si contiene datos en blanco.
    • Comparar valores en blanco: asigna a los campos sospechosos y candidatos una calificación de 100 si ambos contienen datos en blanco; de lo contrario, se asigna a los campos sospechosos y candidatos una calificación de 0.
    Método de calificación Seleccione una de estas opciones de la lista desplegable para determinar la puntuación de cruce:
    • Promedio ponderado: se utiliza el peso de cada algoritmo para determinar la puntuación de cruce promedio.
    • Promedio: se utiliza la calificación promedio de cada algoritmo para determinar la puntuación de cruce.
    • Máximo: se utiliza la calificación más alta de las calificaciones de los algoritmos para determinar la puntuación de cruce.
    • Mínimo: se utiliza la calificación más baja de las calificaciones de los algoritmos para determinar la puntuación de cruce.
    • Suma total del vector: se utiliza la suma total del vector de la calificación de cada algoritmo para determinar la puntuación de cruce. Este método de calificación es útil si desea que una puntuación de cruce mayor de suma total del vector en uno o más algoritmos se represente de forma proporcional en la puntuación de cruce final. La fórmula utilizada para calcular la calificación final es la siguiente:

      sqrt(a^2+b^2+c^2) / sqrt(n), en la que a, b y c son las calificaciones de tres algoritmos distintos, y n es la cantidad de algoritmos utilizados.

    Evaluar Haga clic en el botón Evaluar para evaluar la regla de cruce. Para obtener más información, consulte Evaluación de una regla de cruce.
    Estadísticas de perfil Haga clic en el botón Estadísticas del perfil para ver las estadísticas del perfil de la columna, que se muestra en un panel lateral. Para obtener más información, consulte Visualización de las estadísticas del perfil de la columna.
    Copiar la configuración en Sirve para copiar la misma configuración en cualquier cantidad de elementos.
    1. Utilice la lista desplegable para seleccionar o anular la selección de los elementos.
    2. Haga clic en Aplicar junto al campo Copiar configuración en a fin de copiar y aplicar la misma configuración para los elementos seleccionados.
    Nota: La configuración principal se puede copiar en un elemento principal, y la configuración secundaria solo en un elemento secundario.
  8. A fin de configurar algoritmos para el tipo de elemento secundario, haga clic en Configurar algoritmos en el nodo de opciones para elementos secundarios para agregar uno o más de estos algoritmos y determinar el cruce en los valores de campo:
    Nota: Utilice Buscar para configurar de forma selectiva los algoritmos.

    Algoritmos de comparación de cadenas

    Sigla
    Determina si un nombre empresarial se cruza con su acrónimo mediante la búsqueda de datos de acrónimos; de lo contrario, crea un acrónimo con el primer carácter de cada palabra.

    Por ejemplo, Internal Revenue Service y su acrónimo IRS se considerarían un cruce y devolverían una puntuación de cruce de 100.

    Frecuencia de caracteres
    Determina la frecuencia de aparición de cada carácter en una cadena y compara las frecuencias generales entre dos cadenas.
    Cruce exacto
    Determina si dos cadenas son iguales.
    Iniciales
    Establece un cruce con las iniciales en nombres personales analizados.
    Variante de nombre
    Determina si dos nombres son variantes entre sí. El algoritmo arroja una calificación de cruce de 100 si dos nombres son variaciones entre sí, y una calificación de cruce de 0 si los dos nombres no son variaciones entre sí.

    Por ejemplo, JOHN es una variación de JAKE y arroja una calificación de cruce de 100. JOHN no es una variación de HENRY y arroja una calificación de cruce de 0.

    Haga clic en Editar para especificar las opciones de variante de nombre. Para obtener más información, consulte la sección Name Variant Finder en la Guía de Spectrum Data Quality.

    Cadena numérica
    Compara las líneas de dirección mediante la separación de sus atributos numéricos de los caracteres. Vea los ejemplos a continuación.
    • Si la dirección de la cadena es 1234 Main Street Apt 567, los atributos numéricos de la cadena (1234567) se analizan y se procesan de forma diferente al resto del valor de la cadena (Main Street Apt). Primero, el algoritmo cruza los datos numéricos de la cadena con el algoritmo numérico. Si el cruce de los datos numéricos es de 100, se cruzan los datos alfabéticos utilizando Distancia de edición y Frecuencia de caracteres. La calificación de cruce final se calcula de la siguiente manera:

      (numericScore + (EditDistanceScore + CharacterFrequencyScore) / 2) / 2)

    • Si calcula la puntuación de cruce de estas dos direcciones:

      123 Main St Apt 567
      123 Maon St Apt 567

      la puntuación de cruce sería de 95.5, y se calcula de esta forma:

      Calificación numérica = 100
      Distancia de edición = 91
      Frecuencia de caracteres = 91

      91 + 91 = 182
      182/2 = 91
      100 + 91 = 191
      191/2 = 95.5

    Subcadena de caracteres
    Determina si una cadena aparece dentro de otra.

    Algoritmos fonéticos

    Daitch-Mokotoff Soundex
    Es un algoritmo fonético que aporta mayor precisión en el establecimiento de cruces de apellidos eslavos e yiddish que tienen una pronunciación similar, pero se escriben diferente. Los nombres codificados tienen seis dígitos y es posible obtener diversas codificaciones para un único nombre. Esta opción se desarrolló como respuesta a las limitaciones de Soundex en el procesamiento de apellidos germanos o eslavos.
    Double Metaphone
    Determina la similitud entre dos cadenas según la representación fonética de sus caracteres. Double Metaphone es una versión mejorada del algoritmo de Metaphone que intenta explicar la gran cantidad de irregularidades detectadas en distintos idiomas.
    Koeln
    Indexa los nombres por sonido, tal como se los pronuncia en alemán. Permite que los nombres que tienen la misma pronunciación se codifiquen con la misma representación, de modo tal que puedan cruzarse a pesar de las pequeñas diferencias en el modo en que se escriben. El resultado es siempre una secuencia de números; los caracteres especiales y los espacios en blanco se ignoran. Esta opción se desarrolló como respuesta a las limitaciones de Soundex.
    Metaphone

    Determina la similitud entre dos cadenas en inglés según la representación fonética de sus caracteres. Esta opción se desarrolló como respuesta a las limitaciones de Soundex.

    Metaphone (español)

    Determina la similitud entre dos cadenas según la representación fonética de sus caracteres. Esta opción se desarrolló como respuesta a las limitaciones de Soundex.

    Metaphone3

    Mejora gracias a los algoritmos de Metaphone y Double Metaphone con ajustes más exactos de consonantes y vocales internas, lo que permite pronunciar palabras y nombres que, a nivel fonético, se cruzan en mayor o menor medida con los términos de búsqueda. Metaphone3 aumenta la precisión de la codificación fonética en un 98 %. Esta opción se desarrolló como respuesta a las limitaciones de Soundex.

    Nysiis
    Es un algoritmo de codificación fonética que cruza una pronunciación aproximada con la escritura exacta de una palabra e indexa palabras que se pronuncian de manera similar. A su vez, forma parte del Sistema de Identificación e Inteligencia del Estado de Nueva York.
    Por ejemplo, supongamos que está buscando información sobre alguien en una base de datos de personas. Usted cree que el nombre de esa persona suena algo así como “John Smith”, pero se escribe “Jon Smath”. Si busca un cruce exacto para “John Smith” no obtendrá resultados. Sin embargo, si indexa la base de datos con el algoritmo de NYSIIS y realiza la búsqueda usando ese mismo algoritmo, obtendrá una coincidencia correcta porque el algoritmo indexa "John Smith" y "Jon Smath" como "JANSNATH". Esta opción se desarrolló como respuesta a las limitaciones de Soundex; a diferencia de este último, maneja algunos n-grams multicarácter y mantiene la posición relativa de las vocales.
    Nota: Este algoritmo no procesa caracteres no alfabéticos; por lo tanto, los registros que contengan caracteres de este tipo se procesarán con errores.
    Phonix
    Preprocesa cadenas de nombres mediante la aplicación de más de 100 reglas de transformación a caracteres únicos o secuencias de varios caracteres. Diecinueve de esas reglas se aplican solo si los caracteres se encuentran al comienzo de la cadena, mientras que 12 de estas se aplican solo cuando los caracteres se encuentran en medio de la cadena, y 28 se aplican únicamente si están al final de la cadena. La cadena de nombre transformada se codifica en un código compuesto por la primera letra seguida de tres dígitos (sin ceros ni números duplicados). Esta opción se desarrolló como respuesta a las limitaciones de Soundex; es más compleja y, por lo tanto, más lenta que esta última.
    Sonnex
    Determina la similitud entre dos cadenas en francés según la representación fonética de sus caracteres. Devuelve una clave codificada de Sonnex de los campos seleccionados.
    Soundex
    Determina la similitud entre dos cadenas según la representación fonética de sus caracteres.
    Alineación silábica
    Combina la información fonética con cálculos basados en la distancia de edición. Convierte las cadenas que se van a comparar en su correspondiente secuencia de sílabas y calcula la cantidad de ediciones que se necesitan para convertir una secuencia de sílabas a otra.

    Medidas de similitud y distancia

    Distancia de edición
    Determina la similitud entre dos cadenas según la cantidad de eliminaciones, inserciones o sustituciones requeridas para transformar una cadena en otra.
    Distancia euclidiana
    Ofrece una medida de similitud entre dos cadenas mediante el espacio de vector de términos combinados como si fuera las dimensiones. También determina el máximo factor común de dos números enteros. Toma un par de números enteros positivos y forma un nuevo par compuesto por el número más pequeño y la diferencia entre los números más grande y más pequeño. El proceso se repite hasta que los números se igualan. El número resultante constituye el máximo factor común del par original.

    Por ejemplo, 21 es el máximo factor común de 252 y 105: (252 = 12 × 21; 105 = 5 × 21); ya que 252 − 105 = (12 − 5) × 21 = 147, el máximo factor común de 147 y 105 también es 21.

    Distancia de Jaro-Winkler
    Determina la similitud entre dos cadenas según la cantidad de caracteres que hay que reemplazar para transformar una cadena en otra. Esta opción se desarrolló para cadenas cortas, por ejemplo, nombres personales.
    Distancia de teclado
    Determina la similitud entre dos cadenas según la cantidad de eliminaciones, inserciones o sustituciones requeridas para transformar una cadena en otra, que se pondera en función de la posición de las teclas del teclado.

    Haga clic en Editar para especificar el tipo de teclado que utiliza: QWERTY (EE. UU.), QWERTZ (Austria y Alemania) o AZERTY (Francia).

    Distancia de Kullback-Liebler
    Determina la similitud entre dos cadenas según las diferencias que presentan en su distribución de palabras.
    Distancia NGram

    Calcula en texto o habla la probabilidad del siguiente término en función de los términos n anteriores, que pueden incluir fonemas, sílabas, letras, palabras o pares de base, y que pueden constar de cualquier combinación de letras.

    Haga clic en Editar para ingresar el tamaño del NGram; el valor predeterminado es 2.

    Similitud de NGram
    Determina la similitud entre dos cadenas en función de la longitud de la mayor subsecuencia en común de fonemas, sílabas, letras, palabras o pares de base.

    Haga clic en Editar para especificar estas opciones:

    • Ngram size: Enter the size of the NGram. El valor predeterminado es 2.
    • Descartar caracteres irrelevantes: seleccione esta opción para reemplazar los signos de puntuación por espacios.
    • Descartar espacios: seleccione esta opción para unir las palabras.

    Algoritmos de fecha

    Fecha
    Compara los campos de fecha independientemente del formato de fecha de los registros de entrada. Haga clic en Editar para especificar estas opciones:
    • Opciones generales, exigir mes: evita que las fechas que solo consisten en un año establezcan un cruce.
    • Opciones generales, exigir día: evita que las fechas que solo consisten en un mes y un año establezcan un cruce.
    • Opciones generales, comparar MM/DD transpuestos: en los casos en que el mes y el día estén en formato numérico, compara el mes sospechoso con el día candidato, así como el día sospechoso con el mes candidato, además de realizar la comparación estándar entre el mes sospechoso y el mes candidato, y el día sospechoso y el día candidato.
    • Opciones generales, preferir el formato DD/MM/AAAA sobre el formato MM/DD/AAAA: contribuye al análisis de la fecha en aquellos casos en que tanto el mes como el día están en formato numérico y su identificación no se puede determinar por el contexto.

      Por ejemplo, dados los números 5 y 13, el analizador asignará automáticamente 5 al mes y 13 al día porque solo hay 12 meses en el año. Sin embargo, dados los números 5 y 12 (o dos números cualquiera que sean iguales o menores que 12), el analizador presupondrá que el número que aparece primero es el mes.

      Si selecciona esta opción, se asegura que el analizador considere el primer número como el día, en lugar del mes.

    • Opciones de rango, general: sirve para establecer la cantidad máxima de días entre las fechas de comparación. Vea los ejemplos a continuación.
      • Por ejemplo, si ingresa un rango general de 35 días y la fecha candidata es el 31 de diciembre del 2000, una fecha sospechosa del 5 de febrero de 2001 sería un cruce, pero no así una del 6 de febrero.
      • Si ingresa un rango general de 1 día y la fecha candidata es de enero del 2000, una fecha sospechosa del 1999 sería un cruce (al comparar el 31 de diciembre del 1999), pero no así una fecha sospechosa de enero de 2001.
    • Opciones de rango, año: sirve para establecer la cantidad de años entre las fechas de comparación, independientemente del mes y el día. Vea los ejemplos a continuación.
      • Por ejemplo, si ingresa 3 como rango de año y la fecha candidata es el 31 de enero del 2000, una fecha sospechosa del 31 de enero del 2003 sería un cruce, pero no así una fecha sospechosa de febrero de 2003.
      • Si la fecha candidata es el año 2000, una fecha sospechosa de marzo de 2003 sería un cruce porque no se especifican los meses y está dentro del rango de tres años.
    • Opciones de rango: mes: sirve para establecer la cantidad de meses entre las fechas de comparación, independientemente del año y el día.

      Por ejemplo, si ingresa 4 como rango de mes y la fecha candidata es el 1 de enero del 2000, una fecha sospechosa de mayo del 2000 es un cruce porque el día coincide y está dentro del rango de cuatro meses, pero una fecha sospechosa del 2 de mayo del 2000 no es un cruce porque los días no coinciden.

    • Opciones de rango: día: sirve para establecer la cantidad de días entre las fechas de comparación, independientemente del año y el mes.

      Por ejemplo, si ingresa 5 como rango de día y la fecha candidata es el 1 de enero del 2000, una fecha sospechosa de enero del 2000 es un cruce porque el día coincide, pero una fecha sospechosa del 27 de diciembre del 1999 no es un cruce porque los meses no coinciden.

    Matriz del algoritmo de comparación y el método de calificación

    En la tabla siguiente, se describe la relación lógica entre la cantidad de algoritmos que puede utilizar según el Método de calificación del elemento principal que seleccione.

    Método de calificación Algoritmos
    Único Múltiple
    Promedio ponderado NA
    Promedio NA
    Suma total del vector
    Máximo NA
    Mínimo NA
  9. Haga clic en Aceptar.
    Nota:
    • Si define una cantidad n de elementos principales y secundarios, utilice el Filtro para buscar los elementos de forma selectiva.
    • Si desea ampliar o plegar todos los nodos del árbol, haga clic en los botones Ampliar todo y Plegar todo .
    • Para ver las estadísticas del perfil de la tabla, haga clic en el botón Estadísticas del perfil , con el que se abre un panel lateral a fin de ver las estadísticas. Para obtener más información, consulte Visualización de estadísticas del perfil.
    Ahora puede guardar o publicar la regla. Para obtener más información, consulte Cómo guardar y publicar la regla.