Algoritmos para determinar los valores de comparación - 23.1

spectrum-inline

Product type
Portfolio
Enrich
Integrate
Locate
Verify
Product family
Product
Spectrum > Spectrum Platform
Version
23.1
Language
Español (México)
Product name
Precisely Spectrum
Title
spectrum-inline
First publish date
2007
ft:lastEdition
2024-02-07
ft:lastPublication
2024-02-07T18:28:29.460054

Sigla
Determina si un nombre comercial coincide con su acrónimo buscando datos de acrónimos; de lo contrario, crea un acrónimo con la primera letra de cada palabra. Ejemplo: Internal Revenue Service y su sigla IRS serían considerados un cruce y arrojarían una calificación de cruce de 100.
Frecuencia de caracteres
Determina la frecuencia de aparición de cada carácter en una cadena y compara las frecuencias generales entre dos cadenas.
Daitch-Mokotoff Soundex
Algoritmo fonético que identifica con mayor precisión los apellidos eslavos e yiddish que tienen una pronunciación similar pero se escriben diferente. Los nombres codificados tienen seis dígitos y es posible obtener diversas codificaciones para un único nombre. Esta opción se desarrolló para responder a las limitaciones de Soundex en el procesamiento de apellidos germanos o eslavos.
Fecha
Compara los campos de fecha independientemente del formato de fecha de los registros de entrada. Haga clic en Editar en la columna Opciones para especificar lo siguiente:
  • Requerir mes: evita que las fechas que consisten solamente en un año presenten un cruce.
  • Requerir día: evita que las fechas que consisten solamente en un mes y un año presenten un cruce
  • Comparar MM/DD transpuestos: en los casos en que el mes y el día están en formato numérico, compara el mes sospechoso con el día candidato y el día sospechoso con el mes candidato, además de realizar la comparación estándar entre mes sospechoso y mes candidato y día sospechoso y día candidato
  • Preferir el formato DD/MM/AAAA al formato MM/DD/AAAA: contribuye al análisis de la fecha en aquellos casos en que tanto el mes como el día están en formato numérico y su identificación no se puede determinar por el contexto. Por ejemplo, dados los números 5 y 13, el analizador asignará automáticamente 5 al mes y 13 al día porque solo hay 12 meses en el año. Sin embargo, dados los números 5 y 12 (o dos números cualquiera que sean iguales o menores que 12), el analizador presupondrá que el número que aparece primero es el mes. Seleccionar esta opción asegura que el analizador considere que el primer número es el día en vez del mes.
  • Opciones de rango: General: permite configurar la cantidad máxima de días entre las fechas de comparación. Por ejemplo, si ingresa un rango general de 35 días y su fecha candidata es el 31 de diciembre de 2000, una fecha sospechosa del 5 de febrero de 2001 sería un cruce, pero no así una del 6 de febrero. Si ingresa un rango general de 1 día y su fecha candidata es enero de 2000, una fecha sospechosa de 1999 sería un cruce (al comparar el 31 de diciembre de 1999) pero no así una fecha sospechosa de enero de 2001.
  • Opciones de rango: Año: permite configurar la cantidad de años entre las fechas de comparación, independientemente del mes y el día. Por ejemplo, si ingresa 3 como rango de año y su fecha candidata es el 31 de enero de 2000, una fecha sospechosa del 31 de enero de 2003 sería un cruce, pero no así una fecha sospechosa de febrero de 2003. De la misma manera, si su fecha candidata es el año 2000, una fecha sospechosa de marzo de 2003 sería un cruce porque no se especifican los meses y está dentro del rango de tres años.
  • Opciones de rango: Mes: permite configurar la cantidad de meses entre las fechas de comparación, independientemente del año y el día. Por ejemplo, si ingresa 4 como rango de mes y su fecha candidata es el 1 de enero de 2000, una fecha sospechosa de mayo de 2000 es un cruce porque no se especifica un día y está dentro del rango de cuatro meses, pero una fecha sospechosa del 2 de mayo de 2000 no es un cruce porque los días no coinciden.
  • Opciones de rango: día: permite configurar la cantidad de días entre las fechas de comparación, independientemente del año y el mes. Por ejemplo, si ingresa 5 como rango de día y su fecha candidata es el 1 de enero de 2000, una fecha sospechosa de enero de 2000 es un cruce porque no se especifica un día, pero una fecha sospechosa del 27 de diciembre de 1999 no es un cruce, porque los meses no coinciden.
Double Metaphone
Determina la similitud entre dos cadenas según la representación fonética de sus caracteres. Double Metaphone es una versión mejorada del algoritmo Metaphone e intenta explicar la gran cantidad de irregularidades encontradas en los distintos idiomas.
Distancia de edición
Determina la similitud entre dos cadenas según el número de eliminaciones, inserciones o sustituciones que se requieren para transformar una cadena en otra.
Distancia euclidiana
Ofrece una medida de semejanza entre dos cadenas mediante el uso del espacio de vector de términos combinados como si fuera las dimensiones. También determina el máximo factor común de dos números enteros. Toma un par de números enteros positivos y forma un nuevo par compuesto por el número más pequeño y la diferencia entre los números más grande y más pequeño. El proceso se repite hasta que los números se igualan. El número resultante constituye el máximo factor común del par original. Por ejemplo, 21 es el máximo factor común de 252 y 105: (252 = 12 × 21; 105 = 5 × 21); ya que 252 − 105 = (12 − 5) × 21 = 147, el máximo factor común de 147 y 105 también es 21.
Cruce exacto
Determina si dos cadenas son iguales.
Iniciales
Se utiliza para cruzar las iniciales en nombres personales analizados.
Distancia de Jaro-Winkler
Determina la similitud entre dos cadenas según el número de caracteres que hay que reemplazar para transformar una cadena en otra. Esta opción se desarrolló para cadenas cortas, por ejemplo, nombres personales.
Distancia de teclado
Determina la similitud entre dos cadenas según el número de eliminaciones, inserciones o sustituciones que se requieren para transformar una cadena en otra, ponderada según la posición de las teclas en el teclado. Haga clic en Editar en la columna Opciones para especificar el tipo de teclado que utiliza: QWERTY (Estados Unidos), QWERTZ (Austria y Alemania) o AZERTY (Francia).
Koeln
Indexa los nombres por sonido, tal como se los pronuncia en alemán. Permite que los nombres que tienen la misma pronunciación se codifiquen con la misma representación, de modo tal que puedan cruzarse a pesar de las pequeñas diferencias en el modo en que se escriben. El resultado es siempre una secuencia de números; los caracteres especiales y los espacios en blanco se ignoran. Esta opción se desarrolló para responder a las limitaciones de Soundex.
Distancia de Kullback-Liebler
Determina la similitud entre dos cadenas según las diferencias que presentan en su distribución de palabras.
Metaphone
Determina la similitud entre dos cadenas en inglés según la representación fonética de sus caracteres. Esta opción se desarrolló para responder a las limitaciones de Soundex.
Metaphone (español)
Determina la similitud entre dos cadenas según la representación fonética de sus caracteres. Esta opción se desarrolló para responder a las limitaciones de Soundex.
Metaphone 3
Mejora los algoritmos de Metaphone y Double Metaphone con parámetros más exactos de consonantes y vocales internas que permiten pronunciar palabras y nombres que, fonéticamente, coinciden en mayor o menor medida con los términos de búsqueda. Metaphone 3 aumenta la precisión de la codificación fonética en un 98%. Esta opción se desarrolló para responder a las limitaciones de Soundex.
Variante de nombre
Determina si dos nombres son variantes entre sí. El algoritmo arroja una calificación de cruce de 100 si dos nombres son variaciones entre sí, y una calificación de cruce de 0 si los dos nombres no son variaciones entre sí. Por ejemplo, JOHN es una variación de JAKE y arroja una calificación de cruce de 100. JOHN no es una variante de HENRY y devuelve una puntuación de cruce de 0. Haga clic en Editar en la columna Opciones para seleccionar las opciones de variante de nombre. Para obtener más información, consulte Name Variant Finder.
Distancia NGram

Calcula en texto o habla la probabilidad del siguiente término basado en los términos n anteriores, que pueden incluir fonemas, sílabas, letras, palabras o pares de base y que pueden consistir en cualquier combinación de letras. Este algoritmo incluye una opción para ingresar el tamaño de NGram; el valor predeterminado es 2.

Similitud de NGram

Determina la similitud entre dos cadenas basada en la longitud de la mayor subsecuencia común de fonemas, sílabas, letras, palabras o pares de base.

El algoritmo incluye las siguientes opciones:

  • Tamano de Ngram: ingrese el tamano de NGram. El valor predeterminado es 2.
  • Soltar los caracteres irrelevantes: seleccione la casilla de verificación para reemplazar la puntuación con espacio.
  • Soltar espacios: seleccione la casilla de verificación para combinar palabras.
Cadena numérica
Compara las líneas de dirección separando los atributos numéricos de los caracteres en una línea de dirección. Por ejemplo, si la cadena de la dirección es 1234 Main Street Apt 567, los atributos numéricos de la cadena (1234567) se analizan y procesan de forma diferente al resto del valor de la cadena (Main Street Apt). Primero, el algoritmo cruza los datos numéricos de la cadena con el algoritmo numérico. Si el cruce de los datos numéricos es de 100, se cruzan los datos alfabéticos utilizando Distancia de edición y Frecuencia de caracteres. La calificación de cruce final se calcula de la siguiente manera:

(numericScore + (EditDistanceScore + CharacterFrequencyScore) / 2) / 2

Por ejemplo, la calificación de cruce de las siguientes dos direcciones es de 95,5 y se calcula de la siguiente manera:

123 Main St Apt 567
123 Maon St Apt 567

Calificación numérica = 100
Distancia de edición = 91
Frecuencia de caracteres = 91

91 + 91 = 182
182/2 = 91
100 + 91 = 191
191/2 = 95.5

Nysiis
Algoritmo de codificación fonética que cruza una pronunciación aproximada con una palabra escrita exacta e indexa palabras que se pronuncian de manera similar. Parte del sistema de inteligencia e identificación del estado de Nueva York (New York State Identification and Intelligence System). Supongamos que está buscando información sobre alguien en una base de datos de personas. Usted cree que el nombre de esa persona suena algo así como "John Smith", pero en realidad se escribe "Jon Smath". Si busca una coincidencia exacta para "John Smith" no obtendrá resultados. Sin embargo, si indexa la base de datos con el algoritmo de NYSIIS y realiza la búsqueda usando ese mismo algoritmo, obtendrá una coincidencia correcta porque el algoritmo indexa "John Smith" y "Jon Smath" como "JANSNATH". Esta opción se desarrolló como respuesta a las limitaciones de Soundex; a diferencia de este último, Nyssis utiliza algunos n-gramas multicarácter y mantiene la posición relativa de las vocales.
Nota: Este algoritmo no procesa caracteres no alfabéticos; por lo tanto, los registros que contengan caracteres de este tipo se procesarán con errores.
Phonix
Sirve para procesar con anterioridad las cadenas de nombres mediante la aplicación de más de 100 reglas de transformación a caracteres únicos o a secuencias de varios caracteres. 19 de esas reglas se aplican solo si los caracteres se encuentran al comienzo de la cadena de caracteres, mientras que 12 de ellas se aplican solo cuando los caracteres se encuentran en medio de la cadena, y 28 solo se aplican si están al final de la cadena. La cadena de nombre transformada se codifica en un código compuesto por la primera letra seguida de tres dígitos (sin ceros ni números duplicados). Esta opción se desarrolló como respuesta a las limitaciones de Soundex; es más compleja y, por lo tanto, más lenta que esta última.
Sonnex
Este algoritmo determina la similitud entre dos cadenas en francés según la representación fonética de sus caracteres.
Devuelve una clave codificada de Sonnex de los campos seleccionados.
Soundex
Determina la similitud entre dos cadenas según la representación fonética de sus caracteres.
Subcadena de caracteres
Determina si una cadena aparece dentro de otra.
Alineación silábica
Combina la información fonética con cálculos basados en la distancia de edición. Convierte las cadenas que se van a comparar en su correspondiente secuencia de sílabas y calcula la cantidad de ediciones que se necesitan para convertir una secuencia de sílabas a otra.

La siguiente tabla describe la relación lógica que existe entre el número de algoritmos que usted puede utilizar según el método de calificación del elemento principal que haya seleccionado.

Tabla 1. Matriz del algoritmo de comparación y el método de calificación
Método de calificación Algoritmos
Único Múltiple
Promedio ponderado N/A
Promedio N/A
Máximo
Mínimo N/A
Suma total del vector N/A