Análisis de resultados - discovery - 23.1

Guía de Spectrum Discovery

Product type
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Discovery
Version
23.1
Language
Español (México)
Product name
Spectrum Discovery
Title
Guía de Spectrum Discovery
First publish date
2007
En la página Análisis de resultados, se muestra la regla de cruce boolean anidada que se genera y los componentes de clave de cruce potencial aprendidos a partir de la información proporcionada. La regla de cruce se puede revisar y exportar al repository de reglas de cruce de la opción Administración de cumplimiento de reglas, en Enterprise Designer. Esto también se puede usar en los trabajos por lotes. Los componentes de clave de cruce potencial se pueden usar en la etapa Match Key Generator de Enterprise Designer después de la revisión.

Pestaña de regla de cruce

En esta ficha, se muestra la regla de cruce y las condiciones asociadas a ella con los atributos como Umbral, Método de calificación, Algoritmos, Datos omitidos y Método de cruce, y los valores para cada uno de estos atributos.

Se proporcionan aún más capacidades para seleccionar una clave de cruce desde el menú desplegable Clave de cruce vinculada que debe vincular a la regla de cruce. Puede seleccionar una clave de cruce que aparezca en el repositorio o una de las que sugiere el sistema. Si selecciona una clave de cruce que sugiere el sistema, asegúrese de otorgarle un nombre en el momento de la publicación, ya que los nombres predeterminados que sugiere el sistema son Match Key 1, Match Key 2, y así sucesivamente.
Nota: Para desvincular la clave de cruce en cualquier momento, bórrela. Es obligatorio volver a publicar la regla para admitir los cambios.

También puede ver una vista previa de la clave de cruce si hace clic en el botón Acceder a la vista previa de la clave de cruce . Si hace clic, se abre una nueva ventana, donde puede seguir modificando la clave de cruce disponible en el repositorio o usar la clave de cruce que sugiere el sistema según sus necesidades.

Nota: Spectrum Smart Data Quality (SDQ) está integrado en Data Stewardship, que sirve de ayuda para mejorar las reglas de cruce en función del manejo de excepciones realizado en Data Stewardship. Cuando guarda las actualizaciones manuales en los registros de Data Stewardship, se refleja como una notificación en la página Proyectos de SDQ, que corresponde al proyecto en el que realizó las modificaciones.
Nota: Por último, en la página Calidad de datos de Data Stewardship, se brinda información sobre tendencias de etapas y flujos de datos.

Pestaña de clave de cruce

En esta pestaña, se muestran los componentes de clave de cruce potencial en formato tabular. También aparece la Columna en la que se detectó el componente de clave de cruce, además del Algoritmo que se usará. El Tamaño promedio del grupo sirve de ayuda para determinar el tamaño promedio del grupo para la clave de cruce, que se genera para el conjunto de datos completo. Se obtiene el promedio de cada valor en función de cada combinación de claves de cruce para evitar cualquier pérdida del nivel de precisión. Puede revisar y elegir usar cualquiera de los componentes de clave de cruce potencial en función de su situación; para ello, agréguelos a la etapa Match Key Generator de Enterprise Designer.
Nota: A partir de ahora, se admiten los siguientes algoritmos.
Algoritmo Descripción
Soundex Devuelve un código Soundex de campos seleccionados. El algoritmo Soundex produce un código de longitud fija basado en la pronunciación en inglés de las palabras.
Metaphone Devuelve una clave codificada Metaphone de campos seleccionados. Metaphone es un algoritmo para codificar palabras utilizando su pronunciación del inglés.
Consonante Devuelve campo especificados con consonantes eliminadas.
Subcadena de caracteres Devuelve una porción específica del campo seleccionado.
Nysiis Es un algoritmo de codificación fonética que establece cruces entre una pronunciación aproximada y la escritura exacta de una palabra, e indexa palabras que se pronuncian de manera similar. Forma parte del Sistema de Inteligencia e Identificación del Estado de Nueva York.

Supongamos que está buscando información sobre alguien en una base de datos de personas. Cree que el nombre de esa persona suena algo así como "John Smith", pero en realidad se escribe "Jon Smyth". Si busca una coincidencia exacta para "John Smith" no obtendrá resultados. Sin embargo, si indexa la base de datos con el algoritmo de NYSIIS y realiza la búsqueda usando ese mismo algoritmo, obtendrá una coincidencia correcta porque el algoritmo indexa "John Smith" y "Jon Smyth" como "JAN SNATH".

Double Metaphone Devuelve un código basado en una representación fonética de sus caracteres. Double Metaphone es una versión mejorada del algoritmo Metaphone e intenta explicar la gran cantidad de irregularidades encontradas en los distintos idiomas.
MD5 Un algoritmo de síntesis del mensaje que produce un valor hash de 128 bits. Este algoritmo suele usarse para comprobar la integridad de los datos.
Ejemplo: En esta tabla, se muestra una posible clave de cruce Clave de cruce 1 detectada en la columna teléfono con un tamaño promedio de grupo de 2. El algoritmo debe usar SUBCADENA DE CARACTERES (1, 7), donde 1 es el índice de inicio y 7 es el último índice que se debe especificar en las opciones de la etapa Generador de clave de cruce. El índice de inicio se fija en 1 para todos los componentes de clave de cruce potencial.
Clave de cruce Columna Algoritmo Tamaño promedio del grupo
Clave de cruce 1 teléfono SUBCADENA DE CARACTERES (1, 7) 2

En función de las acciones que realice: Variaciones presentes en los datos de muestra cargados, Columnas seleccionadas para el cruce y Registros etiquetados, el sistema desbloqueó patrones presentes en los datos para proporcionarle una regla de cruce y componentes de clave de cruce potencial. Se recomienda probar los resultados generados en el conjunto de datos.