Recomendaciones para el ajuste del rendimiento - spectrum_quality_1 - 23.1

Guía de Spectrum Data Quality

Product type
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Quality > Spectrum Quality
Version
23.1
Language
Español (México)
Product name
Spectrum Data Quality
Title
Guía de Spectrum Data Quality
First publish date
2007
Last updated
2024-02-07
Published on
2024-02-07T17:21:06.785000

En las siguientes secciones, se combinan muchas sugerencias que pueden servir de ayuda para mejorar el rendimiento de varias etapas de calidad de datos. Las recomendaciones que figuran le servirán de ayuda para alcanzar el rendimiento de las etapas Advanced Matching, Data Normalization y Universal Name.

Las siguientes recomendaciones se aplican a todas las etapas:
  • Cantidad de registros: analizar y filtrar los registros antes de enviarlos para su procesamiento mejora el rendimiento, ya que un aumento de la cantidad de registros genera un aumento proporcional en el tiempo.
  • Clúster: el rendimiento aumenta cuando el procesamiento se realiza en modo de clúster.

Recomendaciones de rendimiento para las etapas Advanced Matching

Etapa Recomendaciones para el rendimiento

Intraflow Match

  • Tamaño de grupo: si se minimiza el tamaño del grupo o la clave de cruce al nivel óptimo, se puede alcanzar un mejor rendimiento, ya que, dada la misma cantidad de registros, un aumento en el tamaño del grupo genera un mayor tiempo de procesamiento.
  • Clave inmediata: el uso de una clave inmediata durante el cruce mejora el rendimiento, pero se debe evaluar para asegurarse de que la clave inmediata sea un candidato adecuado para el cruce inmediato.
  • Datos de entrada: recibir datos de entrada ordenados por clave de cruce mejora el rendimiento.
  • Regla de cruce: la optimización de la regla de cruce aumenta el rendimiento, ya que una regla de cruce compleja disminuye el rendimiento.

Interflow Match

  • Tamaño de grupo: si se minimiza el tamaño del grupo o la clave de cruce al nivel óptimo, se puede alcanzar un mejor rendimiento, ya que, dada la misma cantidad de registros, un aumento en el tamaño del grupo genera un mayor tiempo de procesamiento.
  • Regla y clave de cruce: debe optimizar de forma apropiada la regla y clave de cruce, ya que desempeña un papel crucial en el aumento del rendimiento.

Transactional Match

Esta etapa es rápida en comparación con la etapa Intraflow Match; sin embargo, se recomienda elegir la etapa correspondiente de acuerdo con sus requisitos, ya que ambas tienen dos finalidades diferentes. Además, a diferencia de Intraflow Match, el tamaño del grupo no afecta el rendimiento, ya que el sospechoso se cruza solo una vez con el candidato.

Best of Breed

Duplicate Synchronization

Filtro

Condición: minimizar las condiciones mejora el rendimiento, ya que una mayor cantidad de condiciones genera un mayor tiempo de procesamiento.

Match Key Generator

Tiempo de ejecución: un aumento en las instancias de tiempo de ejecución aumenta el rendimiento.

Candidate Finder Gracias a las siguientes recomendaciones, se mejora el rendimiento del Índice de búsqueda.
  • Tiempo de ejecución: el rendimiento de la operación de búsqueda aumenta cuando aumentan las instancias de tiempo de ejecución. Según la configuración del equipo, se decide cuántas instancias de tiempo de ejecución se pueden usar.

    Por ejemplo, observamos una mejora en el rendimiento con un aumento de las instancias de tiempo de ejecución.

  • Campos: el rendimiento de las operaciones de creación y búsqueda disminuye si hay más campos en el índice. Sin embargo, el rendimiento de la operación de actualización sigue siendo casi el mismo sin consideración de la cantidad de campos que haya en el índice.

    Por ejemplo, observamos una disminución del rendimiento en el caso de una búsqueda cuando aumenta la cantidad de campos.

  • Tamaño del lote: el rendimiento varía cuando cambia el tamaño del lote. El número óptimo de tamaño de lote del equipo se determina con diferentes valores de lote. Esto depende de la memoria del equipo y los recursos de la CPU.
  • Particiones: la operación de actualización mejora hasta cierto nivel cuando aumenta la cantidad de particiones. El rendimiento de la búsqueda disminuye con una mayor cantidad de particiones.

    Por ejemplo, observamos que la actualización se vuelve relativamente más veloz cuando aumentan las particiones, mientras que el rendimiento de la búsqueda disminuye.

  • Condiciones del Candidate Finder (CF): la búsqueda toma tiempo cuando aumenta la cantidad de condiciones de la etapa Candidate Finder.

    Por ejemplo, observamos una disminución del rendimiento cuando aumentó la consulta del CF.

  • Analizador: buscar mediante un analizador de palabras clave es mucho más rápido que un analizador estándar.

    Por ejemplo, observamos una mejora en el rendimiento cuando el analizador cambió de estándar a palabra clave.

Nota: El rendimiento del índice de búsqueda depende de varios factores, y los puntos mencionados más arriba son solo una indicación de cómo puede variar el rendimiento según la configuración aplicada. Es esencial comprender la situación del usuario final, que es el factor clave para decidir sobre la elección del hardware, la configuración del índice, la configuración del clúster y otros parámetros de configuración a fin de alcanzar un rendimiento óptimo.

Recomendación sobre rendimiento para las etapas Data Normalization

Etapa Recomendación para el rendimiento

Table Lookup

Advanced Transformer

Open Parser

Tiempo de ejecución: un aumento en las instancias de tiempo de ejecución aumenta el rendimiento.