Définition des options de performances de tri par défaut - spectrum_platform - 23 - 23.1

Guide d'administration Spectrum

Product type
Logiciels
Portfolio
Integrate
Locate
Verify
Product family
Spectrum
Product
Spectrum > Spectrum Platform
Version
23.1
Language
Français
Product name
Spectrum Technology Platform
Title
Guide d'administration Spectrum
First publish date
2007
Last updated
2023-10-12
Published on
2023-10-12T07:14:51.523252

Le tri de grands ensembles de données peut constituer l'une des opérations les plus longues effectuées lors du traitement par lots. C'est pourquoi la définition d'options de performances de tri appropriées peut avoir un impact significatif sur les performances de vos jobs. Les options de performances de tri contrôlent l'utilisation de la mémoire et du disque, ce qui vous permet de tirer pleinement parti de la capacité de mémoire et de disque disponible.

Vous pouvez configurer les paramètres de performances de tri à deux endroits différents. Le premier concerne Spectrum Management Console. C'est là où vous spécifiez les options de performances de tri par défaut de votre système. Le deuxième concerne les stages de dataflow qui effectuent un tri. Les stages Sorter, Read from File, Write to File et tous les autres stages qui comprennent des opérations de tri comportent des options de performances de tri. Quand vous spécifiez des options de performances de tri dans un stage, vous remplacez les options de performances de tri par défaut en sélectionnant différents paramètres à appliquer aux stages individuels d'un dataflow.

Cette procédure explique comment définir les options de performances de tri par défaut des jobs exécutés sur votre serveur Spectrum Technology Platform.

  1. Ouvrez Management Console.
  2. Accédez à Flux > Paramètres par défaut.
  3. Configurez ces options pour contrôler les performances de tri :
    Option Description
    Limite du nombre d'enregistrement en mémoire Spécifie le nombre maximum de rangées de données qu'un trieur peut contenir en mémoire avant que celui-ci commence à pager sur le disque. Par défaut, un tri de 10 000 enregistrements ou moins sera effectué en mémoire et un tri de plus de 10 000 enregistrements sera effectué sur le disque. La limite maximale est de 100 000 enregistrements. En général, un tri en mémoire est beaucoup plus rapide qu'un tri sur le disque ; donc, il faut définir une valeur assez haute pour que la plupart des tris s'effectuent en mémoire et que seuls les groupes de grande taille soient écrits sur le disque.
    Remarque : Soyez conscient du fait qu'au sein d'environnements où des jobs s'exécutent de manière simultanée, une augmentation du paramètre Dans la limite d'enregistrement mémoire augmente la probabilité de ne plus disposer de suffisamment de mémoire.
    Nombre maximal de fichiers temporaires Spécifie le nombre maximal de fichiers temporaires pouvant être employés par un processus de tri. L'utilisation d'un plus grand nombre de fichiers temporaires peut améliorer les performances. Cependant, le nombre optimal dépend très largement de la configuration du le serveur qui exécute Spectrum Technology Platform. Nous vous conseillons d'essayer différents paramètres et d'observer l'effet de l'utilisation d'un plus ou moins grand nombre de fichiers temporaires sur les performances. Pour calculer le nombre approximatif de fichiers temporaires nécessaires, utilisez l'équation suivante :

    (NumberOfRecords × 2) ÷ InMemoryRecordLimit = NumberOfTempFilesN

    Remarque : Le nombre maximal de fichiers temporaires ne peut pas être supérieure à 1 000.
    Activer la compression Spécifie si les fichiers temporaires sont compressés lors de leur écriture sur le disque.
    Remarque : Les paramètres de performances de tri optimal dépendent de la configuration matérielle de votre serveur. Vous pouvez utiliser cette équation comme directive générale pour obtenir de bonnes performances de tri :

    (InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords