La création d'un sous-ensemble de données est susceptible d'avoir l'impact le plus important sur les performances, car elle inclut les performances du profilage (chargement/analyse des données) et le traitement ultérieur Quality. Nous recommandons d'échantillonner en créant un sous-ensemble de données chaque fois que cela est possible.
Vous pouvez créer un sous-ensemble de données en personnalisant les données et/ou en échantillonnant le nombre de lignes lorsque vous créez une entité. Pour obtenir les meilleurs résultats, veillez à ce que le sous-ensemble de données constitue un échantillon cohérent de données pour toutes les entités que vous envisagez de charger dans le référentiel.
Pour créer un sous-ensemble de données en personnalisant les données
-
Ouvrez l'assistant de création d'entité pour créer une entité.
-
Dans l'assistant, sélectionnez le fichier de données et le fichier de schéma, puis cliquez sur Aperçu.
-
Utilisez la fenêtre Lignes de données pour personnaliser les données qui seront chargées.
-
Cliquez avec le bouton droit de la souris sur un en-tête de colonne et sélectionnez Masquer pour supprimer la colonne du chargement de données.
-
Cliquez avec le bouton droit de la souris n'importe où dans l'en-tête de colonne et sélectionnez Sélectionner des colonnes. Sélectionnez les attributs à masquer ou dont vous souhaitez modifiez l'ordre des colonnes en faisant glisser les noms des attributs vers l'emplacement approprié.
-
Cliquez avec le bouton droit de la souris n'importe où et sélectionnez Filtrer. Créez une expression qui définit les critères à appliquer aux lignes de données.
Pour en savoir plus sur la façon de créer des expressions, consultez l'aide TSS (Repérer > Conformité des données en utilisant les règles de gestion > Générateur d'expressions).
Remarque : Si votre source est une base de données relationnelle, vous pouvez filtrer les données en appliquant un filtre SQL. Pour savoir comment appliquer un filtre SQL, consultez l'aide TSS (Filtrage des données d'une base de données relationnelle). -
-
Fermez la fenêtre Lignes de données.
Les modifications que vous avez apportées aux données en mode aperçu sont conservées. Lorsque vous chargez les données de la source dans votre entité, les colonnes masquées ne sont pas chargées ; seules les lignes sélectionnées sont chargées et les colonnes sont disposées comme vous les avez configurées en mode Aperçu.
Pour créer un sous-ensemble de données en échantillonnant des lignes
-
Dans l'assistant de création d'entité, accédez aux paramètres de chargement et sélectionnez l'une des options suivantes :
-
Les [nombre] premières lignes. Chargez un nombre sélectionné de lignes à partir du début de l'entité (par exemple, les 1 000 premières lignes).
-
Échant. (%) aléatoire ([pourcentage] %) Échantillonnez de manière aléatoire un pourcentage de lignes de l'entité.
-
Sauter les [nombre] premières lignes. Permet de spécifier une ligne de départ pour le chargement des données. Par exemple, si votre entité comporte 300 lignes et que vous sélectionnez Toutes les lignes et Sauter les 99 premières lignes, TSS charge 201 lignes, en commençant par la 100e.
-
-
Cliquez sur Suivant.
Lorsque vous chargez les données de la source dans votre entité, seules les lignes sélectionnées sont chargées.
Le traitement d'un petit sous-ensemble par le centre de contrôle peut ne pas vous donner les résultats de profilage dont vous avez besoin. Si vous souhaitez profiler le résultat final, ajoutez le processus d'analyse au résultat final du projet.
Pour plus d'informations sur le processus d'analyse, consultez l'aide TSS (Développer > Processus TS Quality > Processus de profilage > Utilisation des processus d'analyse).