Read From DB - data_integration_1 - 23 - 23.1

Guide Spectrum Enterprise Data Integration

Product type
Logiciels
Portfolio
Integrate
Product family
Spectrum
Product
Spectrum > Data Integration
Version
23.1
Language
Français
Product name
Spectrum Data Integration
Title
Guide Spectrum Enterprise Data Integration
First publish date
2005
Last updated
2023-10-12
Published on
2023-10-12T08:41:57.873791
Le stage Read From DB lit des données d'une table ou d'une vue de base de données sous forme d'entrée d'un dataflow. Le stage est disponible pour les jobs, les services et les sous-flux, mais pas pour les processflow.
Remarque : Le stage prend en charge la lecture et l'écriture de données dans HDFS 3.x et Hive 2.1.1. La prise en charge comprend :
  • Connectivité à Hive depuis Spectrum sous Windows
  • Prise en charge et connectivité depuis Spectrum vers Hive version 2.1.1 avec haute disponibilité
  • Prise en charge de la lecture et de l'écriture à partir de Hive DB (JDBC) via la connexion Model Store

Voir aussi Bonnes pratiques pour la connexion à HDFS 3.x et Hive 2.1.1.

Tâche associée :

Pour pouvoir utiliser le stage Read from DB, vous devez créer une connexion à la base de données correspondante à l'aide du Gestionnaire de connexion de Spectrum Management Console. Pour plus de détails, voir Gestionnaire de connexion à la base de données dans Write to DB.

Onglet Général

Nom du champ

Description

Connexion

Sélectionnez la connexion de base de données à utiliser. Vos choix varient en fonction des connexions qui sont définies dans le Gestionnaire de connexion de Spectrum Management Console. Si vous devez établir une nouvelle connexion à la base de données, ou en modifier ou supprimer une existante, cliquez sur Gérer connexions.

Si vous ajoutez ou modifiez une connexion de base de données, remplissez ces champs :
Nom de connexion
Saisissez le nom de la connexion.: Ce nom est entièrement de votre choix.
Pilote de la base de données
Sélectionnez le type de base de données approprié.
Options de connexion
Indiquez l'hôte, le port, l'instance, le nom d'utilisateur et le mot de passe à utiliser pour vous connecter à la base de données.

SQL

Saisissez la requête SQL spécifiant les enregistrements à lire à partir de la source de données lors de l'exécution du dataflow. Vous pouvez saisir manuellement la requête SQL dans ce champ. Sinon, utiliser Visual Query Builder pour générer la requête en cliquant sur Créer SQL.

La requête SQL peut inclure des variables au lieu de noms de colonne réels. L'utilisation de variables vous permet de personnaliser la requête lors de l'exécution. Pour plus d'informations, reportez-vous à la section Variables de requête.

Voici un exemple de requête permettant d'exposer BranchID et BranchType de la table public.Branch de la base de données :
select * from "public"."Branch" where  "BranchID" = # {ID} and "BranchType" = # {Type}
Remarque : Pour les champs de type Entier, les valeurs peuvent être saisies sans guillemets, mais, pour le type Chaîne, elles doivent l'être entre guillemets simples.
Editeur SQL Créez une requête complexe en sélectionnant plusieurs colonnes et en créant des jointures et des requêtes imbriquées en cliquant sur Créer SQL. Visual Query Builder s'ouvre. Pour plus d'informations, reportez-vous à la section Générateur visuel de requêtes.
Remarque : Une requête créée à l'aide de Visual Query Builder s'affiche avec les noms complets des colonnes et des tables dans le champ SQL.
Régénérer les champs Pour afficher le schéma des données à extraire par la requête, cliquez sur Régénérer les champs.

Si vous modifiez une requête existante, cliquez sur Régénérer les champs pour récupérer le schéma modifié.

Remarque : Si vous cliquez sur Régénérer les champs, les noms d'entité de la requête SQL sont conservés et non remplacés par leurs noms complets.
Aperçu Pour voir un échantillon des enregistrements récupérés par la requête SQL, cliquez sur Prévisualisation.
Remarque : Le stage Read From DB vous permet de modifier le type d'un champ d'entrée.
Remarque : Le stage Read from DB lit toutes les valeurs du type de données date sous forme de valeurs String. Il s’agit du comportement du pilote jTDS, qui est le pilote par défaut utilisé par Spectrum. Pour gérer toutes les valeurs du type de données date en l'état, utilisez le pilote JDBC de Microsoft.

L'onglet Exécution

Nom du champ Description
Taille de la récupération

Sélectionnez cette option pour indiquer le nombre d'enregistrements à lire en une seule fois depuis la table de base de données. Par exemple, si la valeur de Taille de l'extraction est 100 et que le nombre total d'enregistrements à lire est 1 000, la base de données lit l'ensemble des enregistrements en 10 fois.

La définition d'une valeur Taille de l'extraction optimale peut considérablement améliorer les performances.
Remarque : Vous pouvez calculer une taille d'extraction optimale pour votre environnement en testant les temps d'exécution entre un stage Read from DB et un stage Write to Null. Pour plus d'informations, reportez-vous à la section Définition d'une taille d'extraction optimale.
Options d'étape
Cette section répertorie les options de dataflow utilisées dans la requête SQL de ce stage et vous permet de fournir une valeur par défaut pour toutes ces options. La colonne Nom répertorie les options, tandis que vous pouvez saisir les valeurs par défaut dans la colonne Valeur correspondante.
Remarque : La valeur par défaut fournie ici est également affichée dans la section Map dataflow options to stages de la boîte de dialogue Options de dataflow. La boîte de dialogue vous permet également de modifier la valeur par défaut. En cas de conflit des valeurs par défaut fournies pour une option via Options de stage, Options de dataflow et Job Executor, l’ordre de priorité est le suivant : valeur fournie via Job Executor > valeur définie via la boîte de dialogue Options de dataflow > valeur saisie via Options de stage.