- Connectivité à Hive depuis Spectrum sous Windows
- Prise en charge et connectivité depuis Spectrum vers Hive version 2.1.1 avec haute disponibilité
- Prise en charge de la lecture et de l'écriture à partir de Hive DB (JDBC) via la connexion Model Store
Voir aussi Bonnes pratiques pour la connexion à HDFS 3.x et Hive 2.1.1.
Pour pouvoir utiliser le stage Read from DB, vous devez créer une connexion à la base de données correspondante à l'aide du Gestionnaire de connexion de Spectrum Management Console. Pour plus de détails, voir Gestionnaire de connexion à la base de données dans Write to DB.
Onglet Général
Nom du champ |
Description |
---|---|
Connexion |
Sélectionnez la connexion de base de données à utiliser. Vos choix varient en fonction des connexions qui sont définies dans le Gestionnaire de connexion de Spectrum Management Console. Si vous devez établir une nouvelle connexion à la base de données, ou en modifier ou supprimer une existante, cliquez sur Gérer connexions. Si vous ajoutez ou modifiez une connexion de base de données, remplissez ces champs :
|
SQL |
Saisissez la requête SQL spécifiant les enregistrements à lire à partir de la source de données lors de l'exécution du dataflow. Vous pouvez saisir manuellement la requête SQL dans ce champ. Sinon, utiliser Visual Query Builder pour générer la requête en cliquant sur Créer SQL. La requête SQL peut inclure des variables au lieu de noms de colonne réels. L'utilisation de variables vous permet de personnaliser la requête lors de l'exécution. Pour plus d'informations, reportez-vous à la section Variables de requête. Voici un exemple de requête permettant d'exposer BranchID et BranchType de la table public.Branch de la base de données :
Remarque : Pour les champs de type Entier, les valeurs peuvent être saisies sans guillemets, mais, pour le type Chaîne, elles doivent l'être entre guillemets simples.
|
Editeur SQL | Créez une requête complexe en sélectionnant plusieurs colonnes et en créant des jointures et des requêtes imbriquées en cliquant sur Créer SQL. Visual Query Builder s'ouvre. Pour plus d'informations, reportez-vous à la section Générateur visuel de requêtes. Remarque : Une requête créée à l'aide de Visual Query Builder s'affiche avec les noms complets des colonnes et des tables dans le champ SQL.
|
Régénérer les champs | Pour afficher le schéma des données à extraire par la requête, cliquez sur Régénérer les champs. Si vous modifiez une requête existante, cliquez sur Régénérer les champs pour récupérer le schéma modifié. Remarque : Si vous cliquez sur Régénérer les champs, les noms d'entité de la requête SQL sont conservés et non remplacés par leurs noms complets.
|
Aperçu | Pour voir un échantillon des enregistrements récupérés par la requête SQL, cliquez sur Prévisualisation. |
date
sous forme de valeurs String
. Il s’agit du comportement du pilote jTDS, qui est le pilote par défaut utilisé par Spectrum. Pour gérer toutes les valeurs du type de données date
en l'état, utilisez le pilote JDBC de Microsoft.L'onglet Exécution
Nom du champ | Description |
---|---|
Taille de la récupération |
Sélectionnez cette option pour indiquer le nombre d'enregistrements à lire en une seule fois depuis la table de base de données. Par exemple, si la valeur de Taille de l'extraction est 100 et que le nombre total d'enregistrements à lire est 1 000, la base de données lit l'ensemble des enregistrements en 10 fois. La définition d'une valeur Taille de l'extraction optimale peut considérablement améliorer les performances.
Remarque : Vous pouvez calculer une taille d'extraction optimale pour votre environnement en testant les temps d'exécution entre un stage Read from DB et un stage Write to Null. Pour plus d'informations, reportez-vous à la section Définition d'une taille d'extraction optimale.
|
Options d'étape | Cette section répertorie les options de dataflow utilisées dans la requête SQL de ce stage et vous permet de fournir une valeur par défaut pour toutes ces options. La colonne Nom répertorie les options, tandis que vous pouvez saisir les valeurs par défaut dans la colonne Valeur correspondante.
Remarque : La valeur par défaut fournie ici est également affichée dans la section Map dataflow options to stages de la boîte de dialogue Options de dataflow. La boîte de dialogue vous permet également de modifier la valeur par défaut. En cas de conflit des valeurs par défaut fournies pour une option via Options de stage, Options de dataflow et Job Executor, l’ordre de priorité est le suivant : valeur fournie via Job Executor > valeur définie via la boîte de dialogue Options de dataflow > valeur saisie via Options de stage.
|