- Konnektivität zu Hive von Spectrum auf Windows
- Unterstützung von und Konnektivität zu Hive-Version 2.1.1 von Spectrum mit hoher Verfügbarkeit
- Unterstützung für das Lesen und Schreiben aus der Hive-DB (JDBC) über eine Model Store-Verbindung
Siehe auch Best Practices für die Verbindung mit HDFS 3.x und Hive 2.1.1.
Um den Schritt Read from DB verwenden zu können, müssen Sie die Verbindung zur jeweiligen Datenbank mithilfe des Verbindungs-Manager der Spectrum Management Console herstellen. Weitere Informationen finden Sie im Abschnitt „Datenbankverbindungs-Manager“ unter Write to DB.
Registerkarte „Allgemein“
Feldname |
Beschreibung |
---|---|
Verbindung |
Wählen Sie die gewünschte Datenbankverbindung aus. Die Auswahlmöglichkeiten variieren, je nachdem, welche Verbindungen im Verbindungs-Manager der Spectrum Management Console definiert sind. Klicken Sie auf Verbindungen verwalten, wenn Sie eine neue Datenbankverbindung herstellen oder eine vorhandene Datenbankverbindung ändern oder löschen müssen. Wenn Sie eine Datenbankverbindung hinzufügen oder ändern, füllen Sie diese Felder aus:
|
SQL |
Geben Sie die SQL-Abfrage ein, um die Datensätze anzugeben, die beim Ausführen des Datenflusses aus der Datenquelle gelesen werden müssen. Sie können die SQL-Abfrage von Hand in dieses Feld eingeben. Alternativ können Sie den Visual Query Builder verwenden, um die Abfrage durch Anklicken von SQL erstellen zu erstellen. Die SQL-Abfrage kann Variablen anstelle der tatsächlichen Spaltennamen enthalten. Über die Verwendung von Variablen können Sie die Abfrage zur Laufzeit anpassen. Weitere Informationen finden Sie unter Abfragevariablen. Eine Beispielabfrage zur Darstellung von BranchID und BranchType aus der Relation public.Branch in der Datenbank kann folgendermaßen aussehen:
Anmerkung: In Felder vom Typ Ganze Zahl können Werte ohne Anführungszeichen eingegeben werden, aber für den Typ Zeichenfolge sollte er in einfachen Anführungszeichen stehen.
|
SQL erstellen | Erstellen Sie eine komplexe Abfrage, indem Sie mehrere Spalten auswählen und Joins sowie verschachtelte Abfragen durch Klicken auf SQL erstellen.erstellen. Der Visual Query Builder wird geöffnet. Weitere Informationen finden Sie unter Visueller Suchersteller. Anmerkung: Eine mit Visual Query Builder erstellte Abfrage wird im Feld SQL mit vollständig qualifizierten Namen von Spalten und Relationen angezeigt.
|
Felder erneut generieren | Zur Anzeige des Schemas der Daten, die von der Abfrage abgerufen werden sollen, klicken Sie auf Felder erneut generieren. Wenn Sie eine vorhandene Abfrage bearbeiten, klicken Sie auf Felder erneut generieren, um das geänderte Schema abzurufen. Anmerkung: Wenn Sie auf Felder erneut generieren klicken, werden die Entitätsnamen in der SQL-Abfrage beibehalten und nicht durch ihre vollständig qualifizierten Namen ersetzt.
|
Vorschau | Um ein Beispiel der von der SQL-Abfrage abgerufenen Datensätze anzuzeigen, klicken Sie auf Vorschau. |
date
als String
-Werte ein. Dieses Verhalten beruht auf dem von Spectrum verwendeten Standardtreiber, dem jTDS-Treiber. Um alle date
-Datentypenwerte unverändert zu verarbeiten, verwenden Sie den JDBC-Treiber von Microsoft.Registerkarte „Laufzeit“
Feldname | Beschreibung |
---|---|
Abrufgröße |
Wählen Sie diese Option aus, um die Anzahl der Datensätze anzugeben, die jeweils aus der Datenbankrelation gelesen werden sollen. Wenn die Abrufgröße beispielsweise 100 beträgt und die Gesamtzahl der zu lesenden Datensätze 1.000 beträgt, würden 10 Abrufe benötigt werden, um alle Datensätze zu lesen. Das Einstellen einer optimalen Abrufgröße kann die Leistung deutlich verbessern.
Anmerkung: Sie können eine optimale Abrufgröße für Ihre Umgebung berechnen, in dem Sie die Ausführungszeiten zwischen einem „Read from DB“-Schritt und einem „Write to Null“-Schritt in Tests ermitteln. Weitere Informationen finden Sie unter Ermitteln einer idealen Abrufgröße.
|
Schrittoptionen | In diesem Abschnitt sind die Datenflussoptionen aufgeführt, die in der SQL-Abfrage dieses Schrittes verwendet werden. Zudem können Sie hier einen Standardwert für diese Optionen angeben. In der Spalte Name sind die Optionen aufgelistet. In der entsprechenden Spalte Wert können Sie die Standardwerte eingeben.
Anmerkung: Der hier angegebene Standardwert wird auch im Abschnitt Datenflussoptionen zu Schritten zuordnen des Dialogfeldes Datenflussoptionen angezeigt. Mithilfe der Dialogbox können Sie außerdem den Standardwert ändern. Wenn für Standardwerte einer Option unterschiedliche Werte über Schrittoptionen, Datenflussoptionen und Job Executor angegeben sind, gilt folgende Rangfolge: im Job Executor angegebener Wert > unter Datenflussoptionen definierter Wert > unter Schrittoptionen eingegebener Wert.
|