Auswählen von Spalten - discovery - 23 - 23.1

Spectrum Discovery-Handbuch

Product type
Software
Portfolio
Verify
Product family
Spectrum
Product
Spectrum > Discovery
Version
23.1
Language
Deutsch
Product name
Spectrum Discovery
Title
Spectrum Discovery-Handbuch
First publish date
2007
Last updated
2023-10-25
Published on
2023-10-25T06:23:10.810287
Auf dieser Seite werden die Spalten Ihrer Daten in einem Tabellenformat angezeigt. Sie müssen die Spalten aus Ihren Daten auswählen, die am Modelltraining und der Erstellung der „Best of Breed“-Regel teilnehmen müssen, und die Felder auswählen, für die die Daten zusammengeführt werden sollen.
  1. Aktivieren Sie das Kontrollkästchen Spaltenname bei den Spalten, die an der Erstellung der „Best of Breed“-Regel teilnehmen müssen.
  2. Wenn Sie ein Feld zusammenführen möchten, schalten Sie Zusammenführen auf JA um.
    Anmerkung: Stellen Sie sicher, dass Sie immer bei dem Feld, das Sie zusammenführen möchten, das entsprechende Kontrollkästchen aktivieren.
  3. Wählen Sie aus der Dropdown-Liste den gewünschten Semantiktyp aus, nachdem Sie das entsprechende Kontrollkästchen bei dieser Spalte aktiviert haben. Standardmäßig wird KEINE angezeigt.
Basierend auf den ausgewählten Spalten werden automatisch Gruppen von Datensätzen generiert und diese auf der nächsten Seite zum Tagging angezeigt. Die generierten Gruppen decken alle Variationen in den Daten unter Verwendung fortschrittlicher und intelligenter Algorithmen und Techniken ab. Nehmen wir beispielsweise an, Ihre ursprüngliche Eingabedatei enthielt 5.000 Gruppen, und das System zeigt möglicherweise nur 50 Gruppen an, die alle Variationen abdecken.
Anmerkung: Standardmäßig beträgt die maximale Sammlungsgröße 10, und Gruppen, die größer sind, werden vom Konsolidierungsprozess ausgeschlossen.

Der Zweck der Generierung von Variationen besteht darin, eine kleine Teilmenge von Sammlungen zur Kennzeichnung zu identifizieren, die die meisten eindeutigen Variationen in Quelldaten abdecken. Es ist, als würden einige Sammlungen aus einer großen Menge von Sammlungen ausgewählt, die die vollständige Menge darstellen. Durch die Kennzeichnung dieser Teilmenge wird die „Best of Breed“-Regel geliefert, die einer Regel ähnelt, die wir durch die Kennzeichnung der gesamten Sammlungsmenge erhalten hätten.

Die Variationen werden basierend auf Vorgängen aus dem Best of Breed-Schritt generiert.
BOB-Operator Basierend auf Feature
Häufigste Häufigkeit
Längste/Kürzeste Länge
Höchste/Niedrigste Rang
Größer/Kleiner als Absolute Werte
Gleich/Ungleich Basiert darauf, die kategoriespezifischen Werte zu finden und die erhaltenen Werte als Feature zu verwenden.
Leer/Nicht leer Häufigkeit
Anmerkung: Standardmäßig ist das Pflichtfeld Sammlungsnummerautomatisch ausgewählt und deaktiviert. Die Sammlungsnummer identifiziert jede Datensatzdublette in einer Vergleichswarteschlange. Wenn der Kandidat eine Dublette ist, wird ihm eine Sammlungsnummer zugewiesen.