Auf dieser Seite werden die Spalten Ihrer Daten in einem Tabellenformat angezeigt. Sie müssen die Spalten aus Ihren Daten auswählen, die am Modelltraining und der Erstellung der „Best of Breed“-Regel teilnehmen müssen, und die Felder auswählen, für die die Daten zusammengeführt werden sollen.
Basierend auf den ausgewählten Spalten werden automatisch Gruppen von Datensätzen generiert und diese auf der nächsten Seite zum Tagging angezeigt. Die generierten Gruppen decken alle Variationen in den Daten unter Verwendung fortschrittlicher und intelligenter Algorithmen und Techniken ab. Nehmen wir beispielsweise an, Ihre ursprüngliche Eingabedatei enthielt 5.000 Gruppen, und das System zeigt möglicherweise nur 50 Gruppen an, die alle Variationen abdecken.
Anmerkung: Standardmäßig beträgt die maximale Sammlungsgröße 10, und Gruppen, die größer sind, werden vom Konsolidierungsprozess ausgeschlossen.
Der Zweck der Generierung von Variationen besteht darin, eine kleine Teilmenge von Sammlungen zur Kennzeichnung zu identifizieren, die die meisten eindeutigen Variationen in Quelldaten abdecken. Es ist, als würden einige Sammlungen aus einer großen Menge von Sammlungen ausgewählt, die die vollständige Menge darstellen. Durch die Kennzeichnung dieser Teilmenge wird die „Best of Breed“-Regel geliefert, die einer Regel ähnelt, die wir durch die Kennzeichnung der gesamten Sammlungsmenge erhalten hätten.
Die Variationen werden basierend auf Vorgängen aus dem Best of Breed-Schritt generiert.
|
Anmerkung: Standardmäßig ist das Pflichtfeld Sammlungsnummerautomatisch ausgewählt und deaktiviert. Die Sammlungsnummer identifiziert jede Datensatzdublette in einer Vergleichswarteschlange. Wenn der Kandidat eine Dublette ist, wird ihm eine Sammlungsnummer zugewiesen.