Terminologie für Vergleiche - spectrum_quality_1 - 23 - 23.1
Spectrum Data Quality-Handbuch
- Product type
- Software
- Portfolio
- Verify
- Product family
- Spectrum
- Product
- Spectrum > Qualität > Spectrum Quality
- Version
- 23.1
- Language
- Deutsch
- Product name
- Spectrum Data Quality
- Title
- Spectrum Data Quality-Handbuch
- First publish date
- 2007
- Last updated
- 2023-10-25
- Published on
- 2023-10-25T06:24:19.942092
- Durchschnittliche Punktzahl
- Der durchschnittliche Übereinstimmungswert aller Dubletten. Möglich sind Werte zwischen 0 und 100, wobei 0 eine niedrige Übereinstimmung und 100 eine genaue Übereinstimmung angibt.
- Basis
- Das ausgewählte Vergleichsergebnis, das mit einem anderen Vergleichsergebnis verglichen wird.
- Kandidatengruppe
- Kopfdubletten- und Kandidatendatensätze, die zusammen nach einer ID gruppiert sind, die durch Candidate Finder zugewiesen wurde. Die Kopfdublette (der erste Datensatz in der Gruppe) ist ein Datensatz, der aus einer Input-Quelle gelesen wird, während Kandidaten in der Regel Datensätze sind, die mithilfe einer SQL-Abfrage in einer Datenbank ermittelt werden.
- Kandidatendatensätze
- Alle Datensätze in einer Übereinstimmungsgruppe oder Kandidatengruppe, bei denen es sich nicht um Kopfdubletten handelt.
- Drop
- Eine Abnahme der Dubletten.
- Übereinstimmender Datensatz – Details
- Ein einzelner Datensatz, der mit einem Datensatz übereinstimmt, der bei einem Vergleichsschritt verarbeitet wurde. Jeder Datensatz stellt Informationen darüber bereit, ob es sich bei dem Datensatz um eine Kopfdublette, einen eindeutigen Datensatz oder eine Dublette handelt. Außerdem werden Informationen über seine Übereinstimmungsgruppe oder Kandidatengruppe und Ausgabesammlung angezeigt. Kandidatendatensätze bieten Informationen zu den Gründen, warum der Eingabedatensatz mit seiner Kopfdublette übereinstimmte oder nicht damit übereinstimmte.
- Sammlungsduplikate
- Ein Sammlungsduplikat besteht aus einer Kopfdublette und ihren Datensatzdubletten, welche wiederum nach einer Sammlungsnummer gruppiert sind. Eindeutige Datensätze gehören immer zu Sammlungsnummer 0.
- Datensatzduplikate
- Anzahl der Datensätze, die mit einem anderen Datensatz in einer Übereinstimmungsgruppe übereinstimmen.
- Ausdrückliche Übereinstimmungen
- Ein Schnellvergleich erfolgt, wenn eine Kopfdublette und ein Kandidat eine genaue Übereinstimmung hinsichtlich der Inhalte eines festgelegten Feldes aufweisen. In der Regel ist dies ein vom Match Key Generator bereitgestellter ExpressMatchKey. Wenn ein Schnellvergleich durchgeführt wird, wird die Verarbeitung nicht fortgesetzt, um zu ermitteln, ob die Kopfdublette und der Kandidat Dubletten sind.
- Eingabedatensätze
- Die Reihenfolge der Datensätze im Vergleichsschritt, bevor die Vergleichssortierung durchgeführt wird.
- Interflow Match
- Ein Vergleichsschritt, der Übereinstimmungen zwischen ähnlichen Datensätzen zwischen zwei Eingabedatensatzstreams ermittelt. Der erste Datensatzstream bildet eine Quelle für Kopfdubletten-Datensätze und der zweite Stream ist eine Quelle für Kandidatendatensätze.
- Intraflow Match
- Ein Vergleichsschritt, der Übereinstimmungen zwischen ähnlichen Datensätzen innerhalb eines einzelnen Eingabestreams ermittelt.
- Lift
- Ein Anstieg in Dubletten.
- Übereinstimmungsgruppen
- (Gruppieren nach) Entweder nach einem Vergleichsschlüssel oder nach einem gleitenden Fenster gruppierte Datensätze.
- Vergleichsergebnisse
- (oder Ressourcengruppe) Logische Gruppierung von Dateien, die durch einen Schritt erzeugt wurden. Diese Daten werden für jede Ausführung eines Schrittes auf der Festplatte gespeichert. Durch nachfolgende Ausführungen werden die Ergebnisse einer vorherigen Ausführung nicht überschrieben oder geändert. In MAT dienen die Gruppen dazu, Informationen zu den zusammenfassenden und detaillierten Ergebnissen sowie Informationen zu den Einstellungen zu liefern.
- Liste der Vergleichsergebnisse
- Liste der Vergleichsergebnisse eines einzelnen Typs, die MAT in der aktuellen Analysesitzung analysieren kann.
- Typ der Vergleichsergebnisse
- Gibt die Inhalte der Vergleichsergebnisse an. Bei MAT dient der Typ der Vergleichsergebnisse zum Ermitteln, wie die Daten zu verwenden sind.
- Vergleichsschritt
- Ein Schritt auf der Arbeitsfläche, der Vergleichsvorgänge ausführt. Die Vergleichsschritte sind „Interflow Match“, „Intraflow Match“ und „Transactional Match“.
- Übersehene Übereinstimmung
- Ein Datensatz, der zuvor eine Kopfdublette oder eine Dublette war und nun als eindeutig eingeordnet wird.
- Neue Übereinstimmung
- Ein Datensatz, der zuvor als eindeutig eingeordnet wurde und nun eine Kopfdublette oder eine Dublette ist.
- Gleitendes Fenster
- Die Vergleichsmethode „Gleitendes Fenster“ füllt der Reihe nach eine vorbestimmte Puffergröße, Fenster genannt, mit der entsprechenden Menge an Datenzeilen. Bei jedem Hinzufügen einer Zeile in das Fenster wird sie mit jedem Element verglichen, das sich bereits im Fenster befindet.
- Kopfdubletten-Datensätze
- Ein Treiberdatensatz, der mit Kandidaten innerhalb einer Übereinstimmungsgruppe oder Kandidatengruppe verglichen wird.
- Transactional Match
- Ein Vergleichsschritt, der Kopfdubletten-Datensätze mit Kandidatendatensätzen abgleicht, die von Candidate Finder oder von einer externen Anwendung zurückgegeben wurden.
- Eindeutige Datensätze
- Ein Kopfdubletten- oder Kandidatendatensatz, der mit keinen anderen Datensätzen in einer Übereinstimmungsgruppe übereinstimmt. Wenn er den einzigen Datensatz in einer Übereinstimmungsgruppe bildet, wird der Kopfdubletten-Datensatz automatisch als eindeutig eingeordnet.