Anhand von Profilerstellungsregeln werden unterschiedliche Analysetypen auf Ihren Daten ausgeführt. Wählen Sie beim Einrichten eines Profils die Profilerstellungsregeln aus, die die gewünschten Datenanalysearten durchführen.
In diesem Abschnitt werden die in Spectrum Discovery unterstützten Profilerstellungsregeln beschrieben.
Zeichenanalyse
Anhand dieser Regel werden Muster, Skripte und Zeichentypen in Zeichenfolgenfeldern identifiziert. Um diese Regel beim Erstellen eines Profils zu konfigurieren, klicken Sie auf das Symbol „Konfigurieren“ , fügen Sie Sonderzeichen aus der Liste hinzu und bearbeiten oder löschen Sie sie. Wenn Sie diese Regel aktivieren, erhalten Sie die folgenden Informationen für die Zeichenfolgenfelder in Ihren Daten:
- Häufigkeit: Die am häufigsten verwendeten Wortgruppen in der ausgewählten Zeichenfolgenspalte.
- Skriptverteilung: Die unterschiedlichen Skripte, die in der ausgewählten Zeichenfolgenspalte identifiziert wurden, sowie deren Anzahl.
- Zeichenfolgenlängen: Die Verteilung von Zeichenfolgenlängen in der ausgewählten Zeichenfolgenspalte.
- Zeichenkategorien: Die Zeichentypen in der ausgewählten Spalte, z. B. Buchstaben, Interpunktion und Zahl.
- Textmuster: Wandelt Daten in der Zeichenfolgenspalte in ein Muster um und zeigt das Muster, dessen Anzahl und den Prozentsatz für sein Vorkommen an. Das Muster wird anhand der folgenden Regel ermittelt:
- Lateinische Großbuchstaben werden durch „A“ ersetzt
- Lateinische Kleinbuchstaben werden durch „a“ ersetzt
- Ziffern werden durch „9“ ersetzt
- Steuerzeichen werden durch ersetzt
Einspaltige Schlüsselanalyse
Erkennt den Primärschlüssel (Kandidat) basierend auf dem Schwellenwert für Eindeutigkeit und Vollständigkeit, den Sie für Ihre Profildaten konfigurieren.
- Aktivieren Sie das Kontrollkästchen „Regel“, und klicken Sie auf das Symbol „Konfigurieren“ .
- Geben Sie im Popup-Fenster Regelkonfiguration den Schwellenwert für Vollständigkeit und Eindeutigkeit ein. Geben Sie beispielsweise 90 als Schwellenwert für die Vollständigkeit und 80 als Schwellenwert für die Eindeutigkeit ein.
- Klicken Sie auf OK.
- Spaltenname: Name der Spalte mit den vollständigen und eindeutigen Daten. Beispiel: In diesem Fall UserID.
- Vollständigkeit: Der Vollständigkeitswert. Beispiel: 100
- Eindeutigkeit: Der Eindeutigkeitswert. Beispiel: 100
Interne Regel
Bestimmt die Statistik wie Vollständigkeit, Eindeutigkeit, Häufigkeit und Ausreißer im Dataset.
Semantikanalyse
- Benutzerdefiniert: Diese Regel erkennt die benutzerdefinierten Semantiktypen unter Glossar definieren und verwendet sie zur Profilerstellung für das Dataset. Die benutzerdefinierten Semantiktypen können Daten anhand dieser Parameter ermitteln:
- Wenn Sie einen Ausdruck im Semantiktyp definiert haben, findet dieser seine Übereinstimmung im Dataset und ruft das Ergebnis auf der Seite Ergebnisse der Datenprofilerstellung ab.
- Wenn Sie die Daten, nach denen gesucht werden soll, angegeben haben, sucht der benutzerdefinierte Semantiktyp im Dataset danach und zeigt diese auf der Seite Ergebnisse der Datenprofilerstellung an. Wenn beispielsweise bei der Option Vorhanden in des Semantiktyps Single oder Verheiratt angegeben ist, werden alle Datensätze abgerufen, die diesen Wert aufweisen.
- Advanced Transformer-Suche: Diese Regel bestimmt die benutzerdefinierten Tabellen im „Advanced Transformer“-Schritt und verwendet diese, um ein Profil für das Dataset zu erstellen. Sie müssen Spectrum Data Normalization installieren und die Advanced Transformer-Referenztabellen laden, um diese Regel ausführen zu können. Die von Ihnen konfigurierten Tabellen werden auf der Registerkarte Semantiktyp der Seite Glossar definieren angezeigt. Sie können nicht bearbeitet werden. Anmerkung: Sie können die Tabellen im Enterprise Designer bearbeiten.
Wenn Sie diese Regel auswählen, werden auf der Seite Ergebnisse der Datenprofilerstellung die erkannten Semantiktypen angezeigt, wenn die Daten mit der im Schritt definierten Tabelle übereinstimmen.
- Open Parser-Suche: Diese Regel bestimmt die benutzerdefinierten Tabellen im „Open Parser“-Schritt und verwendet diese, um ein Profil für das Dataset zu erstellen. Sie müssen Spectrum Data Normalization installieren und die Open Parser-Referenztabellen laden, um diese Regel ausführen zu können. Die von Ihnen konfigurierten Tabellen werden auf der Registerkarte Semantiktyp der Seite Glossar definieren angezeigt. Sie können nicht bearbeitet werden.Anmerkung: Sie können die Tabellen im Enterprise Designer bearbeiten.
Wenn Sie diese Regel auswählen, werden auf der Seite Ergebnisse der Datenprofilerstellung die erkannten Semantiktypen angezeigt, wenn die Daten mit der im Schritt definierten Tabelle übereinstimmen.
- Analyse der Kreditkartenprüfung: Wählen Sie diese Regel aus, um Kreditkartennummern zu erkennen und zu überprüfen und Kreditkartennummern als JCB, VISA, Diners Club (DINERS), MasterCard, Discover oder American Express (AMEX) zu identifizieren. Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte „Kreditkartenübersicht“ mit diesen Details angezeigt:
- Gültigkeit: Die gültigen und ungültigen Kreditkartennummern.
- Kreditkartenverteilung: Verteilung der erkannten Kreditkarten nach Kategorie.
- Datumsanalyes: Anhand dieser Regel werden Datumswerte in Zeichenfolgenspalten ermittelt und überprüft. Zudem werden Datumsmuster in den Spalten sowie deren Verteilung angezeigt. Diese Analyse kann beim Ermitteln von Datumseinträgen in fehlerhaften Spalten, z. B. in E-Mail-Daten, hilfreich sein. Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte Datumszusammenfassung für die Zeichenfolgenspalten mit Datumswerten angezeigt. Auf dieser Registerkarte werden die folgenden Details angezeigt:
- Gültigkeit: Die gültigen und ungültigen Werte.
- Datumsmuster: Die in den ausgewählten Spalten ermittelten Datumsmuster, ihre Gesamtanzahl und der Prozentsatz dieses Musters im Dataset.
- E-Mail-Analyse: Anhand dieser Regel werden E-Mail-Adressen ermittelt und überprüft. Zudem bestimmt diese Regel die Verteilung von E-Mail-Domänen in der ausgewählten Datenspalte. Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte E-Mail-Zusammenfassung mit diesen Details angezeigt.
- Gültigkeit: Die gültigen und ungültigen Werte.
- Domänenverteilung: Die zehn häufigsten E-Mail-Domänen in der ausgewählten Spalte
- Telefonnummernanalyse: Wählen Sie diese Regel aus, um Telefonnummern zu ermitteln und zu überprüfen sowie als Festnetznummern, Mobiltelefonnummern oder eine beliebige andere Art von Nummer zu identifizieren. Diese Regel zeigt zudem die Verteilung der Telefonnummern nach Land und Region an. Sie müssen diese Regel konfigurieren, um das Standardland zu definieren, das verwendet werden soll, wenn kein Ländercode in einer Telefonnummer angegeben ist. Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte Telefonnummernzusammenfassung mit diesen Details angezeigt.
- Gültigkeit: Die gültigen und ungültigen Telefonnummern.
- Telefonnummerntypen: Die Typen von Telefonnummern, z. B. Mobil, Festnetz, VOIP, Pager oder gebührenfrei.
- Telefonnummern nach Land: Die Verteilung der ermittelten Telefonnummern nach Land.
- Telefonnummern nach Region: Die Verteilung der ermittelten Telefonnummern nach Region.
- FIN-Analyse (Fahrzeugidentifizikationsnummer): Wählen Sie diese Regel aus, um Fahrzeugidentifikationsnummern zu ermitteln und zu überprüfen. Diese Regel zeigt zudem die Verteilung der Fahrzeugidentifikationsnummern nach Land an. Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte FIN-Übersicht mit diesen Details angezeigt:
- Gültigkeit: Die gültigen und ungültigen Fahrzeugidentifikationsnummern.
- FIN-Länderverteilung: Verteilung der ermittelten Fahrzeugidentifikationsnummern nach Ländern.
- SSN-Analyse (Sozialversicherungsnummer): Wählen Sie diese Regel aus, um Sozialversicherungsnummern zu ermitteln und zu überprüfen. Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte SSN-Übersicht mit den gültigen und ungültigen Sozialversicherungsnummern angezeigt.
- IBAN-Analyse (internationale Kontonummer): Wählen Sie diese Regel aus, um internationale Bankkontonummern zu ermitteln und zu überprüfen. Diese Regel gibt auch die Verteilung von internationalen Bankkontonummern nach Land an. Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte IBAN-Übersicht mit diesen Details angezeigt:
- Gültigkeit: Die gültigen und ungültigen internationalen Kontonummern.
- IBAN-Länderverteilung: Verteilung der erkannten internationalen Bankkontonummern nach Land.
- Semantikanalyse: Wählen Sie diese Regel aus, um Semantiktypen zu ermitteln, z. B. Vorname, Ort, Land, ISO-Ländercode 2 und 3, Nachname (Familienname) und Bundesland/-staat. Anhand dieser Regel können Sie nach Werten in falschen Spalten suchen, z. B. Ortsnamen in einer Länderspalte. Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung eine weitere Registerkarte Semantiktyp mit den ermittelten Semantiktypen und deren Häufigkeit angezeigt.
- Analyse von US-Adressen: Diese Regel bestimmt die Qualität Ihrer Adressdaten anhand der US-amerikanischen Datenbank von Spectrum Universal Addressing. Gehen Sie wie folgt vor, um diese Regel auszuführen:
- Installieren Sie die US-amerikanische Datenbank von Spectrum Universal Addressing, und definieren Sie sie in der Management Console als Ressource. Weitere Informationen zum Hinzufügen dieser Datenbankressource erhalten Sie im Administratorhandbuch.
- Konfigurieren Sie die Regel für die Analyse von US-Adressen, indem Sie auf die Schaltfläche „Konfigurieren“ klicken und die folgenden Informationen eingeben:
- Datenbank des Coder von US-Adressen: Wählen Sie die Datenbankressource von Spectrum Universal Addressing aus, die in der Management Console konfiguriert ist.
- Feld „AddressLine1“ bis Feld „AddressLine5“: Ordnen Sie diese Felder den Spalten der analysierten Relation zu. Sie müssen Spaltennamen nicht unbedingt in alle Felder eingeben. Je spezifischer Ihre Angaben jedoch sind, desto besser fällt der Übereinstimmungswert aus.
- Ordnen Sie die Spalten in Ihrer Relation den Feldern City, Country, USUrbanName, FirmName, PostalCode und StateProvince zu.
Wenn Sie diese Regel auswählen, wird auf der Seite Ergebnisse der Datenprofilerstellung die Registerkarte Adressenzusammenfassung angezeigt.
- In der Legende unter dem Diagramm wird der Übereinstimmungswert für die Daten sowie die Farbcodierung angezeigt.
- Zeigen Sie auf eine beliebige Position im Diagrammbereich, um den Übereinstimmungswert anzuzeigen. Die Übereinstimmungswerte werden als Bereiche angegeben (0, 1–25, 26–50, 51–80, 81–99 und 100), wobei Null darauf hinweist, dass keine Übereinstimmung der Daten mit der Datenbank vorhanden ist. Das Diagramm zeigt außerdem den Prozentsatz der ermittelten übereinstimmenden Datensätze an (farbcodiert).
- Klicken Sie auf einen Bereich im Diagramm, um die Daten anzuzeigen, die eine oder keine Übereinstimmung mit der Datenbank aufweisen.
- Analyse von internationalen Adressen: Diese Regel bestimmt die Qualität Ihrer Adressdaten anhand der Datenbank von Spectrum Global Address Validation. Gehen Sie wie folgt vor, um diese Regel auszuführen:
- Installieren Sie die Datenbank von Spectrum Global Address Validation, und definieren Sie sie in der Management Console als Ressource. Weitere Informationen finden Sie im Administratorhandbuch.
- Konfigurieren Sie die Regel für die Analyse internationaler Adressen, indem Sie auf die Schaltfläche „Konfigurieren“ klicken und die folgenden Informationen eingeben:
- Addressing Engine-Datenbank: Wählen Sie die Datenbankressource von Global Address Validation aus, die in der Management Console konfiguriert ist.
- Zuverlässigkeitsschwelle: Geben Sie den Wert der Zuverlässigkeitsschwelle ein, um Felder zu erkennen, die unter den angegebenen Wert fallen. Der Standardwert dieses Feldes ist 80.
- Relationsliste: Wählen Sie die Relation aus, in der Sie diese Regel ausführen möchten.
- Felder AddressLine1 und Country: Ordnen Sie diese Felder den Spalten in der analysierten Relation zu.
- Ordnen Sie die Spalten in Ihrer Relation den Feldern LastLine, City, CitySubdivision, PostalCode, State, StateSubdivision und FirmName zu. Sie müssen Spaltennamen nicht unbedingt in alle Felder eingeben. Je spezifischer Ihre Angaben jedoch sind, desto besser fällt der Übereinstimmungswert aus.Wenn Sie diese Regel auswählen, werden die Seite Ergebnisse der Datenprofilerstellung sowie die Registerkarte Adressenzusammenfassung angezeigt. Letztere zeigt die folgenden Informationen an:
- Vertrauensverteilung internationaler Adressen: Der Übereinstimmungswert der Daten. Der Übereinstimmungswert ist farbcodiert. Zeigen Sie auf eine beliebige Position im Kreisdiagramm, um den Bereich des Übereinstimmungswertes (0, 1–25, 26–50, 51–80, 81–99 und 100) anzuzeigen, wobei Null darauf hinweist, dass keine Übereinstimmung der Daten in der Datenbank vorliegt. Klicken Sie auf einen Bereich im Diagramm, um eine Vorschau der übereinstimmenden oder nicht übereinstimmenden Daten anzuzeigen.
- Genauigkeit internationaler Adressen: Hierbei handelt es sich um die Verteilung von Überprüfungsstufen von Adressen, z. B. Bundesland/-staat, Haus, Postleitzahl, Ort, Stadtteil und Straße.
- Verteilung internationaler Adressen mit nicht übereinstimmenden Feldern: Hier wird die Verteilung nicht übereinstimmender Adressfelder angezeigt, z. B. Stadtunterteilung, Bundesland, Straßenname und Postleitzahl. Die Zuverlässigkeitsschwelle dieser Adresse liegt unter dem von Ihnen bei der Konfiguration der Regel Internationale Adressanalyse definierten Wert.
Analyse der Datensatzdubletten
Diese Regel identifiziert Datensatzdubletten innerhalb einer Tabelle und hilft, sie mithilfe der intelligenten Regelfunktion zu lösen. Wenn die Tabelle Datensatzdubletten enthält, werden diese in Gruppen auf der separaten Registerkarte Analyse der Datensatzdubletten in den Ergebnissen angezeigt. Lassen Sie uns das Ganze anhand des folgenden Beispiels veranschaulichen:
Beispiel
FirstName | Adresse | Telefon |
---|---|---|
Amanda | 68846 John Island | 949-727-4834 |
Aminda | 2746 Thomas Ride Suite 252 | 949-727-4834 |
Amanda | 68846 Jon Island | 949-727-4834 |
Johnathan | 2747 Thoms Ridge Suite 252 | 949-727-4834 |
Manda | 68846 Joan Island | 949-727-4834 |
Bill | 072 Courtney Mountains | 142-025-5264 |
Judit | 3317 Bryan Umion | 675-223-2832 |
Juddith | 830 Johnson Streen | 675-223-2832 |
Charles | 200 Mia Ramp Apt. 131 | 237-538-6959 |
Judith | 3317 Brayn Union | 675-223-2832 |
Judih | 3317 Brain Union | 838-045-9865 |
Gruppe 1 | ||
---|---|---|
FirstName | Adresse | Telefon |
Amanda | 68846 John Island | 949-727-4834 |
Amanda | 68846 Jon Island | 949-727-4834 |
Group2 | ||
---|---|---|
FirstName | Adresse | Telefon |
Juddith | 830 Johnson Streen | 675-223-2832 |
Judith | 3317 Brayn Union | 675-223-2832 |
Dienstkonfiguration
Hiermit können Sie die Spectrum-Standarddienste und die Dienste verwenden, die Sie mit den verschiedenen Spectrum-Schritten konfiguriert haben, für die Sie lizenziert sind. Mithilfe dieser Konfiguration können Sie die Transformationen wiederverwenden, die mit verschiedenen Spectrum-Schritten für Ihre Daten entworfen wurden. Lassen Sie uns das Ganze anhand des folgenden Beispiels veranschaulichen:
- Wählen Sie die Regel für die Dienstkonfiguration aus, und klicken Sie auf das entsprechende Zahnradsymbol .
- Geben Sie im Popup-Fenster Dienstkonfiguration folgende Details an.
Feld Beschreibung Dienste Wählen Sie aus der Dropdown-Liste den erforderlichen Dienst aus. Dort werden alle verfügbar gemachten Dienste aufgelistet. Anmerkung: Sie können mehrere Dienste hinzufügen, indem Sie auf den Link Dienste hinzufügen klicken.Diensteingabefelder und Quelleingabefelder Zeigt die Liste der Felder an, die als Eingabe im ausgewählten Dienst verwendet werden. Jedes Diensteingabefeld hat ein entsprechendes Quelleingabefeld. Verwenden Sie die Dropdown-Liste der Quelleingabefelder, um das erforderliche Feld aus Ihren Eingabedaten auszuwählen. Daten im ausgewählten Feld werden als Eingabe verwendet, wenn Sie das Profil ausführen.Anmerkung: Die Datentypen von Eingabefeldern und Quellfeldern, denen diese zugeordnet werden, sollten gleich sein.Beispiel:- Die Diensteingabefelder lauten First_Name und Last_Name.
- Wählen Sie in den entsprechenden Quelleingabefelderndie Einträge FirstName und LastName aus.
Dienstausgabefelder Zeigt die Ausgabefelder des ausgewählten Dienstes an. Wählen Sie die Felder aus, die in Ihrer Profilausgabe enthalten sein sollen. Sie können das Type-Ahead-Suchfeld verwenden, um die erforderlichen Felder zu finden. Anmerkung: Wenn der Dienst den Datentyp Liste als Ausgabe aufweist, können Sie diesen bei der Profilerstellung nicht verwenden. - Klicken Sie auf OK.
- Wenn Sie die Profilerstellung ausführen, wird die Ausgabe auf der Seite „Ergebnisse der Datenprofilerstellung“ unter Name_Service angezeigt. Klicken Sie auf eines der Ausgabefelder, um die zugehörigen Statistiken anzuzeigen. Anmerkung: Sie können die Dienste nutzen und Ausgaben der Profilerstellung abrufen, auch wenn Sie keine Lizenz für das jeweilige Modul haben oder Ihre Lizenz abgelaufen ist. Die Seite „Profilübersicht“ enthält eine zusätzliche Registerkarte für die Anzeige der Lizenz-Ausnahme.
Analyse benutzerdefinierter Muster
Anhand dieser Regel wird ein beliebiges Muster in der Zeichenfolgenspalte identifiziert. Sie können die gewünschte Anzahl regulärer Ausdrücke konfigurieren, um Ihre Daten gegen diese abzugleichen. Klicken Sie auf das Symbol „Konfigurieren“ , und geben Sie die folgenden Details ein, um diese Regel beim Erstellen eines Profils zu konfigurieren:
- Schlüssel: Name des zu identifizierenden Musters
- Wert: Der reguläre Ausdruck für das Muster
Beispiel: Geben Sie den regulären Ausdruck
^(.+)@(.+)$
in das Feld Wert und „E-Mail“ in das Feld Schlüssel ein, wenn Sie E-Mail-Adressen in Zeichenfolgenspalten identifizieren möchten. - Klicken Sie auf das Symbol „Hinzufügen“, und fügen Sie die Details des nächsten Schlüssel-Wert-Paars hinzu, um einen weiteren Ausdruck hinzuzufügen. Sie können die gewünschte Anzahl von Ausdrücken hinzufügen, um Ihre Daten gegen diese abzugleichen.
Wenn Sie diese Regel aktivieren, erhalten Sie die folgenden Informationen:
- Gültigkeit: Die Werte, die mit mindestens einem der Muster für reguläre Ausdrücke in der Regel übereinstimmten.
- Verteilung Mustervergleich: Die Verteilung von Datensätzen, die mit den regulären Ausdrücken übereinstimmten.
Ausreißeranalyse
Wählen Sie diese Regel aus, um die Ausreißer in Ihrem Profil zu erkennen. Wenn das Profil eine Häufigkeit, einen Semantiktyp, ein Muster, eine Länge oder andere Ausreißer aufweist, werden diese in den Ergebnissen auf der separaten Registerkarte Ausreißeranalyse angezeigt.