Spectrum Data Normalization prüft Begriffe in einem Datensatz und ermittelt, ob es sich bei dem Begriff um die bevorzugte Form handelt.
Komponenten
Spectrum Data Normalization setzt sich aus folgenden Schritten zusammen:
- Advanced Transformer: In diesem Schritt werden Datenzeichenfolgen durchsucht und in mehrere Felder unterteilt. Dabei werden die extrahierten und nicht extrahierten Daten in einem neuen oder vorhandenen Feld platziert.
- Open Parser: In diesem Schritt werden Ihre Eingabedaten aus vielen Kulturen der Welt mit einer einfachen, aber leistungsstarken Parsing-Grammatik geparst. Mithilfe dieser Grammatik können Sie eine Sequenz von Ausdrücken definieren, die Domänenmuster zum Parsen Ihrer Eingabedaten darstellen. Open Parser sammelt auch statistische Daten und bewertet die Parsing-Vergleiche, um Ihnen bei der Bestimmung der Effektivität Ihrer Parsing-Grammatiken zu helfen.
- Table Lookup: In diesem Schritt wird ein Begriff ausgewertet und mit einem zuvor überprüften Format dieses Begriffs verglichen. Wenn der Begriff nicht das richtige Format aufweist, wird er durch die Standardversion ersetzt. Table Lookup kann vollständige Wörter in Abkürzungen, Abkürzungen in vollständige Wörter und Spitznamen in vollständige Namen ändern sowie Rechtschreibfehler korrigieren.
- Transliterator: Transliterator wandelt eine Zeichenfolge von einem Skript in ein anderes Skript um, z. B. Latein in Arabisch oder Arabisch in Latein.