Het zijpaneel Profileren wordt weergegeven wanneer profileringsgegevens beschikbaar zijn, voor een bedrijfsasset of een technische asset. Dit paneel wordt gevuld met de API's van Data360 Govern DataProfiles v2.0.
De naam van de asset wordt weergegeven als de eerste kop, gevolgd door het assettype en vervolgens de categorieën.
Alle categorieën worden standaard uitgevouwen, elk met maximaal vijf vermeldingen. U kunt de volgende vermeldingen weergeven door op Meer weergeven te klikken. Als er geen vermeldingen in een categorie zijn, wordt het label niet weergegeven.
Het paneel Profileren kan de volgende categorieën bevatten:
- Voorbeeldsamenvatting
- Voorbeeldkwaliteit
- Voorbeelddistributie
- Hoogste waarden
- Laagste waarden
- Ongeldig/uitschieters
- Vormen
- Statistieken
De voorbeeldcategorieën zijn altijd de eerste categorieën die worden weergegeven en moeten altijd gegevens bevatten. Voor vereiste velden in de API geldt echter geen validatie, behalve profileSetDate
.
Voorbeeldsamenvatting
Veld | Beschrijving | Bron |
---|---|---|
Ingangsdatum | De datum waarop de nieuwste set profileringsgegevens voor de asset is ontvangen. | profileSetDate |
Totaal aantal rijen | Het totale aantal rijen in een volledige gegevensset. | totalCount |
Aantal voorbeeldrijen |
Het aantal geprofileerde rijen. Er wordt ook een percentage van het totale aantal weergegeven. |
sampleCount |
Basistype | Het type gegevens. | type |
Semantisch type | Een verdere uitleg van het type. Als het type 'Tekenreeks' is, kan het semantische type E-mail of Naam zijn. | typeQualifier |
Type waarschijnlijkheid |
Een percentage van hoe zeker u kunt zijn dat de profileringsresultaten van het opgegeven type zijn. Bijvoorbeeld: 'Ik weet 97,5% zeker dat de voorbeeldgegevens afkomstig zijn uit een datumveld'. Wordt weergegeven als percentage met twee cijfers achter de komma voor nauwkeurigheid. Als bijvoorbeeld de waarde in de API 0,9753 is, is de weergave in de gebruikersinterface 97,53%. |
confidence |
Match Detectie | Het aantal duplicaten en vergelijkbare velden in de voorbeeldgegevens. |
Semantische typen
Semantische typen zijn gestandaardiseerde tekenreeksen die helpen bij de beschrijving van het type informatie dat wordt weergegeven door bepaalde gegevens.
Wanneer het zijpaneel voor profilering wordt weergegeven, wordt gecontroleerd of het semantische type wordt gevonden in de semantische definities. Als er geen overeenkomst wordt gevonden, wordt de kwalificatie weergegeven ten opzichte van het semantische type. Bijvoorbeeld HONORIFIC_EN.
Als er wel een overeenkomst wordt gevonden, wordt de naam van het semantische type weergegeven als een koppeling naar het juiste type, bijvoorbeeld Datum. Klik op de koppeling om het secundaire zijpaneel Informatie aan de linkerkant van het paneel Profileren weer te geven. De definitiegegevens van het relevante semantische type worden weergegeven. Klik op een koppeling in het secundaire zijpaneel Informatie om de informatie over het semantische type te vervangen door de details ervan
Als het semantische type niet wordt verzonden met de profileringsgegevens, wordt het label Semantische typen nog steeds weergegeven, maar gevuld met streepjes.
Matchdetectie
Het veld Matchdetectie wordt weergegeven als onderdeel van de categorie Voorbeeldsamenvatting en toont het aantal duplicaten en vergelijkbare velden in de voorbeeldgegevens. Matchdetectie is gebaseerd op de gegevenshandtekening en gegevensstructuur die door Data360 Govern worden doorgegeven aan Data360 Analyze nadat een asset is geprofileerd. Alle geprofileerde assets worden gecontroleerd op vergelijkbare of dubbele vermeldingen, op basis van de doorgegeven velden. Als twee assets dezelfde gegevenshandtekening hebben, worden zij geclassificeerd als duplicaten, maar als ze dezelfde gegevensstructuur hebben, worden ze gezien als vergelijkbare assets.
Duplicaten:
- Hebben een rode badge links van het label, samen met het gevonden totaalaantal. Klik op de koppeling om het dialoogvenster Matchdetectie te openen.
- Als u de muisaanwijzer op het label plaatst, wordt knopinfo weergegeven met daarin het aantal gedetecteerde assets van hetzelfde type en met overeenkomende gegevens.
- Als er geen duplicaten zijn, wordt de rode badge uitgeschakeld en wordt het label grijs weergegeven zonder koppeling.
Vergelijkbare velden:
- Hebben een oranje badge links van het label, samen met het gevonden totaalaantal. Klik op de koppeling om het dialoogvenster Matchdetectie te openen.
- Als u de muisaanwijzer op het label plaatst, wordt knopinfo weergegeven met daarin het aantal gedetecteerde assets van hetzelfde type maar met verschillende gegevens.
- Als er geen vergelijkbare velden zijn, wordt de oranje badge uitgeschakeld en wordt het label grijs weergegeven zonder koppeling.
Voorbeeldkwaliteit
- Naast elk berekend percentage bevindt zich knopinfo waarin het percentage van het totaal wordt weergegeven. Het totaal zelf is relatief, bijvoorbeeld het totaal van het voorbeeld, het totaal van de geldige en vergelijkbare waarden.
Veld | Beschrijving | Bron |
---|---|---|
Kwaliteitsbalk | Een enkele horizontale balk met een aantal voor geldige, ongeldige en niet gevulde rijen in de voorbeeldgegevens. | |
Geldig |
Het aantal geldige waarden dat in de voorbeeldgegevens is gevonden op basis van het Type of het semantische Type. Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Geldig aantal gedeeld door het Aantal voorbeelden. Distinctief: geeft aan hoeveel van de geldige waarden verschillend zijn. |
matchCount |
Ongeldig/uitschieters |
Het aantal ongeldige waarden of uitschieters dat in de voorbeeldgegevens is gevonden. Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Ongeldig/uitschieters gedeeld door het Aantal voorbeelden. |
outlierCount |
Null/leeg |
Het aantal nulls of lege waarden dat in de voorbeeldgegevens is gevonden. Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Niet gevuld aantal gedeeld door het Aantal voorbeelden. |
nullCount + blankCount |
Voorbeelddistributie
Het staafdiagram geeft de distributie van voorbeelden weer, afhankelijk van het type gegevens. Bijvoorbeeld als de gegevens de volgende zijn:
- Datum/tijd - het staafdiagram geeft de distributie in de loop der tijd weer.
- Tekenreeks: het staafdiagram geeft de distributie weer volgens aparte tekenreekswaarden.
- Getal: het staafdiagram geeft de bereikdistributie weer, samen met de standaardafwijking en het gemiddelde voor de verschillende waarden.
- Booleaans: het staafdiagram geeft weer of waarden waar of onwaar zijn.
Het staafdiagram geeft de relevante resultaten weer met groene staven en bevat ook de waarden voor ongeldig/uitschieters (indien aanwezig) met een rode staaf en waarden voor null/leeg met een grijze staaf.
Hoogste waarden, laagste waarden, ongeldig/uitschieters en vormen
Deze categorieën gedragen zich allemaal op vergelijkbare wijze en worden alleen weergegeven als er gegevens voor beschikbaar zijn. Elke waarde wordt weergegeven in een staafdiagram met de waarde en het aantal.
Naast het aantal wordt een percentage weergegeven. Dit is een berekening van het aantal waarden dat wordt gedeeld door het voorbeeldaantal.
- Hoogste waarden: de waarden zijn afkomstig uit
topK
met het aantal van elke waarde incardinalityDetail
. - Laagste waarden: de waarden zijn afkomstig uit
bottomK
met het aantal van elke waarde incardinalityDetail
. - Ongeldige/uitschieterswaarden: zowel de waarden als de aantallen staan in
outlierDetail
. - Vormen: zowel de waarden als de aantallen staan in
shapesDetail
.
Statistieken
Er bestaat een reeks statistieken die worden geleverd via de API's.
Label | Bron |
---|---|
Null-aantal: | nullCount |
Leeg aantal | blankCount |
Minimumwaarde | min |
Maximumwaarde | max |
Minimumlengte | minLength |
Maximumlengte | maxLength |
Gemiddelde | mean |
Standaardafwijking | standardDeviation |
Meerregel | multiline |
Voorloopspatie | leadingWhiteSpace |
Volgspatie | trailingWhiteSpace |
Aantal voorlopnullen | leadingZeroCount |
Validatie reguliere expressie | regExp |
De beschikbaarheid van een bepaalde statistische waarde is deels afhankelijk van het gegevenstype. Als het gegevenstype booleaans is, worden alleen Leeg aantal, Null-aantal en Validatie reguliere expressie weergegeven als deze een waarde hebben.