Paneel Profileren - Data360_Govern

Het zijpaneel Profileren wordt weergegeven wanneer profileringsgegevens beschikbaar zijn, voor een bedrijfsasset of een technische asset. Dit paneel wordt gevuld met de API's van Data360 Govern DataProfiles v2.0.

De naam van de asset wordt weergegeven als de eerste kop, gevolgd door het assettype en vervolgens de categorieën.

Alle categorieën worden standaard uitgevouwen, elk met maximaal vijf vermeldingen. U kunt de volgende vermeldingen weergeven door op Meer weergeven te klikken. Als er geen vermeldingen in een categorie zijn, wordt het label niet weergegeven.

Opmerking: De meest recente profileringsgegevens worden weergegeven. Gegevensprofielen kunnen meerdere keren per dag worden bijgewerkt.

Het paneel Profileren kan de volgende categorieën bevatten:

Voorbeeldsamenvatting
Voorbeeldkwaliteit
Voorbeelddistributie
Hoogste waarden
Laagste waarden
Ongeldig/uitschieters
Vormen
Statistieken

De voorbeeldcategorieën zijn altijd de eerste categorieën die worden weergegeven en moeten altijd gegevens bevatten. Voor vereiste velden in de API geldt echter geen validatie, behalve profileSetDate.

Voorbeeldsamenvatting

Veld	Beschrijving	Bron
Ingangsdatum	De datum waarop de nieuwste set profileringsgegevens voor de asset is ontvangen.	`profileSetDate`
Totaal aantal rijen	Het totale aantal rijen in een volledige gegevensset.	`totalCount`
Aantal voorbeeldrijen	Het aantal geprofileerde rijen. Er wordt ook een percentage van het totale aantal weergegeven.	`sampleCount`
Basistype	Het type gegevens.	`type`
Semantisch type	Een verdere uitleg van het type. Als het type 'Tekenreeks' is, kan het semantische type E-mail of Naam zijn.	`typeQualifier`
Type waarschijnlijkheid	Een percentage van hoe zeker u kunt zijn dat de profileringsresultaten van het opgegeven type zijn. Bijvoorbeeld: 'Ik weet 97,5% zeker dat de voorbeeldgegevens afkomstig zijn uit een datumveld'. Wordt weergegeven als percentage met twee cijfers achter de komma voor nauwkeurigheid. Als bijvoorbeeld de waarde in de API 0,9753 is, is de weergave in de gebruikersinterface 97,53%.	`confidence`
Match Detectie	Het aantal duplicaten en vergelijkbare velden in de voorbeeldgegevens.

Semantische typen

Semantische typen zijn gestandaardiseerde tekenreeksen die helpen bij de beschrijving van het type informatie dat wordt weergegeven door bepaalde gegevens.

Wanneer het zijpaneel voor profilering wordt weergegeven, wordt gecontroleerd of het semantische type wordt gevonden in de semantische definities. Als er geen overeenkomst wordt gevonden, wordt de kwalificatie weergegeven ten opzichte van het semantische type. Bijvoorbeeld HONORIFIC_EN.

Als er wel een overeenkomst wordt gevonden, wordt de naam van het semantische type weergegeven als een koppeling naar het juiste type, bijvoorbeeld Datum. Klik op de koppeling om het secundaire zijpaneel Informatie aan de linkerkant van het paneel Profileren weer te geven. De definitiegegevens van het relevante semantische type worden weergegeven. Klik op een koppeling in het secundaire zijpaneel Informatie om de informatie over het semantische type te vervangen door de details ervan

Als het semantische type niet wordt verzonden met de profileringsgegevens, wordt het label Semantische typen nog steeds weergegeven, maar gevuld met streepjes.

Opmerking: Historische profielgegevens zijn nooit gekoppeld aan semantische typen, omdat u de ingangsdatum van de semantische definitie niet kunt beheren. Semantische typen worden altijd gemaakt met vandaag als de ingangsdatum.

Matchdetectie

Het veld Matchdetectie wordt weergegeven als onderdeel van de categorie Voorbeeldsamenvatting en toont het aantal duplicaten en vergelijkbare velden in de voorbeeldgegevens. Matchdetectie is gebaseerd op de gegevenshandtekening en gegevensstructuur die door Data360 Govern worden doorgegeven aan Data360 Analyze nadat een asset is geprofileerd. Alle geprofileerde assets worden gecontroleerd op vergelijkbare of dubbele vermeldingen, op basis van de doorgegeven velden. Als twee assets dezelfde gegevenshandtekening hebben, worden zij geclassificeerd als duplicaten, maar als ze dezelfde gegevensstructuur hebben, worden ze gezien als vergelijkbare assets.

Duplicaten:

Hebben een rode badge links van het label, samen met het gevonden totaalaantal. Klik op de koppeling om het dialoogvenster Matchdetectie te openen.
Als u de muisaanwijzer op het label plaatst, wordt knopinfo weergegeven met daarin het aantal gedetecteerde assets van hetzelfde type en met overeenkomende gegevens.
Als er geen duplicaten zijn, wordt de rode badge uitgeschakeld en wordt het label grijs weergegeven zonder koppeling.

Vergelijkbare velden:

Hebben een oranje badge links van het label, samen met het gevonden totaalaantal. Klik op de koppeling om het dialoogvenster Matchdetectie te openen.
Als u de muisaanwijzer op het label plaatst, wordt knopinfo weergegeven met daarin het aantal gedetecteerde assets van hetzelfde type maar met verschillende gegevens.
Als er geen vergelijkbare velden zijn, wordt de oranje badge uitgeschakeld en wordt het label grijs weergegeven zonder koppeling.

Het dialoogvenster Matchdetectie bevat het assetpad voor het item dat u onderzoekt en een raster met de details van de dubbele of vergelijkbare velden, afhankelijk van de koppeling waarop is geklikt in het paneel Profileren. Als u meer dan één assetpad selecteert, wordt rechts van het filterveld een menuknop weergegeven. Klik erop en selecteer Tags bewerken waar u bijvoorbeeld een of meer tags kunt toevoegen aan de geselecteerde assetpaden.

Opmerking: U kunt tags niet toevoegen aan Dubbele velden en Vergelijkbare velden tegelijkertijd.

Voorbeeldkwaliteit

Naast elk berekend percentage bevindt zich knopinfo waarin het percentage van het totaal wordt weergegeven. Het totaal zelf is relatief, bijvoorbeeld het totaal van het voorbeeld, het totaal van de geldige en vergelijkbare waarden.

Veld	Beschrijving	Bron
Kwaliteitsbalk	Een enkele horizontale balk met een aantal voor geldige, ongeldige en niet gevulde rijen in de voorbeeldgegevens.
Geldig	Het aantal geldige waarden dat in de voorbeeldgegevens is gevonden op basis van het Type of het semantische Type. Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Geldig aantal gedeeld door het Aantal voorbeelden. Distinctief: geeft aan hoeveel van de geldige waarden verschillend zijn.	`matchCount` `cardinality`
Ongeldig/uitschieters	Het aantal ongeldige waarden of uitschieters dat in de voorbeeldgegevens is gevonden. Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Ongeldig/uitschieters gedeeld door het Aantal voorbeelden.	`outlierCount`
Null/leeg	Het aantal nulls of lege waarden dat in de voorbeeldgegevens is gevonden. Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Niet gevuld aantal gedeeld door het Aantal voorbeelden.	`nullCount + blankCount`

Voorbeelddistributie

Het staafdiagram geeft de distributie van voorbeelden weer, afhankelijk van het type gegevens. Bijvoorbeeld als de gegevens de volgende zijn:

Datum/tijd - het staafdiagram geeft de distributie in de loop der tijd weer.
Tekenreeks: het staafdiagram geeft de distributie weer volgens aparte tekenreekswaarden.
Getal: het staafdiagram geeft de bereikdistributie weer, samen met de standaardafwijking en het gemiddelde voor de verschillende waarden.
Booleaans: het staafdiagram geeft weer of waarden waar of onwaar zijn.

Het staafdiagram geeft de relevante resultaten weer met groene staven en bevat ook de waarden voor ongeldig/uitschieters (indien aanwezig) met een rode staaf en waarden voor null/leeg met een grijze staaf.

Hoogste waarden, laagste waarden, ongeldig/uitschieters en vormen

Deze categorieën gedragen zich allemaal op vergelijkbare wijze en worden alleen weergegeven als er gegevens voor beschikbaar zijn. Elke waarde wordt weergegeven in een staafdiagram met de waarde en het aantal.

Opmerking: De bovenste en onderste voorbeeldsets behouden de sorteervolgorde waarin de voorbeelden worden ontvangen. De ene uitzondering zijn waarden van het getaltype die worden gesorteerd op de sleutelwaarde, wat betekent dat ze voor de bovenste waarden aflopen en voor de onderste waarden oplopen.

Naast het aantal wordt een percentage weergegeven. Dit is een berekening van het aantal waarden dat wordt gedeeld door het voorbeeldaantal.

Hoogste waarden: de waarden zijn afkomstig uit topK met het aantal van elke waarde in cardinalityDetail.
Laagste waarden: de waarden zijn afkomstig uit bottomK met het aantal van elke waarde in cardinalityDetail.
Ongeldige/uitschieterswaarden: zowel de waarden als de aantallen staan in outlierDetail.
Vormen: zowel de waarden als de aantallen staan in shapesDetail.

Statistieken

Er bestaat een reeks statistieken die worden geleverd via de API's.

Label	Bron
Null-aantal:	`nullCount`
Leeg aantal	`blankCount`
Minimumwaarde	`min`
Maximumwaarde	`max`
Minimumlengte	`minLength`
Maximumlengte	`maxLength`
Gemiddelde	`mean`
Standaardafwijking	`standardDeviation`
Meerregel	`multiline`
Voorloopspatie	`leadingWhiteSpace`
Volgspatie	`trailingWhiteSpace`
Aantal voorlopnullen	`leadingZeroCount`
Validatie reguliere expressie	`regExp`

De beschikbaarheid van een bepaalde statistische waarde is deels afhankelijk van het gegevenstype. Als het gegevenstype booleaans is, worden alleen Leeg aantal, Null-aantal en Validatie reguliere expressie weergegeven als deze een waarde hebben.

Paneel Profileren - Data360_Govern - Nieuwste

Help Data360 Govern