Paneel Profileren - Data360_Govern - Nieuwste

Help Data360 Govern

Product type
Software
Portfolio
Verify
Product family
Data360
Product
Precisely Data Integriteit Suite > Govern
Data360 Govern
Version
Nieuwste
Language
Nederlands
Product name
Data360 Govern
Title
Help Data360 Govern
Copyright
2024
First publish date
2014

Het zijpaneel Profileren wordt weergegeven wanneer profileringsgegevens beschikbaar zijn, voor een bedrijfsasset of een technische asset. Dit paneel wordt gevuld met de API's van Data360 Govern DataProfiles v2.0.

De naam van de asset wordt weergegeven als de eerste kop, gevolgd door het assettype en vervolgens de categorieën.

Alle categorieën worden standaard uitgevouwen, elk met maximaal vijf vermeldingen. U kunt de volgende vermeldingen weergeven door op Meer weergeven te klikken. Als er geen vermeldingen in een categorie zijn, wordt het label niet weergegeven.

Opmerking: De meest recente profileringsgegevens worden weergegeven. Gegevensprofielen kunnen meerdere keren per dag worden bijgewerkt.

Het paneel Profileren kan de volgende categorieën bevatten:

  • Voorbeeldsamenvatting
  • Voorbeeldkwaliteit
  • Voorbeelddistributie
  • Hoogste waarden
  • Laagste waarden
  • Ongeldig/uitschieters
  • Vormen
  • Statistieken

De voorbeeldcategorieën zijn altijd de eerste categorieën die worden weergegeven en moeten altijd gegevens bevatten. Voor vereiste velden in de API geldt echter geen validatie, behalve profileSetDate.

Voorbeeldsamenvatting

Veld Beschrijving Bron
Ingangsdatum De datum waarop de nieuwste set profileringsgegevens voor de asset is ontvangen. profileSetDate
Totaal aantal rijen Het totale aantal rijen in een volledige gegevensset. totalCount
Aantal voorbeeldrijen

Het aantal geprofileerde rijen.

Er wordt ook een percentage van het totale aantal weergegeven.

sampleCount
Basistype Het type gegevens. type
Semantisch type Een verdere uitleg van het type. Als het type 'Tekenreeks' is, kan het semantische type E-mail of Naam zijn. typeQualifier
Type waarschijnlijkheid

Een percentage van hoe zeker u kunt zijn dat de profileringsresultaten van het opgegeven type zijn. Bijvoorbeeld: 'Ik weet 97,5% zeker dat de voorbeeldgegevens afkomstig zijn uit een datumveld'.

Wordt weergegeven als percentage met twee cijfers achter de komma voor nauwkeurigheid. Als bijvoorbeeld de waarde in de API 0,9753 is, is de weergave in de gebruikersinterface 97,53%.

confidence
Match Detectie Het aantal duplicaten en vergelijkbare velden in de voorbeeldgegevens.  

Semantische typen

Semantische typen zijn gestandaardiseerde tekenreeksen die helpen bij de beschrijving van het type informatie dat wordt weergegeven door bepaalde gegevens.

Wanneer het zijpaneel voor profilering wordt weergegeven, wordt gecontroleerd of het semantische type wordt gevonden in de semantische definities. Als er geen overeenkomst wordt gevonden, wordt de kwalificatie weergegeven ten opzichte van het semantische type. Bijvoorbeeld HONORIFIC_EN.

Als er wel een overeenkomst wordt gevonden, wordt de naam van het semantische type weergegeven als een koppeling naar het juiste type, bijvoorbeeld Datum. Klik op de koppeling om het secundaire zijpaneel Informatie aan de linkerkant van het paneel Profileren weer te geven. De definitiegegevens van het relevante semantische type worden weergegeven. Klik op een koppeling in het secundaire zijpaneel Informatie om de informatie over het semantische type te vervangen door de details ervan

Als het semantische type niet wordt verzonden met de profileringsgegevens, wordt het label Semantische typen nog steeds weergegeven, maar gevuld met streepjes.

Opmerking: Historische profielgegevens zijn nooit gekoppeld aan semantische typen, omdat u de ingangsdatum van de semantische definitie niet kunt beheren. Semantische typen worden altijd gemaakt met vandaag als de ingangsdatum.

Matchdetectie

Het veld Matchdetectie wordt weergegeven als onderdeel van de categorie Voorbeeldsamenvatting en toont het aantal duplicaten en vergelijkbare velden in de voorbeeldgegevens. Matchdetectie is gebaseerd op de gegevenshandtekening en gegevensstructuur die door Data360 Govern worden doorgegeven aan Data360 Analyze nadat een asset is geprofileerd. Alle geprofileerde assets worden gecontroleerd op vergelijkbare of dubbele vermeldingen, op basis van de doorgegeven velden. Als twee assets dezelfde gegevenshandtekening hebben, worden zij geclassificeerd als duplicaten, maar als ze dezelfde gegevensstructuur hebben, worden ze gezien als vergelijkbare assets.

Duplicaten:

  • Hebben een rode badge links van het label, samen met het gevonden totaalaantal. Klik op de koppeling om het dialoogvenster Matchdetectie te openen.
  • Als u de muisaanwijzer op het label plaatst, wordt knopinfo weergegeven met daarin het aantal gedetecteerde assets van hetzelfde type en met overeenkomende gegevens.
  • Als er geen duplicaten zijn, wordt de rode badge uitgeschakeld en wordt het label grijs weergegeven zonder koppeling.

Vergelijkbare velden:

  • Hebben een oranje badge links van het label, samen met het gevonden totaalaantal. Klik op de koppeling om het dialoogvenster Matchdetectie te openen.
  • Als u de muisaanwijzer op het label plaatst, wordt knopinfo weergegeven met daarin het aantal gedetecteerde assets van hetzelfde type maar met verschillende gegevens.
  • Als er geen vergelijkbare velden zijn, wordt de oranje badge uitgeschakeld en wordt het label grijs weergegeven zonder koppeling.
Het dialoogvenster Matchdetectie bevat het assetpad voor het item dat u onderzoekt en een raster met de details van de dubbele of vergelijkbare velden, afhankelijk van de koppeling waarop is geklikt in het paneel Profileren. Als u meer dan één assetpad selecteert, wordt rechts van het filterveld een menuknop weergegeven. Klik erop en selecteer Tags bewerken waar u bijvoorbeeld een of meer tags kunt toevoegen aan de geselecteerde assetpaden.
Opmerking: U kunt tags niet toevoegen aan Dubbele velden en Vergelijkbare velden tegelijkertijd.

Voorbeeldkwaliteit

  • Naast elk berekend percentage bevindt zich knopinfo waarin het percentage van het totaal wordt weergegeven. Het totaal zelf is relatief, bijvoorbeeld het totaal van het voorbeeld, het totaal van de geldige en vergelijkbare waarden.
Veld Beschrijving Bron
Kwaliteitsbalk Een enkele horizontale balk met een aantal voor geldige, ongeldige en niet gevulde rijen in de voorbeeldgegevens.  
Geldig

Het aantal geldige waarden dat in de voorbeeldgegevens is gevonden op basis van het Type of het semantische Type.

Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Geldig aantal gedeeld door het Aantal voorbeelden.

Distinctief: geeft aan hoeveel van de geldige waarden verschillend zijn.

matchCount

cardinality

Ongeldig/uitschieters

Het aantal ongeldige waarden of uitschieters dat in de voorbeeldgegevens is gevonden.

Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Ongeldig/uitschieters gedeeld door het Aantal voorbeelden.

outlierCount
Null/leeg

Het aantal nulls of lege waarden dat in de voorbeeldgegevens is gevonden.

Naast het aantal bevindt zich een percentage. Dit wordt berekend binnen Data360 Govern en is gelijk aan Niet gevuld aantal gedeeld door het Aantal voorbeelden.

nullCount + blankCount

Voorbeelddistributie

Het staafdiagram geeft de distributie van voorbeelden weer, afhankelijk van het type gegevens. Bijvoorbeeld als de gegevens de volgende zijn:

  • Datum/tijd - het staafdiagram geeft de distributie in de loop der tijd weer.
  • Tekenreeks: het staafdiagram geeft de distributie weer volgens aparte tekenreekswaarden.
  • Getal: het staafdiagram geeft de bereikdistributie weer, samen met de standaardafwijking en het gemiddelde voor de verschillende waarden.
  • Booleaans: het staafdiagram geeft weer of waarden waar of onwaar zijn.

Het staafdiagram geeft de relevante resultaten weer met groene staven en bevat ook de waarden voor ongeldig/uitschieters (indien aanwezig) met een rode staaf en waarden voor null/leeg met een grijze staaf.

Hoogste waarden, laagste waarden, ongeldig/uitschieters en vormen

Deze categorieën gedragen zich allemaal op vergelijkbare wijze en worden alleen weergegeven als er gegevens voor beschikbaar zijn. Elke waarde wordt weergegeven in een staafdiagram met de waarde en het aantal.

Opmerking: De bovenste en onderste voorbeeldsets behouden de sorteervolgorde waarin de voorbeelden worden ontvangen. De ene uitzondering zijn waarden van het getaltype die worden gesorteerd op de sleutelwaarde, wat betekent dat ze voor de bovenste waarden aflopen en voor de onderste waarden oplopen.

Naast het aantal wordt een percentage weergegeven. Dit is een berekening van het aantal waarden dat wordt gedeeld door het voorbeeldaantal.

  • Hoogste waarden: de waarden zijn afkomstig uit topK met het aantal van elke waarde in cardinalityDetail.
  • Laagste waarden: de waarden zijn afkomstig uit bottomK met het aantal van elke waarde in cardinalityDetail.
  • Ongeldige/uitschieterswaarden: zowel de waarden als de aantallen staan in outlierDetail.
  • Vormen: zowel de waarden als de aantallen staan in shapesDetail.

Statistieken

Er bestaat een reeks statistieken die worden geleverd via de API's.

Label Bron
Null-aantal: nullCount
Leeg aantal blankCount
Minimumwaarde min
Maximumwaarde max
Minimumlengte minLength
Maximumlengte maxLength
Gemiddelde mean
Standaardafwijking standardDeviation
Meerregel multiline
Voorloopspatie leadingWhiteSpace
Volgspatie trailingWhiteSpace
Aantal voorlopnullen leadingZeroCount
Validatie reguliere expressie regExp

De beschikbaarheid van een bepaalde statistische waarde is deels afhankelijk van het gegevenstype. Als het gegevenstype booleaans is, worden alleen Leeg aantal, Null-aantal en Validatie reguliere expressie weergegeven als deze een waarde hebben.