Dé oplossing voor data governance in de Microsoft-cloud

Door Richard Rossen, Data & Analytics Consultant

In december 2020 introduceerde Microsoft, Azure Purview: dé oplossing voor data governance in de Microsoft-cloud. Hoewel Azure Purview nog in ontwikkeling is en vooralsnog slechts beschikbaar in ‘preview’, heb ik er bij een van mijn klanten al positieve ervaringen mee opgedaan. Graag laat ik u via deze blog kennismaken met Azure Purview.

‘Help, de klantnaam in dit systeem komt niet overeen met de factuur! Waar komt deze naam vandaan? Lopen we inkomsten mis?’ Deze praktijkvoorbeelden komen helaas vaak voor bij veel organisaties. Tegelijk is het de belangrijkste reden waarom data governance essentieel is: als basisvoorwaarde bij het verbeteren van de datakwaliteit en de rechtstreekse mogelijkheid dit soort zaken te voorkomen via bijvoorbeeld data discovery.

Voor een goed begrip definieert Gartner data governance als volgt: “Data governance is the specification of decision rights and an accountability framework to ensure the appropriate behaviour in the valuation, creation, consumption and control of data and analytics.”

Data governance is essentieel voor de gehele organisatie. Neem de finance afdeling die betrouwbare informatie wil om op te rapporteren in Power BI, of de sales afdeling die de klant wil benaderen op basis van relevante inzichten. Of neem Machine Learning en AI: een kleine afwijking in de data zoals een postcode met het verkeerde formaat kan er al toe leiden dat een dataset niet wordt meegenomen in het geheel. Hierdoor komen bijvoorbeeld voorspellingen over de aankomsttijd van transport niet overeen met de realiteit.

Ook het management heeft belang bij schone en toegankelijke data voor het nemen van de juiste strategische beslissingen. De beschikbaarheid van deze data is een groot concurrentievoordeel ten opzichte van partijen die hierin achterblijven. Last but not least is data governance essentieel om bij te blijven bij de steeds strengere wet- en regelgeving op het gebied van data. Denk hierbij onder meer aan het classificeren van privacygevoelige informatie en het inzichtelijk maken van waar data is opgeslagen.

Data governance: hoe zet ik hier concrete stappen in?

Nu vraagt u zich wellicht af: het is me duidelijk dat data governance belangrijk is, maar hoe zet ik hier concrete stappen in? Vaak houden organisaties, en waarschijnlijk ook uw organisatie, zich hier op allerlei manieren bewust of zelfs onbewust al mee bezig. Een vaak gezette eerste stap is bijvoorbeeld het creëren van overzicht door het beantwoorden van vragen als ‘Waar is data opgeslagen?’ en ‘Wat is de inhoud?’.

Bij het zetten van concrete stappen zijn de onderstaande vier punten het meest relevant:

  • Documentatie & data discovery*
  • Data lineage (welke transformaties vinden er plaats in het beschrijven van de bewegingen van data over tijd)
  • Inzicht in data security
  • Inzicht in datakwaliteit

*Een van de grootste uitdagingen bij het documenteren van data en definities, is het creëren van een eenduidige versie van de waarheid die voor alle stakeholders helder en toegankelijk is. Tel daarbij op dat de ontwikkelingen omtrent data niet stilstaan. Daarom kost het veel tijd om de documentatie actueel te houden. Vooral bij grotere organisaties is het verbeteren van data governance door deze complexiteit een moeizaam proces – met name wanneer zij (zoals vaak nog het geval is) afhankelijk zijn van handmatige acties en tools als Excel.

Dé oplossing: Azure Purview

Eind vorig jaar introduceerde Microsoft Azure Purview: dé oplossing voor data governance in de Microsoft-cloud. De voornaamste kracht van Purview is de toegankelijkheid. Binnen een centrale omgeving kan een organisatie bouwen aan één versie van datadefinities en deze linken aan de metadata zelf, bijvoorbeeld de naam van de tabel en/of kolom en niet aan de inhoud ervan.

Na het uitvoeren van een scan wordt metadata uit verschillende systemen opgehaald. Dit houdt in dat bronnen niet statisch uitgetypt hoeven te worden, maar na het leggen van de juiste connectie bij iedere scan volledig automatisch worden bijgewerkt in Purview zelf. Deze scans kunnen ook worden gepland om definities up-to-date te houden.

Afb1: Classificaties & Glossery lables zichtbaar op attribuut niveau binnen een data asset

Maak kennis met Azure Purview

Bovendien is het mogelijk classificatieregels toe te passen tijdens een scan, waarbij de opgehaalde metadata van een bron gelabeld wordt bij bepaalde overeenkomst in de data zelf. Denk aan het herkennen en automatisch markeren van een kolom met telefoonnummers als zijnde ‘contactgegevens’. Deze vorm van batchgewijs documenteren maakt het mogelijk om op een efficiënte wijze data te zoeken en vinden.

Afb2: Custom regel om data te classificeren tijdens een scan op de databron, als zijnde ‘Transactienummer’ bij voldoende overeenkomst in de data

Maak kennis met Azure Purview 1

Tot slot kan ook de relatie tussen verschillende bronnen worden weergegeven om op die manier inzichten te geven in data lineage.

Afb3: Inzicht in data lineage: van bronnen tot Power BI dashboard

Maak kennis met Azure Purview 2

Purview biedt de mogelijkheid om op het gebied van data governance tijd te besteden aan een meer geavanceerde analyse en het verbeteren van data security. Daarbij verschuift de aandacht naar het opsporen en voorkomen van datavervuiling, duplicatie en andere gebreken.

Implementatie Purview bij klant

Zelf heb ik bij mijn klant al in 2020, tijdens de ontwikkelingsfase (Private Preview), een implementatie van Purview gedaan en zo via interne feedback aan Microsoft bijgedragen aan verbetering van de data catalog. Dit blog is gebaseerd op deze inzichten.

Meer weten over hoe u met Azure Purview uw data governance optimaliseert en zo het maximale uit uw data haalt?

Wilt u meer weten over hoe u als organisatie met Azure Purview uw data governance optimaliseert en zo het maximale uit uw data haalt? Neem dan contact op met Richard Rossen, Data & Analytics Consultant bij Motion10, of met uw Accountmanager.