Zolang de mensheid gegevens verzamelt, worstelen we met de betrouwbaarheid. Laten we even teruggaan naar 1492, het jaar waarin Columbus Amerika ontdekte. Wist je dat dit een toevalstreffer was, gebaseerd op een ‘datafoutje’? Omdat hij van een Perzische geograaf uitging, had hij de Arabische mijl als eenheid moeten gebruiken. Maar hij rekende met de Romeinse mijl, die een stuk korter is. Dit pakte goed uit – gelukkig. Hoe anders verging het de Mars Climate Orbiter in 1999, ruim vijf eeuwen later. Een enorme crash, veroorzaakt door een ontwerpprobleem bij de conversie van inches naar centimeter.
Dit zijn twee grote, bekende voorbeelden die pijnlijk duidelijk maken wat de gevolgen van slechte datakwaliteit kunnen zijn. In de meeste organisaties is het op orde krijgen van datakwaliteit nog steeds één van de belangrijkste uitdagingen. Het kost geld, het leidt tot fouten en het is steeds vaker een randvoorwaarde voor innovatie. De benefits van Blockchain, Artifical Intelligence (AI) en robotisering zijn namelijk direct afhankelijk van de kwaliteit van de input: data. Het zijn geen utopische oplossingen waarvoor geldt dat ‘garbage in’ is ‘goud uit’. Het zijn technologieën die buitengewone dingen mogelijk maken, mits de datakwaliteit goed is. Het belang van datakwaliteit wordt eigenlijk alleen maar groter. In de praktijk zie ik veelvuldig dat het realiseren ervan nog niet altijd zo eenvoudig is. Deels wordt dit gevoed door drie misverstanden die ik tegenkom in de praktijk en hieronder zal toelichten.
‘Datakwaliteit gaat over ‘volledigheid’ en ‘juistheid’’
De praktijk brengt datakwaliteit al snel terug tot deze twee dimensies. Maar stel, je organisatie wil vanuit risico-oogpunt graag antwoord op de vraag: welke klanten kampen met werkloosheid? Alleen je klantcontactsysteem ondersteunt dit gegeven niet. Medewerkers typen in een vrij tekstveld allerlei waarden, naar eigen inzicht. Van ‘werkloos’, ‘zit thuis’, ‘werkloosheid’ tot fout gespelde varianten als ‘werkeloos’. Deze data zijn inderdaad juist en volledig, maar door de inconsistente vastlegging krijg je geen totaaloverzicht. Zeker als de lijst met waarden groot is, kun je de data alleen nog met handmatige reviews en correcties herstellen. Enkele tips:
- Houd oog voor alle dimensies van datakwaliteit. Naast juistheid en volledigheid zijn dit bijvoorbeeld: consistentie, validiteit, tijdigheid en herleidbaarheid.
- Bepaal daarbij welke checks belangrijk zijn.
- Zorg voor een goed beeld van je data-requirements. Zo dwing je al bij de proces- en systeeminrichting een gestructureerde vastlegging van gegevens af en werk je echt aan ‘Data quality by design’.
‘Een probleem? De datamanagementclub lost het wel op’
Het is goed om te beseffen dat datakwaliteit het resultaat is van alle afdelingen die werken met data, dwars door de hele organisatie heen. Als de problemen te groot worden, wordt er een apart project opgetuigd om de kwaliteit van data te verbeteren. Echter, als de data governance niet wordt aangepakt, dan is de kwaliteit een half jaar nadat het project zijn werk gedaan heeft, weer terug bij af. Daarom is data governance ook de belangrijkste succesfactor, blijkt uit onderzoek. Een dataprobleem zit vaak diep in de keten verscholen, ergens in de organisatie. Toch kijken we graag alleen naar de datastewards: zeg, lossen jullie het even op? Maar dat is niet hun rol. De datamanagement-afdeling harmoniseert bijvoorbeeld wel issues en prioriteiten (data-issuemanagement). Maar data-issues écht oplossen vraagt om een goede overdracht naar het change-managementproces. Is de oplossing helder te pinpointen op één plek of systeem? Dan gaat het nog goed. Maar zijn er meerdere scenario’s en heb je meer dan één partij nodig, dan loopt het proces vast. Suggesties:
- Maak het overdrachtsmoment naar het change-managementproces helder: wie definieert de oplossingsrichtingen en hoe vindt besluitvorming plaats? Hoe borg je dat alle schakels met elkaar de change oppakken?
- Beleg de processtappen en verantwoordelijkheden expliciet, zodat ze niet tussen de wal (data-issuemanagement) en het schip (changemanagement) belanden.
‘Meten is weten’
Er lijkt een collectieve verslaving te zijn aan controles, checks en dashboards. Zodra we een dashboard met een kleurrijke piechart zien, geloven we het en voelen we ons ‘in control’. Maar, schijn bedriegt. In de praktijk ontbreken vaak belangrijke feiten. Ook kosten die maandelijkse rapportages (helaas nog vaak) veel mankracht, terwijl ze vaak geen garantie geven voor datakwaliteit. Dit vergeten organisaties meestal: 1) wat je niet weet, dat meet je niet en 2) soms is wat je weet, niet te meten. Hoe pak je het dan wel aan?
- Houd je datakwaliteitscontroles en rapportages lean. Besteed tachtig procent van de tijd aan de twintig procent belangrijkste data-elementen.
- Praat met de belangrijkste key users van data van je organisatie. Dan kom je eenvoudig achter de vervelendste data-issues. Ook problemen die je niet kunt vaststellen met een controle, zoals data die helemaal niet wordt vastgelegd of niet op het gewenste detailniveau.
- Onthoud als vuistregel: besteed meer tijd aan problemen oplossen dan aan de zoektocht en rapportage.
Door: Thijs Grievink
Thijs (1981) studeerde bedrijfskunde aan de Erasmus Universiteit Rotterdam en is management consultant bij Bisnez. Samen met twee collega’s schreef hij het boek ‘Succesvol Datamanagement – meegroeien in het datatijdperk’ geschreven. Dit praktische boek gaat in op het organiseren van data en blijft ver van de techniek. Het helpt om de basis op orde te krijgen. Of je nu als manager, directeur of medewerker met data bezig bent, dit boek geeft iedereen inzicht en praktische handvatten om aan de slag te gaan.