De harde waarheid over ‘garbage in, garbage out’ en het onsexy fundament dat je AI-succes bepaalt.
Inhoud
In mijn eerdere artikelen ontkrachtte ik de mythe dat je met AI ‘wel even’ een probleem oplost en benadrukte ik het onmisbare belang van een duidelijke eigenaar. Die eigenaar heeft nu het probleem gedefinieerd, de doelen gesteld en de business aan boord. Tijd om te bouwen. Maar waar bouw je op?
Ik zie het te vaak gebeuren: met veel bombarie wordt een AI-project gestart, maar de basis ontbreekt. De focus ligt op het model, de algoritmes en de technologie, terwijl de brandstof voor AI – de data – een rommeltje is. Je kunt je AI-model zien als een high-end espressomachine, maar als je er zand in gooit in plaats van koffiebonen, krijg je geen heerlijke espresso. Je krijgt een kapotte machine en een hoop rommel. Zonder goede data is AI niks meer dan een dure gokkast. En je weet hoe die gokken meestal aflopen.
‘Garbage in, garbage out’ is nog nooit zo waar geweest
Je kunt het beste AI-model ter wereld hebben, maar als je het voedt met slechte data, krijg je slechte resultaten. Zo simpel is het. Incompleetheid, inconsistentie, fouten, duplicaten… de lijst is eindeloos. Veel organisaties verzamelen al jarenlang data, maar doen dat zonder duidelijke strategie. Het resultaat is een moeras van data waar de AI-modellen geen zinnige informatie uit kunnen halen.
Denk aan een MKB-bedrijf dat klantverloop wil voorspellen. Hun data over klanten is verspreid over een CRM-systeem, spreadsheets en notities op post-its. Klantnamen zijn inconsistent gespeld (‘Piet Jansen’ en ‘P. Janssen’), contactmomenten ontbreken en de aankoophistorie is incompleet. Elk AI-model dat hierop getraind wordt, zal onbetrouwbare voorspellingen doen. De uitkomst? Nul komma nul waarde en een hoop frustratie. Dit is niet het falen van AI, maar het falen van je datakwaliteit.
Datakwaliteit: het onsexy, maar cruciale werk
AI-trajecten zijn vaak spannend. Datamanagement en -kwaliteit klinken daarentegen oersaai. Maar dit is het werk dat je moet doen. Voordat je aan de eerste regel code denkt, is de datamanager je beste vriend. Zonder dit fundament bouw je een luchtkasteel dat bij de eerste de beste storm instort.
Maar wat is goede data dan precies? Simpel gezegd, data die:
- Accuraat is: De data klopt met de werkelijkheid. Een postcode is daadwerkelijk de postcode van de klant.
- Compleet is: Alle benodigde informatie is aanwezig. Geen ontbrekende velden.
- Consistent is: De data is op dezelfde manier gestructureerd en ingevoerd. Denk aan het consistent gebruik van afkortingen of notaties.
- Relevant is: De data is bruikbaar voor het probleem dat je wilt oplossen. Je hebt niets aan de kleur van de sokken van je medewerkers als je de doorlooptijd van orders wilt voorspellen.
Voor een gemeente die vergunningsaanvragen met AI wil beoordelen, betekent dit dat alle aanvraagformulieren consistent en volledig zijn ingevuld. Het betekent dat alle historische data over eerdere aanvragen consistent is vastgelegd, inclusief de uitkomst. Pas dan kan een AI-model patronen herkennen die een betrouwbare voorspelling geven over de doorlooptijd of de kans op afwijzing.
Data-eigenaarschap: de sleutel tot kwaliteit
Hier komt het eigenaarschap uit het vorige artikel weer om de hoek kijken. Datakwaliteit is namelijk niet de verantwoordelijkheid van de IT-afdeling. Die zorgt voor de systemen, maar de business is verantwoordelijk voor de inhoud. De eigenaar van het AI-project, de proceseigenaar, moet de verantwoordelijkheid nemen voor de kwaliteit van de data. Hij of zij moet de processen zó inrichten dat data bij de bron correct wordt vastgelegd. Dit betekent investeren in training, duidelijke protocollen en heldere afspraken over databeheer. Alleen dan kun je bouwen op een solide fundament.
Herkenbaar?
AI is krachtig, maar alleen met de juiste brandstof. Datakwaliteit is geen bijzaak, het is het fundament waarop je AI-toepassing staat of valt. Zonder goede data is AI puur gokken. Zorg dat je dit fundament op orde hebt, voordat je begint met bouwen.
Wat is jouw grootste uitdaging op het gebied van datakwaliteit? Deel je ervaringen!



0 reacties