Amber levert tijdens stage synthetische data op
13 augustus 2024
Als je Toegepaste Wiskunde studeert en data nodig hebt, wordt het Centraal Bureau voor de Statistiek (CBS) al snel genoemd. Het was dan ook niet helemaal toevallig dat Amber Vangerven voor haar derdejaarsstage bij het...
Als je Toegepaste Wiskunde I Data Analytics studeert en data nodig hebt, wordt het Centraal Bureau voor de Statistiek (CBS) al snel genoemd. Het was dan ook niet helemaal toevallig dat Amber Vangerven voor haar derdejaarsstage bij het CBS aanklopte. Die duurde 20 weken en ze werkte er aan een opdracht van de Universiteit Leiden: een set met synthetische data genereren voor een vak daar. Ze ontdekte ook dat ze klaar is voor het werkend leven.
Nepdata
Synthetische data zijn nepdata met de statistische eigenschappen van echte data. Ze worden gegenereerd uit echte data. Het grote voordeel is dat de gegevens niet te herleiden zijn tot personen. Een grote stap in het borgen van privacy dus. Amber staat er helemaal achter: “Ziekenhuizen bijvoorbeeld mogen niet zomaar data van echte patiënten gebruiken. En dat hoeft vaak ook helemaal niet, als het zo’n ziekenhuis alleen gaat om het ziektebeeld en niet om de naam van de patiënt.”
Anders dan data science
“Ik vind het een belangrijk onderwerp”, vervolgt Amber. “Hoe vaak accepteer je wel niet met een snelle muisklik de voorwaarden zonder precies te weten wat er met je gegevens gebeurt? Het maakt mij niet uit als iemand weet wat de gemiddelde leeftijd van mijn groep is, maar ik wil niet dat mijn BSN-nummer bekend is.” Data science is niet de richting van de opleiding die Amber het beste ligt en het meeste trekt, maar deze stage vond ze wel echt interessant. “Wat ik deed, was heel anders dan een dataset analyseren en resultaten opleveren. Ik onderzocht de data alleen om een set synthetische gegevens te kunnen opleveren. Het gebruikersdoel, de bruikbaarheid in het onderwijs, stond voorop.”
Hoe genereer je een dataset?
Tijdens de stage draaide het allemaal om deze vraag: wat is de handigste manier om zo’n synthetische dataset voor onderwijsdoeleinden tot stand te laten komen? Ambers stageperiode begon dus met uitgebreid literatuuronderzoek. “Op een gegeven moment had ik een enorme stapel printjes op mijn bureau liggen. Ik heb echt heel veel gelezen. Over alles. Ik wilde alles begrijpen en begon bij nul. Dus eerst: wat is er aan verschillende algoritmen en hoe implementeer je zo’n algoritme op die dataset? Je kunt data op oneindig veel manieren genereren.”
Beslisboommodel genereert data
“Toen ik een goed overzichtsartikel over manieren van genereren vond, heb ik methode voor methode uitgeplozen. Uiteindelijk heb ik er deels op gevoel een gekozen en twee datasets gemaakt.” Dat deed ze met gegevens uit de CBS-databank, op basis van kansverdelingen die de data in de echte wereld ook zouden volgen. De synthetische data genereerde ze vervolgens met hulp van een beslisboommodel. “Het voordeel van deze machine-learning-techniek is dat je niet heel veel voorkennis van machine learning nodig hebt. Er zijn al data en er zijn al methodes. Het programmeren is minimaal.”
Een miljoen cellen
Je kiest als gebruiker een doelvariabele en een afhankelijke variabele en dan neemt het model de beslissing. Amber: “Stel dat student A gemiddeld drie studiejaren heeft, dan kiest het model hoeveel jaar student B er heeft. Wat eruitkomt, hangt af van het aantal regels in de beslisboom.” Met dit model kwam de dataset voor Leiden tot stand: 10 kolommen en 100.000 rijen synthetische data maar liefst, al is dat volgens Amber nog best bescheiden. De docenten in Leiden waren erg tevreden over het resultaat.
Bevindingen welkom bij CBS
Ook bij het CBS liet Amber iets achter, en wel een aanbeveling voor gebruik van haar onderzoek. Ze is er zeker van dat iemand ermee verder gaat. “Er zijn zoveel ontwikkelingen bij het CBS. Toen ik daar nog was, was er al een collega begonnen aan een onderzoek van geaggregeerde – samengevoegde – data naar synthetische microdata. Die kan mijn bevindingen heel goed gebruiken.”
Zelf je weg vinden
Het werken is Amber goed bevallen, en het werken bij het CBS zeker. Ze ging met haar stagebegeleider mee naar lezingen en netwerkbijeenkomsten en was welkom bij elk uitje en taartmoment. “Ik heb me geen moment ‘de stagiair’ gevoeld. Ze behandelden me als iemand met kennis maar verwachtten niet alles van me. Dat heeft me ontzettend geholpen om mijn weg te vinden. Het heeft me ook toekomstperspectief gegeven. De die-hard wiskunde is niet zo mijn ding, maar ik weet nu dat werk wiskundig kan zijn zonder dat het om wiskunde draait.“
Wil je weten hoe je wiskunde praktisch kunt gebruiken? Kijk dan eens naar de opleiding Toegepaste Wiskunde I Data Analytics op De Haagse Hogeschool.