In haar kantoor toont Madelon Hulsebos op haar computerscherm het openbare dataplatform van de Verenigde Naties (VN). Een tellertje bovenaan de pagina toont ruim 19.300 datasets, geüpload vanaf 254 crisisgebieden van over de hele wereld. Lokale overheden delen er hun data, variërend van conflicten en oorlogen tot overstromingen en andere natuurrampen. Op basis van deze informatie faciliteert de VN de coördinatie van lokale humanitaire hulp.
De datasets bevatten uiteenlopende gegevens, bijvoorbeeld over personen, gebouwen en locaties. “Organisaties zetten deze op het dataplatform zonder zich te realiseren dat bepaalde data schadelijk kunnen zijn als ze in verkeerde handen terechtkomen”, legt Hulsebos uit. “Denk bijvoorbeeld aan de coördinaten van ziekenhuizen in oorlogsgebieden, die daardoor een doelwit kunnen worden. Deze soort data moeten er dus worden uitgefilterd.”
Dat is op zijn zachtst gezegd een gigantische klus. Niet alleen de inhoud en aard van de gegevens verschilt per dataset, maar ook de manier waarop de informatie is gestructureerd. Waar de een met een excelsheet werkt, gebruikt de ander weer kolommen met uiteenlopende naamgevingen, en dat in verschillende talen. Hulsebos: “Daardoor kun je het opsporen van gevoelige informatie moeilijk automatiseren.”
Handmatige checks
De VN heeft voorheen gewerkt met een commerciële tool van Google, Google DLP. Maar die haalt lang niet alle gevoelige informatie boven water en labelt informatie bovendien vaak als ‘gevoelig’ terwijl dat niet zo is. Daarom is er een handmatige check nodig door zogenoemde Data Quality Officers. “Maar dit kost erg veel tijd omdat er steeds meer data worden gedeeld. Bovendien is het consistent labelen niet altijd makkelijk, ook niet voor mensen.”
Er is dan ook behoefte aan een efficiëntere manier om de data op gevoelige informatie te analyseren. Eerder onderzoek van Hulsebos toonde aan dat kunstmatige intelligentie (AI) patronen kan zien in een grote verscheidenheid aan gestructureerde datasets. Op basis van dit inzicht wendde ze AI aan om een oplossing te ontwikkelen voor het HDX-project, het eerste binnen een bestaande samenwerking tussen de VN en Hulsebos. AI Masterstudent Liang Telkamp sloot zich hierbij aan en schreef er haar thesis over.
Context doet ertoe
Hulsebos en Telkamp ontwikkelden twee mechanismen die data op gevoeligheid analyseren. Ze introduceerden daarin een nieuw concept: contextueel gevoelige data. “Gevoelige data zijn meer dan alleen persoonsgegevens. Bepalend is of de informatie in verkeerde handen schade kan veroorzaken”, licht Hulsebos toe. “Ook kan gevoeligheid tijdgebonden zijn: misschien waren bepaalde gegevens 5 jaar geleden niet gevoelig, maar in deze tijd wel. Of plaatsgebonden: de coördinaten van een ziekenhuis in Nederland zijn minder gevoelig dan die van een ziekenhuis in Gaza. Daarnaast zijn namen niet altijd gevoelig. Een bedrijfsnaam mag best in de openbaarheid komen, maar die van politieagenten niet. De context van een dataset is dus heel belangrijk.”
Voor een van de AI-mechanismen gebruikten de onderzoekers tekstdocumenten van de VN waarin regels staan over de omgang met data; welke gegevens mogen niet gepubliceerd worden en welke wel? AI koppelde de datasets aan de juiste regels. Vervolgens lieten de onderzoekers diverse LLM’s (Large Language Models, bijvoorbeeld GPT-4 maar ook open source modellen als Qwen) de betreffende regels lezen en op basis daarvan bepalen of de set gevoelige data bevatte.
Vele betere resultaten
Hulsebos: “We zagen dat ons LLM-gedreven mechanisme vele malen beter werkt dan de tool van Google. Google DLP detecteerde bijvoorbeeld 63 procent van de gevoelige persoonsgegevens, terwijl ons systeem tot 94 procent kwam.”
Door het meegeven van de VN-richtlijnen over gevoelige data, werden de LLM’s bovendien een stuk nauwkeuriger. Het aantal vals-positieven halveerde daardoor. Dat scheelt een hoop checks door de Quality Assurance Officers. “De LLM’s zijn nog steeds niet zo specifiek als je zou willen”, zegt Hulsebos, “maar ze bleken wel vrij consistent. Ook bleek de toelichting waarom bepaalde informatie als gevoelig werd bestempeld, erg nuttig.”
Inmiddels heeft de VN besloten om de mechanismen in hun data platform te integreren. In oktober zal Hulsebos hierover een presentatie geven tijdens een VN-bijeenkomst in Barcelona.
“Het mooie van deze mechanismen is dat ze ook buiten de VN toepasbaar zijn, bijvoorbeeld op cloudplatforms waar enorme hoeveelheden data worden gedeeld, van bedrijfsgevoelige financiële gegevens tot overheidsdata”, zegt Hulsebos. “Veel publieke data-portals leveren input voor de training van AI-modellen. En daar wil je ook geen gevoelige informatie tussen aantreffen.”
Header foto: kibri_ho / Shutterstock.com