CWI helpt VN gevoelige data uit crisisplatform te filteren

CWI-onderzoeker Madelon Hulsebos ontwikkelde samen met masterstudent Liang Telkamp een methode die nauwkeurig gevoelige gegevens filtert uit de enorme hoeveelheden data van het Humanitarian Data Exchange (HDX) platform van de Verenigde Naties. Deze data zijn onmisbaar voor hulpverlening, maar kunnen ook gevaarlijk zijn als gevoelige informatie in verkeerde handen valt.

In haar kantoor toont Madelon Hulsebos op haar computerscherm het openbare dataplatform van de Verenigde Naties (VN). Een tellertje bovenaan de pagina toont ruim 19.300 datasets, geüpload vanaf 254 crisisgebieden van over de hele wereld. Lokale overheden delen er hun data, variërend van conflicten en oorlogen tot overstromingen en andere natuurrampen. Op basis van deze informatie faciliteert de VN de coördinatie van lokale humanitaire hulp.

De datasets bevatten uiteenlopende gegevens, bijvoorbeeld over personen, gebouwen en locaties. “Organisaties zetten deze op het dataplatform zonder zich te realiseren dat bepaalde data schadelijk kunnen zijn als ze in verkeerde handen terechtkomen”, legt Hulsebos uit. “Denk bijvoorbeeld aan de coördinaten van ziekenhuizen in oorlogsgebieden, die daardoor een doelwit kunnen worden. Deze soort data moeten er dus worden uitgefilterd.”

Dat is op zijn zachtst gezegd een gigantische klus. Niet alleen de inhoud en aard van de gegevens verschilt per dataset, maar ook de manier waarop de informatie is gestructureerd. Waar de een met een excelsheet werkt, gebruikt de ander weer kolommen met uiteenlopende naamgevingen, en dat in verschillende talen. Hulsebos: “Daardoor kun je het opsporen van gevoelige informatie moeilijk automatiseren.”

Handmatige checks

De VN heeft voorheen gewerkt met een commerciële tool van Google, Google DLP. Maar die haalt lang niet alle gevoelige informatie boven water en labelt informatie bovendien vaak als ‘gevoelig’ terwijl dat niet zo is. Daarom is er een handmatige check nodig door zogenoemde Data Quality Officers. “Maar dit kost erg veel tijd omdat er steeds meer data worden gedeeld. Bovendien is het consistent labelen niet altijd makkelijk, ook niet voor mensen.”

Er is dan ook behoefte aan een efficiëntere manier om de data op gevoelige informatie te analyseren. Eerder onderzoek van Hulsebos toonde aan dat kunstmatige intelligentie (AI) patronen kan zien in een grote verscheidenheid aan gestructureerde datasets. Op basis van dit inzicht wendde ze AI aan om een oplossing te ontwikkelen voor het HDX-project, het eerste binnen een bestaande samenwerking tussen de VN en Hulsebos. AI Masterstudent Liang Telkamp sloot zich hierbij aan en schreef er haar thesis over.

Context doet ertoe

Hulsebos en Telkamp ontwikkelden twee mechanismen die data op gevoeligheid analyseren. Ze introduceerden daarin een nieuw concept: contextueel gevoelige data. “Gevoelige data zijn meer dan alleen persoonsgegevens. Bepalend is of de informatie in verkeerde handen schade kan veroorzaken”, licht Hulsebos toe. “Ook kan gevoeligheid tijdgebonden zijn: misschien waren bepaalde gegevens 5 jaar geleden niet gevoelig, maar in deze tijd wel. Of plaatsgebonden: de coördinaten van een ziekenhuis in Nederland zijn minder gevoelig dan die van een ziekenhuis in Gaza. Daarnaast zijn namen niet altijd gevoelig. Een bedrijfsnaam mag best in de openbaarheid komen, maar die van politieagenten niet. De context van een dataset is dus heel belangrijk.”

Voor een van de AI-mechanismen gebruikten de onderzoekers tekstdocumenten van de VN waarin regels staan over de omgang met data; welke gegevens mogen niet gepubliceerd worden en welke wel? AI koppelde de datasets aan de juiste regels. Vervolgens lieten de onderzoekers diverse LLM’s (Large Language Models, bijvoorbeeld GPT-4 maar ook open source modellen als Qwen) de betreffende regels lezen en op basis daarvan bepalen of de set gevoelige data bevatte.

Vele betere resultaten

Hulsebos: “We zagen dat ons LLM-gedreven mechanisme vele malen beter werkt dan de tool van Google. Google DLP detecteerde bijvoorbeeld 63 procent van de gevoelige persoonsgegevens, terwijl ons systeem tot 94 procent kwam.”

Door het meegeven van de VN-richtlijnen over gevoelige data, werden de LLM’s bovendien een stuk nauwkeuriger. Het aantal vals-positieven halveerde daardoor. Dat scheelt een hoop checks door de Quality Assurance Officers. “De LLM’s zijn nog steeds niet zo specifiek als je zou willen”, zegt Hulsebos, “maar ze bleken wel vrij consistent. Ook bleek de toelichting waarom bepaalde informatie als gevoelig werd bestempeld, erg nuttig.”

Inmiddels heeft de VN besloten om de mechanismen in hun data platform te integreren. In oktober zal Hulsebos hierover een presentatie geven tijdens een VN-bijeenkomst in Barcelona.

“Het mooie van deze mechanismen is dat ze ook buiten de VN toepasbaar zijn, bijvoorbeeld op cloudplatforms waar enorme hoeveelheden data worden gedeeld, van bedrijfsgevoelige financiële gegevens tot overheidsdata”, zegt Hulsebos. “Veel publieke data-portals leveren input voor de training van AI-modellen. En daar wil je ook geen gevoelige informatie tussen aantreffen.”

Header foto: kibri_ho / Shutterstock.com

Portrait of Madelon Hulsebos in front of CWI

Over Madelon Hulsebos

Madelon Hulsebos is sinds 2024 tenure track onderzoeker in de Database Architectures groep van het CWI, waar ze leiding geeft aan het Table Representation Learning lab. Daarvoor was ze een postdoctorale onderzoeker aan UC Berkeley. Ze promoveerde aan de Universiteit van Amsterdam, waarvoor ze onderzoek deed bij MIT en Sigma Computing. Haar onderzoek richt zich op het snijvlak van machine learning, information retrieval en data management, in het bijzonder ontwikkelt zij AI-gedreven systemen voor het analyseren van gestructureerde data. Ze ontving hiervoor onder andere de NGF AiNed Fellowship. Voor haar postdoctoraal onderzoek naar zoeksystemen voor gestructureerde data kreeg zij de BIDS-Accenture beurs.

Foto: CWI/Paul Roberts