Controversiële bewoordingen in veelgebruikte datasets

CWI-onderzoekers hebben ontdekt dat verouderde, stereotype en mogelijk beledigende woorden vaak voorkomen in publiek toegankelijke datasets. Deze datasets voeden veel toepassingen (zoals online woordenboeken) en machine learning algoritmen, waardoor het risico bestaat dat culturele stereotypen zich verder verspreiden.

Publicatiedatum
15 februari 2024

Onderzoekers van CWI's Human-Centered Data Analytics groep en de Vrije Universiteit onderzochten vier veelgebruikte datasets: de algemene kennisbank Wikidata, the Art & Architecture thesaurus (or AAT) van The Getty Institute voor het beschrijven van cultureel erfgoed objecten, en twee woordenbibliotheken voor Engels (Princeton WordNet) en Nederlands (Open Dutch WordNet). Behalve de laatste zijn deze datasets beschikbaar als linked open data.

Wat zijn linked open data (LOD)?

Linked Open Data maakt het mogelijk om meerdere datasets aan elkaar te koppelen met behulp van unieke resource identifiers (of URI's). Bijvoorbeeld, Wikidata's bron "immigrant" met de ID "Q12547146" is gelinkt aan de bron "immigrants" met de ID "294916520" van de African Studies Thesaurus ontwikkeld door de Universiteit Leiden. URI's houden links stabiel, zelfs als de namen ("immigrant") van bronnen veranderen of zelfs als deze namen in verschillende talen worden weergegeven. Het stelt machines ook in staat om links tussen verschillende bronnen te lezen. Het idee van LOD is dat iedereen datasets vrij kan hergebruiken en nieuwe links kan toevoegen.

Voorbeeld van controversiële begrippen in een open dataset.

Om mensen in staat te stellen de gegevens te lezen (en weer te geven in interfaces), beschrijven de ontwikkelaars van LOD bronnen met tekst (ook wel literalen genoemd). Woorden die in deze literalen worden gebruikt zijn niet altijd neutraal, leggen CWI-onderzoekers uit in een paper die zal worden gepubliceerd in de Proceedings of The ACM Web Conference 2024 (manuscript is beschikbaar op arXiv). "Wanneer verouderde en cultureel stereotyperende terminologie wordt gebruikt in literalen, kunnen deze beledigend overkomen op gebruikers in interfaces. Ook kunnen ze stereotypen verspreiden naar algoritmen die op deze teksten zijn getraind", schrijven de auteurs.

Nog steeds veel gebruikt

Daarom onderzochten ze hoe vaak Engelse en Nederlandse controversiële termen voorkomen in LOD en in wat voor soort beschrijvingen: literalen kunnen worden gebruikt als hoofdnamen van bronnen of dienen als langere beschrijvingen die hun betekenis uitleggen. De termen die de onderzoekers onderzochten, werden door experts uit het culturele erfgoedveld als controversieel gecategoriseerd. Deze termen worden vaak gebruikt in museumdatabases en verwijzen bijvoorbeeld naar historisch gemarginaliseerde volkeren, koloniale gebieden en tradities.

De onderzoekers concludeerden dat potentieel aanstootgevende termen - zoals 'koelie', 'gekleurd', 'hottentot', 'mongoloïde', 'mulat', 'neger', 'travestiet' - nog steeds vaak worden gebruikt in de tekstuele beschrijvingen van gegevens die doorgaans worden weergegeven in interfaces en voor indexering worden gebruikt. "We hebben ook verschillende voorbeelden gevonden van data bijdragers die proberen bepaalde termen in literaire beschrijvingen te markeren, bijvoorbeeld door aan te geven dat een term 'aanstootgevend' is. Maar deze markeringen worden zelden gebruikt en als ze worden gebruikt, zijn ze inconsequent. Bovendien is er geen garantie dat ze worden erkend wanneer de datasets opnieuw worden gebruikt", zegt auteur Andrei Nesterov van het CWI. "Met onze empirische resultaten hebben we de omvang van het probleem duidelijk gemaakt. Onze inzichten kunnen ook helpen bij het ontwerpen van meer systematische benaderingen om de verspreiding van stereotypen via LOD aan te pakken."

Voorbeelden

Stereotyping language can be spread from one dataset to another, Nesterov explains. "Open Dutch WordNet, although not available as LOD, is a part of another lexical database – Dutch Open Multilingual WordNet – and, in its turn, it is used as a part of the even larger online dictionary BabelNet. We found evidence of offensive terms from the original Open Dutch WordNet ending up in BabelNet.” For example, (homosexuality) taken from Open Dutch WordNet without any explanation or marking." These synonyms include insulting terms like ‘flikker’(‘faggot’) and ‘geïnverteerde’ (‘inverted’).

Stereotype bewoordingen kunnen van de ene dataset naar de andere worden verspreid, legt Nesterov uit. "Open Dutch WordNet, hoewel niet beschikbaar als LOD, is een onderdeel van een andere woordendatabase - Dutch Open Multilingual WordNet - en wordt op zijn beurt weer gebruikt als onderdeel van het nog grotere online woordenboek BabelNet. We hebben bewijs gevonden dat aanstootgevende termen uit het originele Open Dutch WordNet in BabelNet terecht zijn gekomen." BabelNet biedt bijvoorbeeld BabelNet biedt bijvoorbeeld denigrerende synoniemen van de Nederlandse term ‘homoseksualiteit’ die zonder enige uitleg of markering zijn overgenomen uit Open Nederlands WordNet." Deze synoniemen omvatten beledigende termen als 'flikker' en 'geïnverteerde'.

‘How contentious terms about people and cultures are used in Linked Open Data’, Andrei Nesterov (CWI), Laura Hollink (CWI), Jacco van Ossenbruggen (VU).

Link naar de publicatie op ArXiv