Van hypotheektoekenningen tot het aansturen van het elektriciteitsnet: algoritmen ondersteunen mensen bij het nemen van complexe beslissingen. In de praktijk analyseert een algoritme historische en actuele gegevens om een actie aan te bevelen, zoals het goedkeuren van een lening, het plannen van onderhoud of het in balans brengen van vraag en aanbod van energie. Als de gegevens betrouwbaar en representatief zijn, kunnen zulke systemen sneller en consistenter zijn dan ad-hoc beslissingen van mensen. Maar wanneer de gegevens ruis bevatten of bevooroordeeld zijn, kunnen aanbevelingen op systematische wijze fout uitpakken - met concrete gevolgen voor huishoudens, bedrijven en vitale infrastructuur.
Moderne data en kwetsbare modellen
Moderne datasets zijn steeds vaker wild: niet opgeschoond, rommelig, samengevoegd uit verschillende bronnen en vol eigenaardigheden, zoals ontbrekende waarden, meetfouten, duplicaten, biases en extreme uitschieters (zeldzame, impactvolle ‘black swan’-gebeurtenissen). Een model dat op keurige historische data uitstekend lijkt te presteren, kan na invoering alsnog falen.
Dit hangt samen met de optimizer’s curse in wiskundige optimalisatie: wanneer je onder onzekerheid uit veel opties moet kiezen, valt de optie die er op papier het beste uitziet in de praktijk vaak tegen. Met andere woorden: een plan dat theoretisch optimaal lijkt, kan in de werkelijkheid onderpresteren omdat het onbedoeld te sterk is aangepast op ruis of toevalligheden in de data.
Voor de realiteit plannen, niet alleen voor de theorie
“De huidige besluitvormingsalgoritmen zijn krachtig, maar ze gaan vaak uit van een wereld die netter is dan in werkelijkheid,” zegt Bart Van Parys. “Dit project wil besluitvormingsmethoden voorbereiden op een tijdperk waarin data veel ‘wilder’ zijn. Robuuste optimalisatiemethoden hebben dat geprobeerd volgens het adagium ‘plan voor het ergste, hoop op het beste’. In de praktijk blijven ze echter kwetsbaar bij rommelige data. Zo plannen ze voor het slechtste geval alleen voor zover de data geen fouten of grote uitschieters bevatten. Robuuste optimalisatie is ook bekritiseerd als onpraktisch behoudend. In typische situaties waarin het slechtste geval niet optreedt, zijn de methoden overdreven voorzichtig.”
Wat het project gaat doen
Dit project pakt een langbestaande uitdaging aan. Het ontwikkelt besluitvormingsinstrumenten die ook bij onopgeschoonde data strikte prestatiegaranties bieden. Tegelijk beperken deze instrumenten onnodig conservatisme door de balans te zoeken tussen prestaties in het slechtste geval en in typische situaties. Het project bundelt ideeën uit de statistiek - over hoe rommelige data beslissingen beïnvloeden - en uit de informatica, die prestaties onderzoekt buiten alleen het slechtste geval.
Omgeving en samenwerking
“CWI biedt een zeer stimulerende omgeving, met verschillende wereldberoemde experts op onderwerpen die dicht aansluiten bij mijn onderzoek, zoals Peter Grünwald (veilige statistieken) en Guido Schäfer (algoritmen met voorspellingen),” zegt Van Parys. “Nederland presteert uitzonderlijk goed in wiskundige optimalisatie en data science. Dit project zal die positie verder versterken op het strategisch belangrijke terrein van het ontwikkelen van wiskundige algoritmen die ons leven verbeteren.”

Over Bart Van Parys
Bart Van Parys trad in 2024 in dienst bij de Stochastics groep van CWI als senior onderzoeker. Daarvoor was hij junior faculteitslid bij MIT (Boston, VS). Zijn onderzoek richt zich op distributioneel robuuste optimalisatie en data-gedreven besluitvorming. Hij heeft fundamentele technieken in robuuste optimalisatie ontwikkeld en publiceerde in toonaangevende tijdschriften, waaronder Management Science, Annals of Statistics en Mathematical Programming.
Over de Vidi grant
Een NWO Vidi-subsidie is een financieringsinstrument van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) binnen het NWO-Talentprogramma. De Vidi-subsidie financiert wetenschappelijk innovatief onderzoek en stelt onderzoekers in staat een onderzoeksgroep op te zetten en een innovatieve onderzoekslijn te ontwikkelen.