Een revolutie in de statistiek om de replicatiecrisis te bedwingen

Onderzoekers van het CWI hebben een betere methode ontwikkeld om te bepalen of wetenschappelijke resultaten statistisch significant zijn of niet. Deze 'E-waarde', zoals hij wordt genoemd, vervangt de veelgebruikte maar vaak problematische p-waarde.

Publicatiedatum
26 april 2024

In 2005 publiceerde John Ioannidis, een professor aan Stanford University, een artikel met de titel paper titled Why Most Published Research Findings are False. Dit heeft sindsdien geleid tot een groter bewustzijn dat veel onderzoekspapers, zelfs die in prestigieuze tijdschriften, fout-positieve conclusies kunnen bevatten. Dit fenomeen is bekend geworden als de 'replicatiecrisis'

Of experimentele resultaten significant zijn en niet door toeval zijn ontstaan, wordt traditioneel bepaald met p-waarden, volgens een methode uit de jaren 1930. “P-waarden zijn echter ongeschikt voor de manier waarop wetenschap vandaag de dag wordt bedreven”, zegt Peter Grünwald, senior onderzoeker bij het CWI. “P-waarden zijn uitgevonden voor eenmalig onderzoek. Het is onjuist om nieuwe gegevens toe te voegen en de p-waarde opnieuw te berekenen, maar dat is wat vaak gebeurt in modern onderzoek. Als bijvoorbeeld een experimentele uitkomst van een medicijnstudie niet significant is, herhalen wetenschappers vaak het experiment door meer deelnemers toe te voegen. Als men dit proces herhaalt, dan zal, door puur toeval, het resultaat uiteindelijk een kleine p-waarde hebben en significant lijken.”

Bewijswaarde

In de afgelopen jaren hebben Grünwald en zijn collega's van het CWI een beter alternatief voor de p-waarde ontwikkeld, genaamd E-waarde (evidence-value). Grünwald: “De E-waarde berekent hoeveel bewijs je hebt tegen de nulhypothese en is een waarde tussen nul en oneindig. Hoe hoger de waarde, hoe groter het bewijs dat de uitkomsten significant zijn. In de praktijk wordt significantie in eenmalige situaties meestal geassocieerd met een p-waarde die kleiner is dan nul. Hoe hoger de waarde, hoe groter het bewijs dat de uitkomsten significant zijn. In de praktijk wordt significantie in eenmalige situaties meestal geassocieerd met een p-waarde kleiner dan 0,05. Dit komt overeen met een E-waarde groter dan 20, dus je kunt zeggen dat als de E-waarde groter is dan 20, de uitkomst als significant kan worden geaccepteerd. Maar je kunt nu gegevens toevoegen zo lang als je wilt, stoppen wanneer je wilt en de E-waarde opnieuw berekenen, en nog steeds de interpretatie handhaven dat een E-waarde groter dan 20 betekent dat de resultaten significant zijn.”

Peter Grünwald
Peter Grünwald

Het concept van E-waarde dateert uit het begin van de jaren 1970, maar werd decennialang niet omarmd. Dat veranderde in 2019. Plotseling bleek de tijd rijp en binnen zes maanden verschenen vier artikelen van vier verschillende onderzoeksgroepen, die allemaal pleitten voor het gebruik van E-waarden in de statistiek en de onderliggende wiskunde ontwikkelden. Het was de groep van Grünwald bij het CWI die de primeur had.

“Onze grootste bijdrage is dat we voor het eerst hebben laten zien dat er zoiets als een optimale E-waarde bestaat”, zegt Grünwald. “Helaas is de optimale E-waarde vaak moeilijk te berekenen. Andere groepen hebben een zogenaamde quick-and-dirty E-waarde ontwikkeld, maar dat bedoel ik heel positief. Die kan efficiënt worden berekend, maar is niet optimaal.”

Netflix en Amazon

In de wereld van de theoretische statistiek beginnen E-waarden steeds meer geaccepteerd te worden. In de dagelijkse praktijk van de rest van de wetenschappelijke wereld blijkt acceptatie echter moeilijk. Grünwald: “Miljoenen mensen wereldwijd zijn gewend om p-waarden te berekenen en softwarepakketten hebben het vaak geïntegreerd in hun data-analyse.”

In de wereld van de theoretische statistiek beginnen E-waarden steeds meer geaccepteerd te worden. In de dagelijkse praktijk van de rest van de wetenschappelijke wereld blijkt acceptatie echter moeilijk. Grünwald: “Miljoenen mensen wereldwijd zijn gewend om p-waarden te berekenen en softwarepakketten hebben het vaak geïntegreerd in hun data-analyse.”

Grünwalds missie voor de komende jaren is om E-waarden te promoten en het gebruik ervan makkelijker te maken door praktische software te ontwikkelen. “Het goede nieuws is dat sommige grote techbedrijven E-waarden al omarmen. Van Netflix weet ik dat zeker. Van Amazon weet ik dat ze ermee bezig zijn. De tech-industrie staat meer open voor E-waarden omdat ze een enorm belang hebben bij machinaal leren, en interessant genoeg zijn er grote overeenkomsten tussen op E-waarden gebaseerde statistieken en het fundamentele probleem van exploratie versus exploitatie bij machinaal leren. Beide gaan over het op elk moment kunnen toevoegen van nieuwe gegevens.”

Het exploratie-exploitatieprobleem is een fundamentele uitdaging in besluitvorming waarbij men moet kiezen tussen het verkennen van nieuwe opties en het exploiteren van bekende opties. Wanneer een zoekmachine moet kiezen welke advertenties ze naast bepaalde zoekresultaten wil tonen, moet ze dit probleem oplossen.

Grünwald leidt de Machine Learning-groep bij het CWI, en ondanks het feit dat E-waarden in wezen deel uitmaken van de theoretische statistiek, kwamen sommige ideeën hiervoor rechtstreeks van machine learning. “Ik zou het concept van E-waarden niet hebben ontwikkeld als ik niet ook actief was geweest in machine learning”, zegt Grünwald.

Naast het promoten van E-waarden als alternatief voor p-waarden, wil Grünwald de komende jaren ook het theoretische begrip van E-waarden verdiepen: "Een van de onopgeloste problemen is het berekenen van goede E-waarden voor complexe problemen. Bovendien wil ik wiskundig bewijzen dat E-waarden de juiste benadering zijn om het intuïtieve begrip van bewijs in gegevens vast te leggen."

Auteur: Bennie Mols