Communicatie
Neem voor vragen contact op met één van de wetenschapsvoorlichters
- Annette Kik
tel. +31 (0)6 5157 4891 - Karin Blankers
tel. +31 (0)6 2422 1105
of gebruik het reactieformulier.
Verbetering statistische methodes met datacompressietechnieken

Computerprogramma's
zoals WinZip zijn in staat om computerbestanden kleiner te maken door
gebruik te maken van datacompressietechnieken uit de informatica. In
zijn proefschrift "When Data Compression and Statistics Disagree: Two
Frequentist Challenges for the Minimum Description Length Principle"
onderzocht Tim van Erven van het Centrum Wiskunde & Informatica in
Amsterdam hoe dezelfde technieken gebruikt kunnen worden in de
statistiek. Zijn onderzoek laat zien dat veelgebruikte statistische
methodes verbeterd kunnen worden door naar hun datacompressiekwaliteiten
te kijken. Van Erven promoveerde 23 november aan de Universiteit
Leiden. Resultaten uit zijn onderzoek zijn interessant voor onder meer
de medische wetenschap, in de sterrenkunde en in de natuurkunde.
Datacompressie
is gebaseerd op het zoeken naar patronen. Als een programma als WinZip
bijvoorbeeld een bestand met daarin 1000 keer de letter 'A' ziet:
"AAAAAAAAAAAAAA... AAA", dan maakt het daar een kleiner bestand van waar
alleen "1000 keer A" in staat. Het patroon in het originele bestand
wordt dus gebruikt om de inhoud korter te beschrijven. Ook moeilijkere
patronen, zoals dat de letter 'E' vaker voorkomt dan de letter 'X',
kunnen gebruikt worden om bestanden kleiner te maken. State-of-the-art
compressieprogramma's maken zelfs gebruik van geavanceerde statistische
kansmodellen om patronen te beschrijven.
De patronen die met
datacompressie gevonden worden blijken ook in de statistiek zeer
waardevol. In zijn proefschrift beschrijft Tim van Erven een praktisch
toepasbare manier om Bayesiaanse methodes (standaard statistische
methodes) te verbeteren. Er wordt met wiskundige bewijzen aangetoond dat
daardoor op basis van minder data betere voorspellingen gedaan kunnen
worden. Hierdoor kunnen we betrouwbaardere conclusies trekken.
Bayesiaanse methodes worden veel gebruikt in de life sciences,
bijvoorbeeld in onderzoek in genetica, maar ook bij hersenonderzoek in
neurowetenschap, bij sterrenkundig onderzoek en in de natuurkunde. Naar
verwachting zullen de resultaten uit het onderzoek van Van Erven de
komende jaren hun weg vinden naar verder toegepast onderzoek.
Het
onderzoek van Van Erven raakt ook aan filosofische vragen over de
fundamenten van de statistiek en van de wetenschap. Via het verband met
datacompressie is wiskundig aangetoond dat de eenvoudigste verklaring
vaak het beste is. Dit uitgangspunt, dat 'Occam's razor' wordt genoemd,
wordt in de hele wetenschap veelvuldig toegepast. Van Erven laat hierbij
bijvoorbeeld zien dat met behulp van Occam's razor de bekende Grue
paradox uit de filosofie een eenvoudige oplossing krijgt.

