De veelgebruikte Bayesiaanse statistiek is niet zo robuust als vaak wordt gedacht. Onderzoeker Thijs van Ommen van het Centrum Wiskunde & Informatica (CWI) heeft ontdekt dat voor een bepaald type problemen de Bayesiaanse statistiek niet-bestaande patronen in data vindt. Van Ommen verdedigt zijn proefschrift op dit onderwerp op woensdag 10 juni aan de Universiteit Leiden.
Bayesiaanse statistiek wordt vaak gebruikt om vast te stellen of een hypothese juist of onjuist is op basis van de bewijslast, en geeft een maat voor de zekerheid van deze conclusie. Deze vorm van statistiek wordt onder andere in de machine learning gebruikt. Van Ommen heeft ontdekt dat Bayesiaanse statistiek niet robuust is als bepaalde aannames in het model een klein beetje verkeerd zijn. Hij ontwierp verschillende datasets waarin de Bayesiaanse statistiek niet-bestaande patronen vond, gebaseerd op willekeurige ruis in de data. De datasets hadden allemaal realistische eigenschappen en zouden prima als echte experimentele data kunnen voorkomen.
De fouten treden op bij zogenaamde regressieanalyse. In deze vorm van data-analyse zoekt een onderzoeker naar de relatie tussen twee of meer variabelen, de ene bekend en de andere onbekend. Als hierbij modellen worden gebruikt die niet helemaal correct zijn, zoals bij een aanname dat de ruis een specifieke kansverdeling volgt, is er een risico dat onzinnige conclusies worden getrokken. Van Ommen stelt het probleem niet alleen vast, maar levert ook direct de oplossing in de vorm van een toevoeging aan de Bayesiaanse statistiek. Deze toevoeging, SafeBayes, voorkomt de genoemde problemen in regressieanalyse. Naar verwachting wordt dit binnenkort toegevoegd aan statistische software als R en SPSS.
