Digitale inbrekers slimmer te snel af met AI

Universiteiten, ziekenhuizen, bedrijven en zelfs overheidsinstellingen kregen de afgelopen jaren te maken met cyberaanvallen die hun systemen lamlegden. Het laat zien hoe kwetsbaar onze digitale infrastructuur is. Etienne van de Bijl (Stochastics groep) onderzocht hoe kunstmatige intelligentie zulke dreigingen kan herkennen. Vandaag promoveert hij hierop aan de Vrije Universiteit Amsterdam.

Veel bestaande beveiligingssystemen werken met een soort woordenboek van bekende aanvallen. Zodra criminelen hun methode aanpassen, zijn deze systemen niet in staat deze aanvallen te herkennen. Machine learning – algoritmes die patronen leren herkennen in data – kan flexibeler inspelen op nieuwe onbekende varianten.

Etienne van de Bijl

Slimme algoritmes als digitale waakhond

Etienne van de Bijl keek onder meer of machine learning kan helpen bij het op tijd herkennen van denial-of-service (DoS) en distributed denial-of-service (DDoS) aanvallen, waarbij een server overspoeld wordt met zoveel verzoeken dat normale gebruikers geen toegang meer hebben. Ook webaanvallen kwamen aan bod, zoals SQL-injections (waarbij kwaadwillenden via zoekvelden of formulieren proberen toegang te krijgen tot een database) en cross-site scripting (waarbij schadelijke code wordt ingevoegd in een website die bezoekers vervolgens ongemerkt uitvoeren).

Een ander veelgebruikt middel van hackers waar Van de Bijl naar keek, is de brute force-aanval: het automatisch uitproberen van eindeloos veel wachtwoordcombinaties totdat er één werkt.

Nieuwe varianten herkennen

Uit het onderzoek van de PhD-student bleek, dat AI-systemen in sommige gevallen ook nieuwe aanvalstypen herkennen, zelfs als ze daar niet expliciet op zijn getraind. Een model dat bijvoorbeeld leert om brute force-aanvallen te signaleren, kan soms ook varianten van een DDoS-aanval oppikken. Omgekeerd is dat niet altijd zo: een model dat goed werkt bij aanval A, blijkt niet vanzelfsprekend geschikt voor aanval B.

Ook bleek dat het gebruiken van méér trainingsdata niet automatisch beter is. Soms levert een klein, zorgvuldig samengesteld pakket van voorbeelden betere resultaten dan een grote bulk gegevens. De kwaliteit van datasets is dus cruciaal voor een goede cyberverdediging, concludeert Van de Bijl.

Leren met weinig data

Een ander vraagstuk in de praktijk is het gebrek aan gelabelde data – situaties waarin je niet precies weet welke netwerkactiviteit normaal is en welke verdacht. Van de Bijl ontwikkelde ULTRA, een methode die twee technieken combineert: active learning en transfer learning. Active learning houdt in dat het systeem de meest veelbelovende voorbeelden selecteert waar een expert een label (‘aanval’ of ‘normaal’) aan toevoegt. Transfer learning gebruikt kennis uit een ander domein of een eerdere dataset om een nieuw systeem sneller op weg te helpen. Samen zorgen ze ervoor dat een detectiesysteem al in een vroeg stadium zinnige resultaten kan geven, ook met beperkte data.

Waardevol instrument

In zijn proefschrift concludeert Van de Bijl dat machine learning een waardevol instrument kan zijn om cyberaanvallen op te sporen. Tegelijkertijd zijn er nog uitdagingen: er is behoefte aan betere algoritmen, die grondig zijn getest en waarvan de werking inzichtelijk en uitlegbaar is. Dan kan AI uitgroeien tot een betrouwbaar onderdeel van onze digitale verdediging.

Over het proefschrift

Titel: From Baselines to Breakthroughs: Fundamentals and Applications of Machine Learning in Cybersecurity

Promotoren: Rob van der Mei (CWI/VU) en Sandjai Bhulai (VU)

Headerfoto: Shutterstock