Snelle en efficiënte gegevensanalyse dankzij nieuwe databasearchitecturen

CWI's langetermijn-softwareontwikkeling heeft geleid tot fundamenteel nieuwe databasearchitecturen die een wereldwijde databasemarkt van een triljoen dollar hebben veranderd.

Publicatiedatum
18 maart 2024

"Databases en databasesystemen zijn fundamentele ingrediënten van elk IT-systeem", zegt Peter Boncz, groepsleider van de Database Architectures groep bij CWI. "Daarom is ons onderzoek van essentieel belang. Iedereen bouwt oplossingen met deze tools. Iedereen denkt in de termen die database architecten hebben bedacht. Deze tools bepalen de grenzen van de verbeelding voor al die applicatieontwikkelaars."

Peter Boncz. Picture: Ivar Pel
Peter Boncz. Picture: Ivar Pel

Of het nu gaat om winkelketens, banken, webshops of ziekenhuizen, ze verzamelen allemaal gegevens en willen daar zoveel mogelijk inzichten uit halen. Nadat de gegevens zijn verzameld, worden ze samengebracht, gefilterd, opgeschoond, geaggregeerd en vervolgens geanalyseerd met dashboards, statistische tools of machine learning. Databases spelen een centrale rol in deze datapijplijn. Het nieuwste CWI-succes op het gebied van database-architecturen is de uitvinding van zogenaamde embedded analytics, ontworpen om te werken binnen lopende processen, zonder dat er een aparte server nodig is. Een aantal eerdere wetenschappelijke uitvindingen die bij het CWI zijn gedaan, waren hierbij cruciaal: kolomopslag, vectorgestuurde zoekopdrachten en snelle datacompressiemethoden.

Hannes Mühleisen spreekt tijdens de data-top in de VS
Hannes Mühleisen

"Geïntegreerde analysemethoden leveren grote besparingen op, omdat je minder gegevens hoeft mee te slepen en ze gemakkelijk in te bouwen zijn in een grotere datapijplijn", zegt Hannes Mühleisen, senior onderzoeker bij de Database Architectures-groep. In 2019 lanceerde Mühleisen samen met zijn collega Mark Raasveldt het open-source databasesysteem DuckDB. DuckDB is klein, wendbaar en efficiënt. Het heeft tien tot honderd keer minder hardwarecapaciteit nodig dan concurrent Spark. In tegenstelling tot Pandas, een andere populaire data science tool, kan het gegevens verwerken die groter zijn dan het geheugen en kan het profiteren van parallelle verwerking met behulp van meerdere kernen, aanwezig in alle computers. DuckDB werd al snel een groot succes, met meer dan twee miljoen downloads per maand aan het begin van 2023.

"De ontwikkeling van DuckDB werd mogelijk gemaakt door de grote vrijheid die ik bij CWI had om zelf iets uit te vinden," zegt Mühleisen. "Ik had de overtuiging dat je voor de meeste dataproblemen geen opschaling van de data naar meerdere computers nodig hebt. Ik geloofde dat je veel meer kunt doen op één computer dan de meeste mensen dachten. In de komende jaren wil ik die visie graag uitbreiden, enerzijds om de ecologische voetafdruk van IT-systemen aanzienlijk te verkleinen en anderzijds om gebruikers meer controle te geven over hun eigen gegevens en zo de macht van cloudbedrijven te beperken."

Spin-offs

Wat de Database Architectures-groep doet, is heel moeilijk te realiseren aan een universiteit omdat de projecten de omvang van een PhD-traject aanzienlijk overschrijden. Hetzelfde geldt voor het bedrijfsleven, waar de focus ligt op resultaten op relatief korte termijn. Boncz: "Minstens vijf mensen moeten tien jaar lang aan een databasesysteem werken. Je kunt dat niet door vijftig mensen in een jaar laten doen. Het is de bereidheid van CWI om te investeren in softwareontwikkeling op de lange termijn die ertoe heeft geleid dat onze groep MonetDB, VectorWise en nu DuckDB heeft geproduceerd."

In 2021 richtten Mühleisen en Raasveldt het spin-off bedrijf DuckDB Labs op, dat diensten en ontwikkeling voor DuckDB levert. In het najaar van 2022 hielp DuckDB Labs bij de oprichting van de startup MotherDuck, die DuckDB met de cloud verbindt. MotherDuck wist 47,5 miljoen dollar aan financiering op te halen.

Ecosysteem van datasystemen

Wetenschappelijke doorbraken die leiden tot nieuwe bedrijven passen in Boncz's langetermijnvisie voor Nederland om een ecosysteem van datasystemen te creëren voor onderzoek, onderwijs en bedrijven. De eerste resultaten van die visie ziet hij geleidelijk ontstaan. Het CWI heeft bijvoorbeeld een belangrijke rol gespeeld bij de vestiging van het R&D-centrum van het Amerikaanse bedrijf Databricks in Amsterdam, waarvoor Databricks de afgelopen vier jaar honderd miljoen euro heeft geïnvesteerd. "Je zou kunnen zeggen dat er honderd miljoen euro in de Nederlandse economie is gepompt dankzij ons werk", zegt Boncz.

Boncz en Mühleisen zijn er trots op dat de langdurige softwareontwikkeling, die deel uitmaakt van CWI's missie, zo'n impact heeft op databasetoepassingen die wereldwijd worden gebruikt. Boncz: "Als je kijkt naar de evolutie van alle databasesystemen, kun je zeggen dat van de analytische systemen 85% een sterke CWI signatuur heeft." Tot de andere systemen behoort Snowflake, dat in 2021 de grootste beursgang ooit maakte en mede werd opgericht door Marcin Zukowski, een promovendus uit de Database Architectures groep van CWI. Zukowski had eerder het VectorWise systeem ontworpen.

Auteur: Bennie Mols