Lancering open source MonetDB/XQuery door CWI, Twente en Konstanz

Informatici van het Centrum voor Wiskunde en Informatica (CWI) in Amsterdam lanceren volgende week MonetDB/XQuery - een open source systeem, dat een complete implementatie van XQuery biedt. MonetDB/XQuery is gebouwd op het eerder door het CWI ontwikkelde MonetDB Relational Database Management System (RDMS). Het nieuwe systeem overtreft qua prestaties alle tot nu toe bekende XQuery-systemen, zowel wat betreft zoektijd als de omvang van de te doorzoeken documenten.

Publication date: 19-05-2005

Informatici van het Centrum voor Wiskunde en Informatica (CWI) in Amsterdam lanceren volgende week MonetDB/XQuery - een open source systeem, dat een complete implementatie van XQuery biedt. MonetDB/XQuery is gebouwd op het eerder door het CWI ontwikkelde MonetDB Relational Database Management System (RDMS). Het nieuwe systeem overtreft qua prestaties alle tot nu toe bekende XQuery-systemen, zowel wat betreft zoektijd als de omvang van de te doorzoeken documenten. De nieuwe XQuery-processor is ontwikkeld als een open source project en kan gebruikt worden op een groot aantal soft- en hardware platforms, waaronder Windows en Linux, voor zowel wetenschappelijke, commerciële als private doeleinden.
De officiële presentatie van MonetDB/XQuery vindt plaats tijdens de Holland Open Software Conference te Amsterdam. Deze conferentie wordt gehouden van 30 mei tot en met 1 juni 2005.

Schaalbare implementatie
De nieuwe XQuery-processor beantwoordt aan een grote behoefte. Tot nu toe voorzagen alle grote databaseproducenten hun producten van een beperkte XQuery-functionaliteit. Dit geschiedt op basis van een ingebouwde Java of C# XML processor. Een schaalbare implementatie op basis van uitbreiding van de benodigde databasetechnologie is pas voorzien in toekomstige versies. XQuery is door het World Wide Web Consortium (W3C) als nieuwe standaardtaal voor XML gedefinieerd, omdat SQL (Structured Query Language) - de standaardtaal voor relationele databases - niet geschikt is voor gebruik bij XML-gegevens. XML staat voor Extensible Markup Language. Anders dan bij SQL, is het in XQuery mogelijk niet alleen de inhoud van XML-documenten te doorzoeken, maar ook de structuur. De CWI-onderzoekers vergelijken het met het doorzoeken van een bibliotheek: je kunt een catalogus met boektitels doorspitten, maar je kunt ook op de planken zoeken naar dat 'grote in leer gebonden boek, dat er uitziet als een oude Bijbel'.

Ongeëvenaard
Voor het efficiënt opslaan en doorzoeken van grote hoeveelheden XML-gegevens zijn nieuwe softwaresystemen nodig. Een manier om dat te bereiken is het 'van de grond af' opbouwen van geheel nieuwe systemen, beginnend met stand-alone processors die slechts één XML-file tegelijk aankunnen tot zogeheten 'native' XML-databases die verschillende documenten tegelijk kunnen doorzoeken. Dit vereist in essentie de bouw van een compleet nieuw databasesysteem, wat enige honderden manjaren vergt.
Het is ook mogelijk om bestaande relationele databasetechnologie te gebruiken voor het beheer van XML gegevens en zo relationele opslag-, zoek- en indexeringstechnologie te benutten, die zijn waarde al heeft bewezen. XML-documenten worden in versnipperde vorm opgeslagen in relationele tabellen en XQuery-zoekvragen worden vertaald naar relationele zoekvragen (b.v. in SQL). MonetDB/XQuery gaat uit van deze tweede benadering.
De schaalbaarheid van MonetDB/XQuery is ongeëvenaard. Alle zoekopdrachten van het XMark benchmark - een wereldwijd aanvaarde toetsing van hoe compleet een XQuery-implementatie is - kunnen op XML-documenten met een omvang tot 11 GB uitgevoerd worden in interactieve tijd. De nieuwe software is beschikbaar onder de MonetDB Public License.

Samenwerking
Voor de ontwikkeling van MonetDB/XQuery werkten CWI-onderzoekers samen met collega's van de Universiteit Twente (o.l.v. dr.ir. M. van Keulen) en de Universität Konstanz (o.l.v. prof.dr.T. Grust, per juni 2005: Technische Universität München) in het internationale 'Pathfinder project' en in het kader van het Bsik onderzoeksprogramma MultimediaN.