Werkbank Geesteswetenschappen

Startpagina > XML > Werken met XML
xml werken

Werken met XML

XML coderen

Er zijjn verschillende manieren om XML-codering aan te brengen in een tekst. Omdat het bij XML-bestanden gaat om 'kale' tekst, kun je de codes in principe aanbrengen met een text editor zoals Kladblok (Notepad) of NoteTab. Dit is echter niet aan te raden, omdat het erg omslachtig is en bovendien lastig om het foutloos te doen.

Beter is het om een zgn. XML-editor te gebruiken. Dit is een soort tekstverwerker die speciaal gemaakt is om met XML te werken. Dit houdt onder andere in dat door middel van kleuren een duidelijk verschil wordt gemaakt tussen tekst en codes. Daarnaast kan de correctheid van de codering worden gecontroleerd. Als er geen sprake is van 'vrij' coderen (dat wil zeggen: als er een dtd of XML-schema wordt gebruikt), kan de editor bovendien op bepaalde plaatsen in een document keuzelijstjes aanbieden met de XML-codes en/of attributen die op die plaats zijn toegestaan. Dit zorgt naast een correcte en consequente codering ook voor een efficiënte manier van werken.

In onze faculteit wordt voor eenvoudige projecten de gratis XML-editor XMLPad gebruikt. Voor grotere projecten is in het verleden gebruik gemaakt van de geavanceerde commerciële XML-editor Oxygen. Momenteel beschikt de faculteit niet meer over een licentie voor dit pakket.

XML doorzoeken

De meeste standaard concordantieprogramma's (zoals WordSmith) bieden wel basale mogelijkheden om tekstcorpora met eenvoudige XML-codering te doorzoeken (exploreren). Zie hiervoor de handleiding.
Als in een corpus echter meer complexe XML-codering wordt gebruikt (zoals in het Corpus Gesproken Nederlands of het British National Corpus), volstaat dergelijke programmatuur niet. Daarom worden dergelijke corpora vaak geleverd met eigen exploratiesoftware. Voor het BNC is dat bijvoorbeeld Xaira. Dit programma kan ook gebruikt worden om andere corpora met XML-codering te exploreren. Hiervoor moet echter wel eerst voorbereidend werk worden verricht (zoals het indexeren van zo'n corpus). Bovendien hebben ook dergelijke exploratieprogramma's uiteindelijk hun beperkingen.
Als je geheel vrij wilt zijn in de wijze waarop informatie uit een XML-document wordt opgevraagd, kan je de XML-vraagtaal XQuery gebruiken. Hiervoor is echter wel technische kennis van XML en enige programmeerervaring nodig. De organisatie w3schools biedt op zijn website een beknopte XQuery tutorial aan.

XML verwerken

XML-documenten kunnen op diverse manieren worden verwerkt. Zo is het bijvoorbeeld mogelijk om automatisch de gecodeerde elementen uit een verzameling tekstbestanden te extraheren en deze op te slaan in een database of in een bestand dat verder statistisch kan worden geanalyseerd. Hiervoor is echter ook technische kennis van XML en enige programmeerervaring nodig. Hiervoor kan je contact opnemen met het facultaire Bureau Informatisering.

Overige pagina's in deze rubriek: Introductie   Basisprincipes   Voorbeelden   Text Encoding Initiative   Meer informatie