Werkbank Geesteswetenschappen

Startpagina > XML > Introductie

Introductie XML

XML (Extensible Markup Language) is ontworpen om de inhoud van bestanden op een gestructureerde manier op te kunnen slaan. Centraal daarbij staat het gebruik van codes waarmee de zowel structuur van bestanden als individuele betekenisvolle elementen in een document kunnen worden gemarkeerd en geannoteerd. XML-documenten bestaan uitsluitend uit letters, cijfers en leestekens (het zijn dus zgn. plain text files) en geen enkele specifieke binaire code voor opmaak of structurering, zoals bijvoorbeeld het geval is bij Word-documenten en Excel-bestanden. Daardoor zijn XML-documenten programma- en platformonafhankelijk: als een tekstbestand met XML-coderingen wordt gecreëerd met programma A op besturingssysteem X, kan het ook worden verwerkt door programma B op besturingssysteem Y. Daarnaast is het een open systeem dat kosteloos gebruikt kan worden. Door gebruik te maken van XML wordt digitale informatie meer toekomstvast: een open en relatief eenvoudige standaard vormt een goede basis voor toekomstig hergebruik van (onderzoeks)data.

Een aantal belangrijke voordelen van het gebruik van XML zijn:

  • Documenten zie zijn gecodeerd met XML kunnen op diverse manieren worden be- en verwerkt. Dat kan zowel op documentniveau, op het niveau van de individuele elementen die zijn gemarkeerd, als op een combinatie daarvan. Voor onderzoeksdoeleinden is het bijvoorbeeld nuttig dat de inhoud van XML-documenten kan worden omgezet naar SPSS-bestanden voor verdere statistische analyse.
  • Optimale ontsluiting van de inhoud van de documenten (text retrieval): ze kunnen op diverse manieren worden doorzocht, waarbij optimaal gebruik kan worden gemaakt van de codering van de verschillende elementen. De ontsluiting kan worden ondersteund door indexen, die automatisch kunnen worden gegenereerd op basis van de gecodeerde elementen.
  • XML-documenten zijn goed uitwisselbaar, waardoor ze eenvoudig door anderen kunnen worden (her)gebruikt.

Hoewel er veel verschillende XML-toepassingen zijn ontwikkeld voor het coderen van specifieke typen documenten (zie bijvoorbeeld het overzicht XML Applications and Initiatives op de website Cover Pages), kan men er ook een geheel nieuw codeersysteem mee opzetten, dat geheel aansluit bij de eigen doelstellingen van bijvoorbeeld een bepaald onderzoeksproject. Ook is het mogelijk om een bestaande XML-codering te gebruiken en deze op bepaalde punten aan te passen en/of uit te breiden voor een specifiek onderzoeksproject.

XML kent honderden toepassingen en wordt ingezet binnen veel verschillende vakgebieden. Voorbeelden zijn:

  • In de technische wereld wordt XML op grote schaal gebruikt voor de uitwisseling van gegevens tussen verschillende computerprogramma's en -systemen.
  • In de wereld van het Internet is sinds 2001 XHTML (de XML-versie van HTML) beschikbaar om webpagina's op te maken (zie b.v. de webpagina HTML vs XHTML van W3schools.com). HTML5 (dat HTML4 en XHTML opvolgt) is eveneens gebaseerd op XML. Daarnaast zijn ook steeds meer dynamische websites gebaseerd op bestanden die zijn gecodeerd met behulp van XML (in plaats van op gegevens die zijn opgeslagen in databases).
  • In de uitgeverijwereld wordt XML gebruikt om documenten zodanig op te slaan dat (delen ervan) gepubliceerd kunnen worden via diverse media. Dit wordt wel 'medium-neutrale opslag' genoemd (zie b.v. Kunst 2010). Ook 'printing on demand', waardoor niet een compleet boek, maar ook slechts een aantal relevante hoofdstukken daarvan digitaal kunnen worden aangeschaft, wordt hierdoor mogelijk gemaakt.
  • In de bibliotheekwereld speelt XML een rol bij de uitwisseling en het gezamenlijk gebruik van bibliografische gegevens (zie b.v. Banerjee 2008).
  • In de archiefwereld wordt XML gebruikt voor het gestructureerd opslaan van archiefinventarissen. De betreffende XML-toepassing heet Encoded Archival Description (zie voor meer informatie b.v. de pagina over EAD van het kenniscentrum Digitaal Erfgoed Nederland).

In deze werkbank ligt de nadruk op het gebruik van XML bij het verrijken van (voornamelijk tekstuele) documenten voor onderzoeksdoeleinden in de geesteswetenschappen. Daar wordt voor de analyse van gedigitaliseerde tekstuele bronnen vaak extra informatie aan de betreffende teksten toegevoegd. Het kan daarbij gaan om informatie over de herkomst en de structuur van de documenten en/of om meer inhoudelijke informatie, waarbij de inhoud van de documenten op enigerlei wijze wordt geclassificeerd. Men spreekt in verband hiermee meestal van annotatie. Onderzoeksmateriaal dat is verrijkt met behulp van XML-codes kan op verschillende manieren worden bewerkt, doorzocht, geanalyseerd en gepresenteerd (bijvoorbeeld via een website). XML kan daarmee zorgen voor een optimale ontsluiting van het onderzoeksmateriaal. Uiteraard is een voorwaarde daarvoor dat het op een goede manier wordt toegepast.

In taalkundig en tekstanalytisch onderzoek wordt XML ingezet voor de markup en annotatie van tekstcorpora, zowel voor standaard tekstcorpora als het British National Corpus en SoNaR, als voor specifieke onderzoeksprojecten. In letterkundig onderzoek wordt XML gebruikt voor de annotatie van gedigitaliseerde literaire teksten. Het TEI By Example project van de KANTL geeft bijvoorbeeld een goed overzicht van de toepassingsmogelijkheden bij de annotatie van poëzie. In historisch en cultuurhistorisch onderzoek wordt XML gebruikt voor de annotatie en ontsluiting van bijvoorbeeld brieven en andere historische documenten, evenals voor de markup van meer gestructureerde datasets (gebaseerd op bijvoorbeeld persoonsarchieven).

Behalve voor annotatie ten behoeve van onderzoek, wordt XML ook veel gebruikt voor annotatie ten behoeve van de bezorging en digitale publicatie van primaire teksten, manuscripten en andere documenten.