Werkbank Geesteswetenschappen |
Startpagina > XML > Introductie
Introductie XMLXML (Extensible Markup Language) is ontworpen om de inhoud van bestanden op een gestructureerde manier op te kunnen slaan. Centraal daarbij staat het gebruik van codes waarmee de zowel structuur van bestanden als individuele betekenisvolle elementen in een document kunnen worden gemarkeerd en geannoteerd. XML-documenten bestaan uitsluitend uit letters, cijfers en leestekens (het zijn dus zgn. plain text files) en geen enkele specifieke binaire code voor opmaak of structurering, zoals bijvoorbeeld het geval is bij Word-documenten en Excel-bestanden. Daardoor zijn XML-documenten programma- en platformonafhankelijk: als een tekstbestand met XML-coderingen wordt gecreëerd met programma A op besturingssysteem X, kan het ook worden verwerkt door programma B op besturingssysteem Y. Daarnaast is het een open systeem dat kosteloos gebruikt kan worden. Door gebruik te maken van XML wordt digitale informatie meer toekomstvast: een open en relatief eenvoudige standaard vormt een goede basis voor toekomstig hergebruik van (onderzoeks)data. Een aantal belangrijke voordelen van het gebruik van XML zijn:
Hoewel er veel verschillende XML-toepassingen zijn ontwikkeld voor het coderen van specifieke typen documenten (zie bijvoorbeeld het overzicht XML Applications and Initiatives op de website Cover Pages), kan men er ook een geheel nieuw codeersysteem mee opzetten, dat geheel aansluit bij de eigen doelstellingen van bijvoorbeeld een bepaald onderzoeksproject. Ook is het mogelijk om een bestaande XML-codering te gebruiken en deze op bepaalde punten aan te passen en/of uit te breiden voor een specifiek onderzoeksproject. XML kent honderden toepassingen en wordt ingezet binnen veel verschillende vakgebieden. Voorbeelden zijn:
In deze werkbank ligt de nadruk op het gebruik van XML bij het verrijken van (voornamelijk tekstuele) documenten voor onderzoeksdoeleinden in de geesteswetenschappen. Daar wordt voor de analyse van gedigitaliseerde tekstuele bronnen vaak extra informatie aan de betreffende teksten toegevoegd. Het kan daarbij gaan om informatie over de herkomst en de structuur van de documenten en/of om meer inhoudelijke informatie, waarbij de inhoud van de documenten op enigerlei wijze wordt geclassificeerd. Men spreekt in verband hiermee meestal van annotatie. Onderzoeksmateriaal dat is verrijkt met behulp van XML-codes kan op verschillende manieren worden bewerkt, doorzocht, geanalyseerd en gepresenteerd (bijvoorbeeld via een website). XML kan daarmee zorgen voor een optimale ontsluiting van het onderzoeksmateriaal. Uiteraard is een voorwaarde daarvoor dat het op een goede manier wordt toegepast. In taalkundig en tekstanalytisch onderzoek wordt XML ingezet voor de markup en annotatie van tekstcorpora, zowel voor standaard tekstcorpora als het British National Corpus en SoNaR, als voor specifieke onderzoeksprojecten. In letterkundig onderzoek wordt XML gebruikt voor de annotatie van gedigitaliseerde literaire teksten. Het TEI By Example project van de KANTL geeft bijvoorbeeld een goed overzicht van de toepassingsmogelijkheden bij de annotatie van poëzie. In historisch en cultuurhistorisch onderzoek wordt XML gebruikt voor de annotatie en ontsluiting van bijvoorbeeld brieven en andere historische documenten, evenals voor de markup van meer gestructureerde datasets (gebaseerd op bijvoorbeeld persoonsarchieven). Behalve voor annotatie ten behoeve van onderzoek, wordt XML ook veel gebruikt voor annotatie ten behoeve van de bezorging en digitale publicatie van primaire teksten, manuscripten en andere documenten. |
Overige pagina's in deze rubriek: Basisprincipes Voorbeelden Werken met XML Text Encoding Initiative Meer informatie |