Werkbank Geesteswetenschappen

Annotatie van tekstbestanden

Om verschillende redenen wordt in gedigitaliseerde teksten aan de eigenlijke tekst soms allerlei extra informatie toegevoegd. Men spreekt dan vaak van verrijking of annotatie van de tekst, die meestal wordt aangebracht met behulp van bepaalde codes. Het kan daarbij gaan om de onderstaande drie typen annotatie.

  • Broninformatie
    Informatie over de gebruikte editie. Het is belangrijk dat een gebruiker weet met welke editie van een tekst hij of zij te maken heeft. Steeds vaker wordt dergelijke informatie dan ook in de tekst zelf opgenomen in een zgn. header.
  • Structurele elementen
    Het markeren van structurele elementen in een tekst maakt het mogelijk om zoekopdrachten te beperken tot bepaalde tekstgedeelten of om bepaalde tekstgedeelten juist uit te sluiten bij het zoeken. Relevante markeringen in een roman zijn bijvoorbeeld de titelpagina, het boek (I, II, III, etc.), het voorwoord, het hoofdstuk, en eventueel de paragraaf. Bij toneelstukken is het zinvol om aktes, scènes, toneelinstructies en de uitingen van de verschillende personages te markeren. Het laatste maakt bijvoorbeeld onderzoek mogelijk naar verschil in woord- en taalgebruik tussen bepaalde personages. Bij gedichten kunnen titels, strofes en regel gemarkeerd worden en bij brieven de naam van de geadresseerde, de datering, de aanhef, de paragrafen, de afsluiting en de ondertekening.
  • Inhoudelijke aspecten
    Voor bepaalde typen onderzoek kan het nuttig zijn om inhoudelijke annotatie aan te brengen in een tekst of verzameling teksten. Het kan daarbij bijvoorbeeld gaan om het markeren van namen, verwijzingen naar andere teksten, thematische eenheden, metaforen, elementen m.b.t. de narratieve structuur of perspectief, etc.
    Ook kan het soms nuttig zijn om grammaticale aspecten van een tekst te markeren, zoals directe rede versus indirecte rede; directe gedachte versus indirecte gedachte, epitheta (zoals "snelvoetige Achilles" en "uilogige Athene" in het werk van Homerus), e.d.

Annotatiesystemen

Er bestaan verschillende manieren om annotaties aan te brengen in een tekst. Meestal gebeurt dat in de vorm van codes, in het Engels meestal markup genoemd. De meest eenvoudige manier is om een markering achter een bepaald gereserveerd karakter in de tekst te plaatsen. In een dergelijk systeem zouden epitheta bijvoorbeeld als volgt gecodeerd kunnen zijn:
   snelvoetige#ep Homerus 
of zou bij een thematische verrijking op een bepaalde plaats in de tekst de code
   {theme=love}
kunnen  staan. Voordeel van deze aanpak is dat hij eenvoudig is toe te passen. Nadeel is dat deze werkwijze niet is gestandaardiseerd en dat programmatuur voor tekstanalyse niet specifiek is toegesneden op de verwerking van dergelijke willekeurig gevormde codes.

COCOA is een annotatiesysteem dat enkele decennia geleden veel werd toegepast, en dat je daarom nog wel tegenkomt in teksten die in de vorige eeuw zijn gedigitaliseerd. Het principe van COCOA is dat een code wordt geplaatst tussen hoekige haakjes, en dat hij kan bestaan uit twee delen: het eerste deel geeft het type markering aan, het tweede deel (optioneel) kan daar een bepaalde waarde aan toevoegen. COCOA-markeringen staan op de plaats waar een bepaald element begint. Op de plaats waar in een toneelstuk acte 3 begint, zou b.v. de volgende COCOA-code kunnen staan: <act 3>.
Voorbeeld COCOA markup

Tegenwoordig wordt voor het annoteren van teksten meestal XML gebruikt. In tekstarchieven vind je ook nog veel teksten die zijn gecodeerd m.b.v. de voorloper van daarvan, SGML. Het voordeel van het gebruik van XML is dat het een wijd verbreide standaard is, waar veel moderne programmatuur goed mee overweg kan. Het Text Encoding Initiative (TEI) heeft op basis van XML een aantal codeersets ontwikkeld voor gebruik in de humaniora, waaronder een codeerset voor romans en toneelstukken.
Voorbeeld XML markup. Bron: Shakespeare XML project (Geraadpleegd op 22-2-2016).

Meer informatie over XML      Meer informatie over TEI

Overige pagina's in deze rubriek: Introductie   Typen   Bestandsformaten   Voorbewerking   Verkrijgbaarheid