Werkbank Geesteswetenschappen |
Startpagina > Digitale teksten > Annotatie
Annotatie van tekstbestandenOm verschillende redenen wordt in gedigitaliseerde teksten aan de eigenlijke tekst soms allerlei extra informatie toegevoegd. Men spreekt dan vaak van verrijking of annotatie van de tekst, die meestal wordt aangebracht met behulp van bepaalde codes. Het kan daarbij gaan om de onderstaande drie typen annotatie.
AnnotatiesystemenEr bestaan verschillende manieren om annotaties aan te brengen in een tekst. Meestal gebeurt dat in de vorm van codes, in het Engels meestal markup genoemd. De meest eenvoudige manier is om een markering achter een bepaald gereserveerd karakter in de tekst te plaatsen. In een dergelijk systeem zouden epitheta bijvoorbeeld als volgt gecodeerd kunnen zijn:snelvoetige#ep Homerus of zou bij een thematische verrijking op een bepaalde plaats in de tekst de code {theme=love} kunnen staan. Voordeel van deze aanpak is dat hij eenvoudig is toe te passen. Nadeel is dat deze werkwijze niet is gestandaardiseerd en dat programmatuur voor tekstanalyse niet specifiek is toegesneden op de verwerking van dergelijke willekeurig gevormde codes.
COCOA is een annotatiesysteem dat enkele decennia geleden veel werd
toegepast, en dat je daarom nog wel tegenkomt in teksten die in de vorige eeuw zijn gedigitaliseerd. Het principe
van COCOA is dat een code wordt geplaatst tussen hoekige haakjes, en dat hij kan bestaan uit
twee delen: het eerste deel geeft het type markering aan, het tweede
deel (optioneel) kan daar een bepaalde waarde aan
toevoegen. COCOA-markeringen staan op de plaats waar een bepaald
element begint. Op de plaats waar in een toneelstuk acte 3 begint, zou
b.v. de volgende COCOA-code kunnen staan: <act 3>.
Tegenwoordig wordt voor het annoteren van teksten meestal XML
gebruikt. In tekstarchieven vind je ook nog veel teksten die zijn
gecodeerd m.b.v. de voorloper van daarvan, SGML. Het voordeel van het
gebruik van XML is dat het een wijd verbreide standaard is, waar veel
moderne programmatuur goed mee overweg kan. Het Text Encoding
Initiative (TEI) heeft op basis van XML een aantal codeersets
ontwikkeld voor gebruik in de humaniora, waaronder een codeerset voor
romans en toneelstukken. |
Overige pagina's in deze rubriek: Introductie Typen Bestandsformaten Voorbewerking Verkrijgbaarheid |