Werkbank Geesteswetenschappen

Formele annotatie

In veel onderzoek binnen de geesteswetenschappen wordt informatie toegevoegd aan de objecten die worden bestudeerd (dat kunnen teksten, geluidsbestanden, afbeeldingen of videobestanden zijn), met als doel om een formele analyse van bepaalde verschijnselen mogelijk te maken. Als dat gebeurt op basis van een vooraf vastgesteld classificatiesysteem of typologie, is sprake van formele annotatie. Het kan daarbij enerzijds gaan om niet-inhoudelijke informatie, zoals broninformatie (metadata) en informatie met betrekking tot de structuur van de tekst. Anderzijds kan het gaan om interpretatieve en/of analytische informatie. Zie voor meer informatie over dit onderwerp die relevant is voor alle vakgebieden de pagina over annotatie in tekstbestanden in deze werkbank. Zie Leech (2005) voor meer specifieke informatie over taalkundige annotatie.

N.B. Elders in deze Werkbank wordt aandacht besteed aan vrije annotatie, waarbij tijdens het lezen/bestuderen van een tekst allerlei aantekeningen in de tekst worden geplaatst, in de vorm van onderstrepingen, uitroeptekens, labels, tekstuele notities, e.d..

Voor veel typen onderzoek zijn standaard classificatiesystemen beschikbaar voor structuuur- en broninformatie. Deze zijn bijvoorbeeld gedefinieerd binnen het Text Encoding Initiative. Voor inhoudelijke annotatie geldt dit slechts gedeeltelijk; vaak dient echter naar aanleiding van een bepaalde onderzoeksvraag door de onderzoeker zelf een classificatiesysteem of typologie te worden opgesteld, voorafgaand aan het annotatieproces. Uiteraard kan gaande het annotatieproces het classificatiesysteem worden aangepast als dat nodig blijkt te zijn, maar dit dient dit zoveel mogelijk te worden vermeden/beperkt.

Hulpmiddelen

Bepaalde vormen van annotatie kunnen automatisch worden aangebracht (zie instrumenten taaltechnologie), maar vaak wordt dit door de onderzoeker zelf gedaan. Er zijn diverse programma's beschikbaar die dit proces ondersteunen. De keuze voor een bepaald programma hangt nauw samen met de gehanteerde onderzoeksmethode en wordt bepaald door een aantal factoren, waarvan de belangrijkste zijn:

  • de complexiteit van het gehanteerde classificatiesysteem;
  • het gehanteerde codeersysteem (ad hoc codering; XML; etc.);
  • de relatie tussen de onderzoekseenheid en de annotatie-eenheid (vindt annotatie plaats op meerdere niveaus?);
  • het al dan niet gebruiken van een vooraf gedefinieerd classificatiesysteem voor annotatie en de complexiteit daarvan;
  • de manier waarop de data verder moeten worden bewerkt en geanalyseerd;
  • de manier waarop het programma de onderzoeker ondersteunt (intuïtieve werkwijze; voorkomen van foutieve invoer; afdwingen van consistente annotatie; complexiteit (leercurve); beschikbaarheid van documentatie; etc.).

Hieronder volgt een overzicht van de annotatieprogrammatuur die in onze faculteit voornamelijk wordt gebruikt. De toevoeging [A] achter de naam van het programma geeft aan dat (ook) afbeeldingsbestanden kunnen worden geannoteerd, [G] idem voor geluidsbestanden en [V] idem voor videobestanden. Het facultaire Bureau Informatisering kan adviseren bij de selectie van een geschikt annotatiesysteem en biedt ondersteuning bij het gebruik daarvan.

Tekst-editor - XML-editor - Microsoft Excel - Microsoft Access - UAM Corpus Tool - UAM Image Tool [A] - Transana [G;V] - Atlas.ti [A;G;V] - AmCAT

Tekst-editor

Als de annotatie een eenvoudige eigen vorm van classificatie betreft (waarbij geen universeel annotatiesysteem wordt gehanteerd), kan een teksteditor worden gebruikt. Daarvoor kan Kladblok (Notepad) van Windows worden gebruikt, maar ook een speciale editor als NoteTab, die voor dit doel over enkele handige functies beschikt (zoals het gebruik van macro's en geavanceerde zoek- en vervangopdrachten).

XML-editor

In wetenschappelijke projecten wordt vaak XML gebruikt als annotatiesysteem. Hoewel XML-annotatie in principe met behulp van elke teksteditor kan worden aangebracht, verdient het aanbeveling om hiervoor een speciale XML-editor te gebruiken. Dit is met name het geval als wordt gewerkt vanuit een annotatiesysteem dat voorafgaande aan de tekstanalyse is opgezet, waarbij de mogelijke annotaties dus bekend zijn voordat de tekst wordt geannoteerd. Een relatief eenvoudige freeware-editor die voor de doel gebruikt kan worden, is XMLPad. Voorbeelden van geavanceerde XML-editors zijn Oxygen en XMetal. N.B. De faculteit heeft hiervoor geen licentie.

Microsoft Excel

Als de onderzoekseenheid gelijk is aan de annotatie-eenheid (b.v. als je in SMS-berichten het aantal afkortingen per bericht wilt tellen) en als het gebruikte classificatiesysteem eenvoudig is, wordt voor annotatie wel het programma Excel gebruikt. Voordeel is dat Excel eenvoudig in het gebruik is en dat de geannoteerde gegevens eenvoudig zijn in te lezen in een statistisch pakket als SPSS. Excel is veel minder geschikt bij het gebruik van een minder eenvoudig classificatiesysteem en/of als binnen de onderzoekseenheid meerdere annotatie-eenheden kunnen voorkomen (b.v. als je in een SMS-bericht ook elke afkorting individueel wilt annoteren zonder de relatie ertussen te negeren).

Microsoft Access

Ook dit databaseprogramma is vooral geschikt voor annotatie als de onderzoekseenheid gelijk is aan de annotatie-eenheid. Voordelen van Access ten opzichte van Excel zijn de mogelijkheid om op een efficiëntere manier te werken met complexe annotaties en om de gegevens gecontroleerd in te voeren. Als per annotatie-eenheid meerdere aspecten worden geannoteerd, kan het ook overzichtelijker zijn om de gegevens in te voeren in een annotatievenster waarin per keer één annotatie-eenheid centraal staat (in plaats van op een lange horizontale regel in een spreadsheet, waarin voortdurend moet worden gescrolled). Er is overigens wel enige expertise nodig voor het opzetten van de database en het ontwikkelen van invoerformulieren.
Tenslotte biedt Access ook meer mogelijkheden voor de verwerking en analyse van de ingevoerde data dan Excel.

Atlas.ti [A;G;V]

Het programma Atlas.ti, dat is ontwikkeld ter ondersteuning van kwalitatieve inhoudsanalyse (waarbij meestal sprake is van vrije annotatie), kan ook worden gebruikt in combinatie met een vaste set labels. Nadeel van dit programma is dat de gecodeerde teksten op een vrij specifieke manier worden opgeslagen, zodat Atlas.ti in de praktijk ook moet worden gebruikt voor verdere analyse, zeker als deze niet kwantitatief van aard is. Uitwisseling van het geannoteerde materiaal is hierdoor ook vrij lastig. Voordeel van het werken met Atlas.ti is echter dat op relatief eenvoudige wijze gecontroleerde annotatie van een vooraf opgestelde set labels mogelijk is, maar dat ook een combinatie van formele annotatie en vrije annotatie mogelijk is. Daarnaast kunnen met Atlas.ti ook afbeeldingen, geluid- en videobestanden worden geannoteerd. Het programma Atlas.ti wordt voor onderzoek in veel vakgebieden gebruikt.

UAM CorpusTool

De UAM CorpusTool is speciaal ontwikkeld voor de annotatie van tekstbestanden op basis van een zelf te definiëren classificatiesysteem. De tekst kan op meerdere niveaus worden geannoteerd (b.v. zowel op tekstniveau als op zins- en op clauseniveau), hetgeen dit programmam ook geschikt maakt voor situaties waarin de annotatie-eenheid niet gelijk is aan de onderzoekseenheid. De annotatie wordt op een natuurlijke manier in de tekst zelf aangebracht en op een visueel aantrekkelijke manier gepresenteerd. Het programma ondersteunt ook de analyse van het geannoteerde materiaal, zowel door middel van diverse zoekfuncties als door middel van (relatief basale) statistische analyses, waarbij onder meer vergelijkende statistische analyse van taalgebruik in verschillende genres mogelijk zijn. Omdat alle annotaties worden opgeslagen in XML-bestanden, kunnen deze ook met behulp van andere programmatuur verder worden be- en verwerkt. In veel gevallen zal dat overigens niet nodig zijn, omdat het programma zelf voldoende analysemogelijkheden biedt.
N.B. Dit programma is (vooralsnog) niet beschikbaar op facultaire pc's, maar kan gratis worden gedownload via de bovenstaande link.

UAM Image Tool [A]

Een afgeleide van de UAM Corpus Tool is de UAM Image Tool, die is ontwikkeld voor de annotatie van afbeeldingen.

Transana [G;V]

Transana kan worden gebruikt voor de transcriptie, annotatie en analyse van digitaal audio- en videomateriaal. In onze faculteit wordt dit programma voornamelijk gebruikt ter ondersteuning van conversatieanalyse.

AmCAT

Het AmCAT systeem is ontwikkeld ter ondersteuning van inhoudsanalyse. Het centrale element van AmCAT is een database die alle te analyseren documenten bevat (zoals krantenartikelen en bijdragen aan webfora) en de annotaties en analyses die daarmee zijn geassocieerd. Via een webinterface kunnen onderzoekers de data exploreren, snel automatische analyses uitvoeren, documenten toevoegen voor handmatige annotatie en de resultaten bekijken en analyseren.