Werkbank Geesteswetenschappen

Corpusanalyse

Corpusanalyse is een empirische onderzoeksstrategie die veel wordt toegepast binnen het taalonderzoek en waarbij gebruik wordt gemaakt van authentiek (echt, feitelijk voorgekomen) taalmateriaal. Een zgn. corpus (ook wel tekstcorpus genoemd) is een digitale verzameling teksten, tekstfragmenten en/of transcripten (van gesproken taal), die zodanig zijn geselecteerd dat ze zo goed mogelijk een bepaalde taal, dialect of text type representeren, waardoor de verzameling als geheel als betrouwbare bron kan dienen voor taalkundig onderzoek. Het kan daarbij zowel gaan om beschrijvend/exploratief onderzoek als om het toetsen van taalkundige hypothesen.

Er zijn wereldwijd veel corpora ontwikkeld, waarvan je als taalkundig onderzoeker dankbaar gebruik kunt maken. Zie het facultair corpusoverzicht voor een overzicht van de corpora die beschikbaar zijn voor medewerkers en studenten van onze faculteit. Soms zal het echter nodig zijn om zelf een corpus samen te stellen, als je taalmateriaal wilt onderzoeken dat nog niet beschikbaar is in de vorm van een corpus. In beide gevallen hangt de bruikbaarheid van het corpus sterk af van de samenstelling en het ontwerp ervan. Het is dan ook altijd belangrijk om je hier uitgebreid in te verdiepen als je gaat werken met een bestaand corpus en om hier goed over na te denken als je zelf een corpus gaat samenstellen.

Taken / activiteiten

Corpus samenstellen Als beschikbare tekstcorpora geen bruikbare data bevatten voor een onderzoeksproject, kan het nodig zijn om zelf een corpus samen te stellen. Zie voor meer informatie de pagina over het samenstellen van een corpus.
Corpus verrijken In veel gevallen wordt de oorspronkelijke corpustekst of -transcriptie verrijkt (aangevuld) met extra informatie. Dit kan zowel gaan om niet-inhoudelijke informatie (broninformatie, informatie over de sprekers, tekstuele structuur, e.d.), als om inhoudelijke informatie. Deze informatie, die meestal annotatie wordt genoemd, kan op verschillende manieren worden toegevoegd. Zie voor meer informatie over dit onderwerp de pagina over formele annotatie.
Corpus exploreren De manier waarop corpora zijn samengesteld en opgeslagen, bepaalt op welke wijze ze kunnen worden doorzocht. Zie voor meer informatie over dit onderwerp de pagina over corpusexploratie.
Corpus analyseren De uiteindelijke analyse van de corpusdata kan op verschillende manieren plaats vinden. Deels heeft dit te maken met de manier waarop het corpus is geannoteerd (zie de pagina over formele annotatie). Als sprake is van een kwantitatieve onderzoekscomponent, zal een vorm van statistische analyse nodig zijn.

Hulpmiddelen

In de verschillende stadia van corpusonderzoek (zie hierboven) kunnen diverse hulpmiddelen worden ingezet. Een beknopt overzicht van de belangrijkste hulpmiddelen die voor medewerkers en studenten in onze faculteit beschikbaar zijn, vind je in de onderstaande tabel. De naam van elk programma fungeert als link naar een uitgebreidere beschrijving.

Programma Toepassing(en) Type
NoteTab voorbewerking editor; HTML-stripper
Soundscriber transcriptie transcriptietool
XMLPad annotatie XML-editor
WordSmith Tools exploratie concordancer
AntConc exploratie concordancer
Windows Grep exploratie patroonherkenner
Transana transcriptie en analyse research tool
SPSS statistische analyse statistisch pakket
R statistische analyse statistisch pakket

Meer informatie

Corpus linguistics
Online tutorial, gebaseerd op het boek Corpus linguistics van T. McEnery & A. Wilson (Edinburgh University Press, 1996). [Beschikbaar bij de UB VU]

McEnery, T., R. Xiao and Y. Tono (2006). Corpus-based language studies: an advanced resource book. London: Routledge.
Dit boek biedt een uitgebreide introductie in alle aspecten van corpusonderzoek en geeft veel voorbeelden van concreet onderzoek.

International Journal of Corpus Linguistics (IJCL) en Corpora
Deze tijdschriften geven een overzicht van de rol van corpora in allerlei vormen van taalonderzoek. Beide publicaties zijn in digitale vorm beschikbaar via de UBVU; van Corpora is een aantal oudere jaargangen vrij toegankelijk (zie "Archive").