Werkbank Geesteswetenschappen

Homepage Faculteit der Geesteswetenschappen Vrije Universiteit

Corpusanalyse

Corpusanalyse is een empirische onderzoeksstrategie die veel wordt toegepast binnen het taalonderzoek en waarbij gebruik wordt gemaakt van authentiek (echt, feitelijk voorgekomen) taalmateriaal. Een zgn. corpus (ook wel tekstcorpus genoemd) is een digitale verzameling teksten, tekstfragmenten en/of transcripten (van gesproken taal), die zodanig zijn geselecteerd dat ze zo goed mogelijk een bepaalde taal, dialect of text type representeren, waardoor de verzameling als geheel als betrouwbare bron kan dienen voor taalkundig onderzoek. Het kan daarbij zowel gaan om beschrijvend/exploratief onderzoek als om het toetsen van taalkundige hypothesen.

Er zijn wereldwijd veel corpora ontwikkeld, waarvan je als taalkundig onderzoeker dankbaar gebruik kunt maken. Zie het facultair corpusoverzicht voor een overzicht van de corpora die beschikbaar zijn voor medewerkers en studenten van onze faculteit. Soms zal het echter nodig zijn om zelf een corpus samen te stellen, als je taalmateriaal wilt onderzoeken dat nog niet beschikbaar is in de vorm van een corpus. In beide gevallen hangt de bruikbaarheid van het corpus sterk af van de samenstelling en het ontwerp ervan. Het is dan ook altijd belangrijk om je hier uitgebreid in te verdiepen als je gaat werken met een bestaand corpus en om hier goed over na te denken als je zelf een corpus gaat samenstellen.

Taken / activiteiten

Corpus samenstellen	Als beschikbare tekstcorpora geen bruikbare data bevatten voor een onderzoeksproject, kan het nodig zijn om zelf een corpus samen te stellen. Zie voor meer informatie de pagina over het samenstellen van een corpus.
Corpus verrijken	In veel gevallen wordt de oorspronkelijke corpustekst of -transcriptie verrijkt (aangevuld) met extra informatie. Dit kan zowel gaan om niet-inhoudelijke informatie (broninformatie, informatie over de sprekers, tekstuele structuur, e.d.), als om inhoudelijke informatie. Deze informatie, die meestal annotatie wordt genoemd, kan op verschillende manieren worden toegevoegd. Zie voor meer informatie over dit onderwerp de pagina over formele annotatie.
Corpus exploreren	De manier waarop corpora zijn samengesteld en opgeslagen, bepaalt op welke wijze ze kunnen worden doorzocht. Zie voor meer informatie over dit onderwerp de pagina over corpusexploratie.
Corpus analyseren	De uiteindelijke analyse van de corpusdata kan op verschillende manieren plaats vinden. Deels heeft dit te maken met de manier waarop het corpus is geannoteerd (zie de pagina over formele annotatie). Als sprake is van een kwantitatieve onderzoekscomponent, zal een vorm van statistische analyse nodig zijn.

Hulpmiddelen

In de verschillende stadia van corpusonderzoek (zie hierboven) kunnen diverse hulpmiddelen worden ingezet. Een beknopt overzicht van de belangrijkste hulpmiddelen die voor medewerkers en studenten in onze faculteit beschikbaar zijn, vind je in de onderstaande tabel. De naam van elk programma fungeert als link naar een uitgebreidere beschrijving.

Programma	Toepassing(en)	Type
NoteTab	voorbewerking	editor; HTML-stripper
Soundscriber	transcriptie	transcriptietool
XMLPad	annotatie	XML-editor
WordSmith Tools	exploratie	concordancer
AntConc	exploratie	concordancer
Windows Grep	exploratie	patroonherkenner
Transana	transcriptie en analyse	research tool
SPSS	statistische analyse	statistisch pakket
R	statistische analyse	statistisch pakket

Meer informatie

Corpus linguistics
Online tutorial, gebaseerd op het boek Corpus linguistics van T. McEnery & A. Wilson (Edinburgh University Press, 1996). [Beschikbaar bij de UB VU]

McEnery, T., R. Xiao and Y. Tono (2006). Corpus-based language studies: an advanced resource book. London: Routledge.
Dit boek biedt een uitgebreide introductie in alle aspecten van corpusonderzoek en geeft veel voorbeelden van concreet onderzoek.

International Journal of Corpus Linguistics (IJCL) en Corpora
Deze tijdschriften geven een overzicht van de rol van corpora in allerlei vormen van taalonderzoek. Beide publicaties zijn in digitale vorm beschikbaar via de UBVU; van Corpora is een aantal oudere jaargangen vrij toegankelijk (zie "Archive").