Werkbank Geesteswetenschappen

Homepage Faculteit der Geesteswetenschappen Vrije Universiteit

Startpagina > Corpus > Corpussamenstelling

Corpussamenstelling

Het samenstellen van een tekstcorpus is een tijdrovende klus. Het is daarom aan te bevelen om gebruik te maken van bestaand corpusmateriaal, als dat enigszins mogelijk is. Raadpleeg daarvoor het overzicht van de corpora die beschikbaar zijn voor medewerkers en studenten van onze faculteit.

Als beschikbare corpora geen bruikbare data bevatten voor een onderzoeksproject, kan het toch nodig zijn om zelf een corpus samen te stellen. In de Engelstalige literatuur wordt dan wel gesproken van een DIY corpus ofwel Do-It-Yourself corpus. Houd daarbij rekening met de onderstaande punten.

Materiaal verzamelen

Je onderzoeksdoelen en/of onderzoeksvragen moeten duidelijk zijn voordat je het corpus samenstelt, omdat deze bepalen welk materiaal je moet verzamelen.
Het internet kan uiteraard een belangrijke bron zijn voor het verzamelen van allerlei soorten tekstueel materiaal. Het is echter belangrijk dat je de herkomst kent (en noteert) van alle teksten die je in je corpus opneemt. Deze informatie is helaas niet altijd eenvoudig te achterhalen. Het verdient daarom de voorkeur om, indien mogelijk, gebruik te maken van meer afgebakende digitale tekstverzamelingen, zoals bijvoorbeeld LexisNexis Academic, dat beschikbaar is als e-resource via de UB VU.
Veel teksten die je vindt op het internet zullen omgezet (geconverteerd) moeten worden van HTML-, Word- of pdf-formaat naar standaard tekstbestanden, voordat je ze kunt exploreren met programmatuur zoals WordSmith of AntConc. Zie de paragraaf 'Materiaal prepareren' hieronder.
Als je wel op zoek gaat naar teksten op het Internet zijn er bepaalde hulpmiddelen die je kunnen helpen bij het efficiënt zoeken naar teksten over bepaalde onderwerpen. Een voorbeeld daarvan is WebBootCat (gratis trial account voor 30 dagen).
In verband met beperkingen die worden opgelegd door het auteursrecht, mag je een zelf samengesteld corpus meestal niet zomaar verspreiden. Dit geeft nogmaals het belang aan van een goede bronvermelding van de gebruikte teksten.
De teksten voor het corpus moeten worden verzameld op een systematische manier, onder gecontroleerde condities, en zodanig dat het corpus op een adequate wijze het teksttype/tekstgenre representeert dat wordt bestudeerd. Belangrijke begrippen in dit verband zijn balans, representativiteit, en steekproef (zie McEnery, Xiao & Tono (2006).
De ideale omvang van het corpus is afhankelijk van de frequentie en distributie van de taalkundige kenmerken die je wilt onderzoeken.

N.B. De laatste twee aandachtspunten zijn essentieel als je onderzoek naast een inhoudelijke/kwalitatieve ook een kwantitatieve component heeft en je statistische uitspraken wilt kunnen doen op basis van het corpus.

Materiaal prepareren

Als je zelf tekstueel materiaal hebt verzameld voor het samenstellen van een corpus, is het vaak nodig om dit te prepareren voor verder onderzoek. Dit kan bestaan uit de volgende activiteiten:

Het omzetten (converteren) van het tekstformaat van het verzamelde materiaal. Veel programmatuur die wordt gebruikt voor de verdere verwerking en/of analyse van het corpus, kan niet omgaan met alle mogelijke teksttypen en de bijbehorende bestandsformaten. Zo kunnen concordantieprogramma's als WordSmith en AntConc niet zoeken in Word-en pdf-bestanden. Deze zullen eerst moeten worden omgezet in ASCII-tekst bestanden (die vaak het achtervoegsel .txt hebben).
Bij materiaal van websites: het verwijderen van HTML-codes en andere niet-tekstuele elementen van de webtekst (zoals javascript, php-code, e.d.). Hiervoor zijn diverse freeware-programma's beschikbaar, die meestal HTML-strippers worden genoemd. Een (freeware) text editor die deze mogelijkheid biedt, is Notetab, dat hiervoor kan worden gebruikt.
Het uniformeren van de karakterset die in de verzamelde documenten wordt gebruikt. Dit is nodig als het materiaal afkomstig is van diverse bronnen.
In veel gevallen zal aan het corpus informatie moeten worden toegevoegd over herkomst, structuur, e.d. Dit wordt wel markup genoemd. Vaak zal het ook nodig zijn om het corpus inhoudelijk te verrijken (annotatie). Hoewel deze taken deels (semi-)automatisch kunnen worden uitgevoerd, is het meestal een tijdrovend proces. Zie de pagina over formele annotatie.

Als je gesproken taal hebt opgenomen voor de samenstelling van een corpus, moet dat vaak worden getranscribeerd voor verdere analyse. Adequate automatische transcriptie (door middel van automatische spraakherkenning) is helaas nog niet mogelijk, dus meestal is transcriberen handwerk. Er zijn wel diverse hulpmiddelen voor beschikbaar, zie hiervoor de pagina over transcriptie.

Meer informatie

Going solo: DIY corpora
Dit is hoofdstuk A8 uit T. McEnery, R. Xiao & Y. Tono (2006), Corpus-based language studies: an advanced resource book, New York: Routledge, waarin een leidraad wordt gegeven voor het creëren van zgn. do-it-yourself corpora.

Developing linguistic corpora: a guide to good practice, ed. M. Wynne (2005).
In dit online handboek geven experts op het gebied van de constructie van tekstcorpora advies over het samenstellen van een betrouwbaar tekstcorpus dat aan alle onderzoekseisen voldoet.

Overige pagina's in deze rubriek: Corpusannotatie Corpusexploratie