Corpussamenstelling
Het samenstellen van een tekstcorpus is een tijdrovende klus. Het is
daarom aan te bevelen om gebruik te maken van bestaand corpusmateriaal, als
dat enigszins mogelijk is. Raadpleeg daarvoor het overzicht van de corpora die beschikbaar zijn voor medewerkers en studenten van onze faculteit.
Als beschikbare corpora geen bruikbare data bevatten voor een
onderzoeksproject, kan het toch nodig zijn om zelf een corpus samen te
stellen. In de Engelstalige literatuur wordt dan wel gesproken van een DIY corpus ofwel Do-It-Yourself corpus.
Houd daarbij rekening met de onderstaande punten.
Materiaal verzamelen
- Je onderzoeksdoelen en/of onderzoeksvragen moeten duidelijk zijn
voordat je het corpus samenstelt, omdat deze bepalen welk materiaal je
moet verzamelen.
- Het internet kan uiteraard een belangrijke bron zijn voor het
verzamelen van allerlei soorten tekstueel materiaal. Het is echter
belangrijk dat je de herkomst kent (en noteert) van alle teksten die je
in je corpus opneemt. Deze informatie is helaas niet altijd eenvoudig
te achterhalen. Het verdient daarom de voorkeur om, indien mogelijk,
gebruik te maken van meer afgebakende digitale tekstverzamelingen,
zoals bijvoorbeeld
LexisNexis Academic,
dat beschikbaar is als e-resource via de UB VU.
- Veel teksten die je vindt op het internet zullen omgezet
(geconverteerd) moeten worden van HTML-, Word- of pdf-formaat naar
standaard tekstbestanden, voordat je ze kunt exploreren met
programmatuur zoals WordSmith
of AntConc.
Zie de paragraaf 'Materiaal prepareren' hieronder.
- Als je wel op zoek gaat naar teksten op het Internet zijn er bepaalde hulpmiddelen
die je kunnen helpen bij het efficiënt zoeken naar teksten over bepaalde onderwerpen. Een voorbeeld
daarvan is WebBootCat
(gratis trial account voor 30 dagen).
- In verband met beperkingen die worden opgelegd door het
auteursrecht, mag je een zelf samengesteld corpus meestal niet zomaar
verspreiden. Dit geeft nogmaals het belang aan van een goede
bronvermelding van de gebruikte teksten.
- De teksten voor het corpus moeten worden verzameld op een
systematische manier, onder gecontroleerde condities, en zodanig dat
het corpus op een adequate wijze het teksttype/tekstgenre
representeert dat wordt bestudeerd. Belangrijke begrippen in dit
verband zijn balans, representativiteit, en steekproef
(zie McEnery, Xiao & Tono (2006).
- De ideale omvang van het corpus is afhankelijk van de frequentie
en distributie van de taalkundige kenmerken die je wilt onderzoeken.
N.B. De laatste twee aandachtspunten zijn essentieel als je onderzoek
naast een inhoudelijke/kwalitatieve ook een kwantitatieve component
heeft en je statistische uitspraken wilt kunnen doen op basis van het
corpus.
Materiaal prepareren
Als je zelf tekstueel materiaal hebt verzameld voor het samenstellen van een corpus, is het vaak nodig om dit te prepareren voor verder onderzoek. Dit kan bestaan uit de volgende activiteiten:
-
Het omzetten (converteren) van het tekstformaat van het verzamelde materiaal. Veel programmatuur die wordt gebruikt voor de verdere verwerking en/of analyse van het corpus, kan niet omgaan met alle mogelijke teksttypen en de bijbehorende bestandsformaten. Zo kunnen concordantieprogramma's als WordSmith en AntConc niet zoeken in Word-en pdf-bestanden. Deze zullen eerst moeten worden omgezet in ASCII-tekst bestanden (die vaak het achtervoegsel .txt hebben).
-
Bij materiaal van websites: het verwijderen van HTML-codes en andere niet-tekstuele elementen van de webtekst (zoals javascript, php-code, e.d.). Hiervoor zijn diverse freeware-programma's beschikbaar, die meestal HTML-strippers worden genoemd. Een (freeware) text editor die deze mogelijkheid biedt, is Notetab, dat hiervoor kan worden gebruikt.
-
Het uniformeren van de karakterset die in de verzamelde documenten wordt gebruikt. Dit is nodig als het materiaal afkomstig is van diverse bronnen.
-
In veel gevallen zal aan het corpus informatie moeten worden
toegevoegd over herkomst, structuur, e.d. Dit wordt wel markup genoemd.
Vaak zal het ook nodig zijn om het corpus inhoudelijk te verrijken
(annotatie). Hoewel deze taken deels (semi-)automatisch kunnen worden
uitgevoerd, is het meestal een tijdrovend proces.
Zie de pagina over formele annotatie.
Als je gesproken taal hebt opgenomen voor de samenstelling van een corpus, moet dat vaak worden getranscribeerd voor verdere analyse. Adequate automatische transcriptie (door middel van automatische spraakherkenning) is helaas nog niet mogelijk, dus meestal is transcriberen handwerk. Er zijn wel diverse hulpmiddelen voor beschikbaar, zie hiervoor de pagina over transcriptie.
Meer informatie
Going
solo: DIY corpora
Dit is hoofdstuk A8 uit T. McEnery, R. Xiao & Y. Tono (2006), Corpus-based language studies:
an advanced resource book, New York: Routledge, waarin een
leidraad wordt gegeven voor het creëren van zgn. do-it-yourself corpora.
Developing linguistic corpora: a guide to
good practice, ed. M. Wynne (2005).
In dit online handboek geven experts op het gebied van de
constructie van tekstcorpora advies over het samenstellen van een
betrouwbaar tekstcorpus dat aan alle onderzoekseisen voldoet.