Werkbank Geesteswetenschappen

Startpagina > Corpus > Corpusexploratie

Corpusexploratie

Er zijn veel hulpmiddelen beschikbaar voor het doorzoeken (exploreren) van tekstcorpora. Deze kunnen worden onderverdeeld in een aantal typen:

N.B. In het facultaire corpusoverzicht wordt voor elk corpus aangegeven welke programma gebruikt kan (of moet) worden om het te doorzoeken.

De eerste twee hierboven genoemde typen bieden meestal de volgende functionaliteit:
  • Het zoeken naar woorden, woordcombinaties, annotaties en combinaties van woorden en annotatie. Bij dat zoeken kan gebruik worden gemaakt van speciale symbolen (zgn. wildcards), die staan voor willekeurige letters en/of woorden. Met behulp hiervan kunnen, zeker in geannoteerde tekstcorpora, tamelijk complexe zoekpatronen worden geformuleerd. Vaak is het ook mogelijk om te zoeken naar woorden die in de nabije omgeving (context) van een bepaald woord voorkomen.
  • Het presenteren van de gevonden woorden etc. in de vorm van een concordantie, waarbij de betreffende woorden en woordgroepen worden gepresenteerd in hun context, met de mogelijkheid om ook op die context te sorteren. Zo kun je b.v. zoeken naar het voorzetsel tegenover en de gevonden zinnen sorteren op het woord direct rechts daarvan, zodat veelvoorkomende combinaties van tegenover met andere woorden gegroepeerd worden en daardoor direct opvallen. De omvang van de context kan meestal naar believen worden ingesteld. Ook is het meestal mogelijk om vanuit een concordantieregel meteen over te schakelen naar de volledige tekst zodat de betreffende regel in zijn volledige context bestudeerd kan worden.
  • Het be- en verwerken van de resultaten van een zoekopdracht. Dit maakt het bijvoorbeeld mogelijk om uit de concordantie die resulteert uit een zoekopdracht de oninteressante regels te verwijderen, regels met een bepaalde inhoud te groeperen, etc.
  • Aangeven dat alleen moet worden gezocht in bepaalde gedeelten van het corpus, of dat je bepaalde gedeelten juist wilt uitsluiten bij het zoeken. Voor een deel kan dit met alle soorten corpora (b.v. zoeken in de eerste of de laatste 100 regels, of zoeken in een willekeurige steekproef van regels uit het corpus). Voor het zoeken in (of uitsluiten van) meer specifieke tekstgedeelten zijn structuurcodes in het corpus nodig.
  • Uitvoeren van (eenvoudige) statistische bewerkingen, b.v. voor het berekenen van frequentielijsten, type-token ratio's, de gemiddelde woord- en zinslengte of analyses van collocaties van één of meer woorden.

Standaard exploratieprogrammatuur

Met behulp van standaard exploratieprogrammatuur kunnen teksten en tekstcorpora worden geëxploreerd die op je eigen computer of netwerk beschikbaar zijn. Deze programma's bieden de hierboven genoemde mogelijkheden en worden daarom veel gebruikt in taalkundig onderzoek. Veelgebruikte commerciële (maar niet al te dure) standaardprogramma's voor corpusexploratie zijn WordSmith Tools en Concordance. WordSmith is beschikbaar op de facultaire pc's. Het programma AntConc is freeware. Het type bestanden dat met behulp van dergelijke programatuur kan worden geëxploreerd, is meestal beperkt. Dit hangt samen met het zgn. bestandsformaat. Als de inhoudelijke annotatie complex is (hetgeen bijvoorbeeld geldt bij volledige syntactische annotatie), is standaard exploratieprogrammatuur niet goed bruikbaar.
N.B. Omdat de belangrijkste toepassing van dergelijke programma's het zoeken naar woorden is en het presenteren daarvan in de vorm van een concordantie, worden ze ook wel concordantieprogrammatuur genoemd.

Corpusgebonden exploratieprogrammatuur

Steeds meer corpora vereisen specifieke exploratiesoftware, omdat het interne opslagformaat het gebruik van standaard exploratieprogramma's onmogelijk maakt, of omdat de annotatiewijze te complex is om de inhoud daarmee op een zinvolle wijze te kunnen exploreren met een standaardexploratieprogramma. Voorbeelden hiervan zijn:

  • Het Corpus Gesproken Nederlands vereist het programma Corex voor een optimale exploratie. Door middel van Corex kunnen ook de bijbehorende geluidsbestanden worden beluisterd (gekoppeld aan de transcripten).
  • Het corpus ICE-GB (de Britse component van het International Corpus of English) vereist het programma ICECUP. Hiermee kan ook de syntactische analyse (in de vorm van boomstructuren) van het corpus worden bekeken en geëxploreerd.
  • Het British National Corpus kan in principe wel met een standaard exploratieprogramma als WordSmith worden doorzocht (WordSmith biedt hier zelfs speciale functionaliteit voor), maar om optimaal gebruik te maken van de complexe annotatie in XML-formaat (bijvoorbeeld door zoekvragen in het subcorpus gesproken taal te verbinden aan persoonsgegevens van de sprekers) is het programma Xaira nodig. Dit is wel complexer in het gebruik dan WordSmith.
  • Corpora die zijn geannoteerd volgens het systeem van CHILDES, kunnen het beste worden geanalyseerd m.b.v. het programma Clan.

Een groeiend aantal tekstcorpora is via het internet raadpleegbaar. Voorbeelden hiervan zijn het Time Magazine Corpus, het Dutch Parallel Corpus en het Corpus del Español. De zoekinterfaces van dergelijke corpora bieden meestal wat minder mogelijkheden dan de hierboven beschreven programmatuur.

Taalgeoriënteerde utilities en programmeertalen

Hoewel de beschikbare exploratieprogrammatuur soms behoorlijk geavanceerd is, worden de mogelijkheden ervan toch beperkt tot hetgeen de ontwikkelaar ervan heeft bepaald. Meer vrijheid bieden taalgeoriënteerde utilities en programmeertalen. Bij utilities gaat het om kleine programmaatjes (die vaak stammen uit de wereld van Unix en Linux) die uitgebreide mogelijkheden bieden voor het manipuleren en doorzoeken van tekstbestanden. Een goed voorbeeld hiervan is de utility grep, dat zeer veel mogelijkheden biedt voor patroonherkenning. Hier zijn ook Windows versies van beschikbaar, waarvan Wingrep een voorbeeld is.
Voor wie bereid is om te leren programmeren, bieden taalgeoriënteerde script- en programmeertalen: zoals awk en Perl de ultieme vrijheid om zelf te bepalen hoe je de inhoud van corpora wilt bewerken, doorzoeken, analyseren, etc.

Overige pagina's in deze rubriek: Corpussamenstelling   Corpusannotatie