Werkbank Geesteswetenschappen

COREX

Beknopte beschrijving

Het Corpus Gesproken Nederlands (CGN) is een databank van het hedendaags Nederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Het CGN heeft verschillende annotatielagen. Het spraaksignaal is beschikbaar, evenals de orthografische transcriptie daarvan. Daarnast is het materiaal gelemmatiseerd en verrijkt met woordsoortinformatie (parts of speech – POS). Verder is er voor een selectie van één miljoen woorden een brede fonetische transcriptie vervaardigd en is een klein deel van het corpus van een prosodische analyse voorzien. Tenslotte is een deel van het materiaal door middel van een syntactische analyse verrijkt met informatie over zinsopbouw. Hieronder staat ter illustratie een deel van de basisinformatie m.b.t. de uiting "nou je hebt ze in uh uh rond en vierkant".

5 17267 21281 N01002 fn000248.6

ORT nou je hebt ze in uh uh rond en vierkant.

POS BW() VNW(pers,pron,nomin,red,2v,ev) WW(pv,tgw,met-t) VNW(pers,pron,stan,red,3,mv) VZ(init) TSW() TSW() ADJ(vrij,basis,zonder) VG(neven) ADJ(vrij,basis,zonder) LET()

LEM nou je hebben ze in uh uh rond en vierkant .

Omdat het CGN verschillende annotatielagen heeft, is een eenvoudig programma als WordSmith minder geschikt om erin te zoeken. Bovendien is het met WordSmith niet mogelijk om gegevens uit verschillende annotatielagen met elkaar te combineren, noch om efficiënt gebruik te maken van de metadata van het corpus. Daarom is in het kader van het CGN-project het exploratieprogramma COREX ontwikkeld. Met behulp van COREX kan men luisteren naar spraakbestanden, verschillende annotaties bekijken en zoekacties uitvoeren op het CGN. Corex ondersteunt een gemakkelijke navigatie door de subcorpora, gebaseerd op voorgedefinieerde of door de gebruiker gedefinieerde groeperingen zoals het geslacht van de spreker, de leeftijd en diverse andere beschrijvende gegevens (ook wel metadata genoemd). Het spraaksignaal kan synchroon worden afgespeeld met de annotatiegegevens.

Handleidingen en practica

CGN webcursus
Deze online webcursus is bedoeld voor iedereen die meer wil weten over het Corpus Gesproken Nederlands en / of wil leren werken met de CGN-zoeksoftware Corex.

Practicum Corpus Gesproken Nederlands / Corex
Basale instructie in het gebruik van COREX voor de exploratie van het CGN.

Een Verkenning van COREX
Introductie van het Exploitatieprogramma bij het Corpus Gesproken Nederlands.

Zoekacties en gebruikte codes binnen COREX
Verklaring van de gehanteerde codes in het CGN.

COREX Manual
Uitgebreide handleiding CGN en COREX (Engelstalig).

Beschikbaarheid

COREX is voor studenten en medewerkers van de Faculteit der Geesteswetenschappen beschikbaar op alle VU-pc's.

Overige informatie

Over het Corpus Gesproken Nederlands
In dit artikel wordt een beknopt overzicht gegeven van het Corpus Gesproken Nederlands.

Projectwebsite CGN


Logo CGN