Werkbank Geesteswetenschappen |
COREXBeknopte beschrijvingHet Corpus Gesproken Nederlands (CGN) is een databank van het hedendaags Nederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Het CGN heeft verschillende annotatielagen. Het spraaksignaal is beschikbaar, evenals de orthografische transcriptie daarvan. Daarnast is het materiaal gelemmatiseerd en verrijkt met woordsoortinformatie (parts of speech – POS). Verder is er voor een selectie van één miljoen woorden een brede fonetische transcriptie vervaardigd en is een klein deel van het corpus van een prosodische analyse voorzien. Tenslotte is een deel van het materiaal door middel van een syntactische analyse verrijkt met informatie over zinsopbouw. Hieronder staat ter illustratie een deel van de basisinformatie m.b.t. de uiting "nou je hebt ze in uh uh rond en vierkant".
5 17267 21281 N01002 fn000248.6
ORT nou je hebt ze in uh uh rond en vierkant. POS BW() VNW(pers,pron,nomin,red,2v,ev) WW(pv,tgw,met-t) VNW(pers,pron,stan,red,3,mv) VZ(init) TSW() TSW() ADJ(vrij,basis,zonder) VG(neven) ADJ(vrij,basis,zonder) LET() LEM nou je hebben ze in uh uh rond en vierkant . Omdat het CGN verschillende annotatielagen heeft, is een eenvoudig programma als WordSmith minder geschikt om erin te zoeken. Bovendien is het met WordSmith niet mogelijk om gegevens uit verschillende annotatielagen met elkaar te combineren, noch om efficiënt gebruik te maken van de metadata van het corpus. Daarom is in het kader van het CGN-project het exploratieprogramma COREX ontwikkeld. Met behulp van COREX kan men luisteren naar spraakbestanden, verschillende annotaties bekijken en zoekacties uitvoeren op het CGN. Corex ondersteunt een gemakkelijke navigatie door de subcorpora, gebaseerd op voorgedefinieerde of door de gebruiker gedefinieerde groeperingen zoals het geslacht van de spreker, de leeftijd en diverse andere beschrijvende gegevens (ook wel metadata genoemd). Het spraaksignaal kan synchroon worden afgespeeld met de annotatiegegevens. Handleidingen en practica
CGN webcursus
Practicum Corpus Gesproken Nederlands / Corex
Een Verkenning van COREX
Zoekacties en gebruikte codes binnen COREX
COREX Manual BeschikbaarheidCOREX is voor studenten en medewerkers van de Faculteit der Geesteswetenschappen beschikbaar op alle VU-pc's. Overige informatie
Over het Corpus Gesproken Nederlands |