Werkbank Geesteswetenschappen

Startpagina > E-resources > Taalkunde > Tekstcorpora

Tekstcorpora

Voor empirisch onderzoek op het gebied van taal en communicatie zijn voor veel talen verzamelingen digitale of gedigitaliseerde teksten beschikbaar, ook wel tekstcorpora genoemd. In veel gevallen bevatten deze corpora tegenwoordig diverse vormen van annotatie. Zo zijn de meeste corpora bijvoorbeeld verrijkt met zgn. morfosyntactische informatie, waarbij voor elk woord wordt vermeld wat de woordsoort en de flexievorm is (b.v. kerk: noun_singular). Een overzicht van relevante tekstcorpora die beschikbaar zijn voor het onderwijs en onderzoek in onze faculteit is te vinden op de website

Overview of text corpora in the Faculty of Humanities

De corpora die worden beschreven op deze website zijn toegankelijk via het facultaire netwerk of via het Internet. N.B. De site geeft ook een overzicht van corpusgebaseerde frequentielijsten.

Er zijn veel meer tekstcorpora beschikbaar dan op het bovenstaande overzicht worden vermeld. Instellingen die corpora distribueren zijn ondermeer de TST-centrale (Nederlands), de European Language Association (ELRA) en het Linguistic Data Consortium (LDC). Daarnaast zijn er instellingen die overzichten bijhouden van bestaande corpora. Een aantal daarvan wordt hieronder vermeld.

Corpus Resource Database
CoRD is an open-access online resource through which academic corpus compilers can make available basic information about their corpora. It is part of the eVARIENG online services, offered and maintained by the Research Unit for Variation, Contacts and Change in English (University of Helsinki).

Texts & Corpora
Overzicht van The Linguist List.

Corpora, Collections, Data Archives
Overzichtspagina op de website Bookmarks for Corpus-Based Linguists van David Lee.
N.B. Hoewel de site niet meer wordt bijgehouden sinds 2010, bevat hij nog steeds een nuttig overzicht van tekstcorpora die tot dat moment beschikbaar waren.

Tenslotte is de website corpus.byu.edu het vermelden waard. Via deze site krijgt men na registratie gratis online toegang tot een aantal enorme webgebaseerde corpora van het Engels (uit diverse landen), Spaans en Portugees.

Overige pagina's in deze rubriek: Lexicale databestanden   Grammatica's   Taalkundige lexicons