Werkbank Geesteswetenschappen |
TekstcorporaVoor empirisch onderzoek op het gebied van taal en communicatie zijn voor veel talen verzamelingen digitale of gedigitaliseerde teksten beschikbaar, ook wel tekstcorpora genoemd. In veel gevallen bevatten deze corpora tegenwoordig diverse vormen van annotatie. Zo zijn de meeste corpora bijvoorbeeld verrijkt met zgn. morfosyntactische informatie, waarbij voor elk woord wordt vermeld wat de woordsoort en de flexievorm is (b.v. kerk: noun_singular). Een overzicht van relevante tekstcorpora die beschikbaar zijn voor het onderwijs en onderzoek in onze faculteit is te vinden op de website
De corpora die worden beschreven op deze website zijn toegankelijk via het facultaire netwerk of via het Internet. N.B. De site geeft ook een overzicht van corpusgebaseerde frequentielijsten. Er zijn veel meer tekstcorpora beschikbaar dan op het bovenstaande overzicht worden vermeld. Instellingen die corpora distribueren zijn ondermeer de TST-centrale (Nederlands), de European Language Association (ELRA) en het Linguistic Data Consortium (LDC). Daarnaast zijn er instellingen die overzichten bijhouden van bestaande corpora. Een aantal daarvan wordt hieronder vermeld.
Corpus Resource Database
Texts & Corpora
Corpora, Collections, Data Archives Tenslotte is de website corpus.byu.edu het vermelden waard. Via deze site krijgt men na registratie gratis online toegang tot een aantal enorme webgebaseerde corpora van het Engels (uit diverse landen), Spaans en Portugees. |
Overige pagina's in deze rubriek: Lexicale databestanden Grammatica's Taalkundige lexicons |