Corpus details

Corpus Uit den Boogaart

Official name:Corpus Uit den Boogaart
Common name:Eindhoven corpus
Language:Dutch (general language)
Language type:written; spoken
Corpus type:general / reference
Period:1960 - 1973
Size:720.000 words (600.000 written; 120.000 spoken)
Description:The main part of the Eindhoven Corpus of Dutch comprises general language texts, including texts from newspapers, magazines, works of fiction and popular science texts. A smaller part of the corpus consists of orthographic transcriptions of spoken language.
Exploration:The corpus consists of plain text files and can be explored with standard exploration software like WordSmith and Windows Grep.
Annotation:part of speech; inflection
Transcription:orthografic
Metadata:none
Material:text fragments
Fragmentation:text fragments (75 - 300 words)
Sound files:no
Example:48 < om 650 onze 333 lezers 001 buiten 600 amsterdam 010 een 450 betere 106 service 000 te 650 bieden 210 drukken 2540 wij 300 voor 600 hen 303 een 450 bestelbon 000 op 600 deze 370 pagina 000 af 6205 , waarmee 560 zij 300 schriftelijk 150 hun 330 reservering 000 kunnen 274 opgeven 210 . >
Origin:Werkgroep Frequentie-onderzoek van het Nederlands, gesubsidieerd door Z.W.O.. T.H. Eindhoven (geschreven taal); Inst. voor Dialectologie, Volks- en Naamkunde van de K.N.A.W. te Amsterdam (gesproken taal)
Edition:1
Reference:Uit den Boogaart, P.C., red. (1975). Woordfrequenties in geschreven en gesproken Nederlands. Utrecht: Oosthoek, Scheltema en Holkema
Location:Faculty network, G:\LET\Data\Corpora\Nederlands\Eindhoven
Details:Cdbl = corpus dagbladen (daily newspapers); 1969-70
Cgbl = corpus gezinsbladen (family magazines); 1970-1971
Cobl = corpus opiniebladen (weekly newsmagazines); 1970-1971
Cpwe = corpus populair wetenschappelijk (non-specialist literature); na 1964
Crno = corpus romans en novellen (novels and novellas); 1970
Cgtl = corpus gesproken taal (spoken language); 1960-1973 (originally two files: Cgt1 and Cgt2)
Contact:E. Akkerman (e.akkerman at let.vu.nl)
  
See Also: 
  
Name:Codes Eindhovens corpus
Description:Meaning of the codes that are used in the corpus.
  
Name:Uit den Boogaart, P.C., red. (1975). Woordfrequenties in geschreven en gesproken Nederlands. Utrecht: Oosthoek, Scheltema en Holkema
Description:Frequency lists based on the Eindhoven corpus. Also contains some background information about the corpus.
  
Name:Jong, E.D. de, red. (1979). Spreektaal: woordfrequenties in gesproken Nederlands. Utrecht: Bohn, Scheltema en Holkema
Description:Frequency lists based on the subcorpus of spoken language of the Eindhoven corpus. Also contains some background information about this part of the corpus (23 pages).
  


back to overview