Werkbank Geesteswetenschappen

Homepage Faculteit der Geesteswetenschappen Vrije Universiteit

Startpagina > E-resources > Taalkunde > Lexicale databestanden

Lexicale databestanden

Lexicale databestanden zijn databases (veelal online beschikbaar) die gestructureerde informatie bevatten met betrekking tot woorden. Het belangrijkste verschil met woordenboeken is dat woordenboeken vooral gericht zijn op het verklaren of vertalen van woorden, terwijl de bestanden die in deze rubriek worden besproken vooral zijn ontwikkeld voor onderzoeksdoeleinden.

WordNet
WordNet is een lexicale database waarin woorden op een geheel andere manier zijn georganiseerd dan in een 'gewoon' woordenboek. WordNet bevat informatie over Engelse zelfstandige naamwoorden, werkwoorden, bijvoeglijke naamwoorden en bijwoorden en is georganiseerd op basis van zgn. synsets. Een synset is een groep woorden (met dezelfde woordklasse) die in een bepaalde context uitwisselbaar zijn, en dus in hoge mate synoniem zijn. Zo vormen de woorden {car, auto, automobile, machine en motorcar} een synset omdat ze gebruikt kunnen worden om naar hetzelfde concept te verwijzen. Aan een synset is meestal een verklarend commentaar toegevoegd (een soort eenvoudige betekenisomschrijving), zoals "4-wheeled; usually propelled by an internal combustion engine". Een heel belangrijk aspect van WordNet is dat synsets met elkaar verbonden zijn via diverse semantische relaties, zoals hyponymie, hyperonymie en meronymie. Lees meer over WordNet.
Links:
Use WordNet online
About WordNet
The Global WordNet Association

Referentiebestand Nederlands (RBN)
Het Referentiebestand Nederlands is een corpusgebaseerde lexicale databank van het Nederlands met ruim 45.000 trefwoorden en ruim 90.000 voorbeelden. Voor iedere betekenis van een woord wordt gedetailleerde informatie gegeven met betrekking tot de orthografie, de morfologie, de syntaxis, de semantiek, de pragmatiek en de combinatoriek.
Het bestand is een halfproduct dat ingezet kan worden bij de vervaardiging van andere lexica, zoals tweetalige woordenboeken die het Nederlands als brontaal hebben, en als referentiepunt waarnaar verwezen kan worden indien het Nederlands doeltaal is, en als component binnen taaltechnologische applicaties waarin woorden automatisch worden gelemmatiseerd en/of gecodeerd met informatie over woordsoort of semantiek. In het RBN worden dus twee soorten informatie samengebracht: informatie die vooral bedoeld is voor een menselijke gebruiker en informatie die vooral bedoeld is voor automatische taalverwerking. Juist de combinatie van deze twee soorten informatie maakt het RBN tot een breed inzetbaar lexicon.
Het RBN is als Microsoft Access database beschikbaar op het facultaire netwerk (G:\FGW\Data\Databases\RBN).
Het is online beschikbaar via de website van de TST-centrale, waar ook nadere informatie over deze database beschikbaar is.
Link: RBN-documentatie

CELEX
Het expertisecentrum CELEX heeft lexicale databestanden ontwikkeld voor het Nederlands, het Engels en het Duits. Deze bestanden bevatten uitgebreide informatie over de orthografie, fonologie, morfologie, syntaxis en frequentie van woorden, maar geen informatie over hun betekenis. De CELEX-data kunnen worden gebruikt in verschillende typen taalkundig onderzoek en taalkundige experimenten. Lees meer over CELEX.
De UBVU beschikt over over documentatie over CELEX en over een CD-ROM met daarop alle CELEX-data. Het is echter niet eenvoudig om hier gegevens aan te ontlenen. Voor hulp hierbij kun je terecht bij het facultaire Bureau Informatisering.
Links: WebCelex (N.B. Requires Firefox)

MRC Psycholinguistic Database
In veel psycholingu�stisch onderzoek staan woorden centraal. Woorden, als een combinatie van fonologische, orthografische, morfologische, syntactische en semantische informatie, hebben veel eigenschappen die de verwerking ervan door het menselijke cognitieve systeem sterk be�nvloeden. Om hier grip op te krijgen worden veel experimenten uitgevoerd met de receptie van twee of meer groepen woorden die verschillen in bepaalde eigenschappen/ kenmerken. De MRC Psycholinguistic Database is ontwikkeld als bron voor de selectie van relevante (Engelse) woorden voor dergelijk onderzoek. Hij bevat ruim 150000 woorden, waarvan 26 verschillende taalkundige eigenschappen/kenmerken zijn opgenomen, waaronder: aantal letters, aantal fonemen, fonetische transcriptie, klemtoonpatroon, aantal lettergrepen, morfologie, woordsoort, frequentiegegevens, familiariteit, concreetheid, imageability, meaningfullness, leeftijd van acquisitie, status (dialect, archa�sch, po�tisch, gespecialiseerd, etc.).
Link: MRC Online

Overige pagina's in deze rubriek: Grammatica's Taalkundige lexicons Tekstcorpora