Werkbank Geesteswetenschappen

Startpagina > Taaltechnologie > Toepassingen

Toepassingen taaltechnologie

Op deze pagina wordt een beknopt (en zeker niet uitputtend) overzicht gegeven van een aantal belangrijke taaltechnologische toepassingen die mogelijk worden gemaakt door de elders in deze rubriek besproken instrumenten. De toepassingen die zijn gemarkeerd met een asterisk (*) worden ook toegepast en/of ontwikkeld in onze faculteit.

Intelligente spelling- en grammaticacontrole

De standaard spellingcontrole in kantoorsoftware (zoals Microsoft Office) is een eenvoudige vorm van taaltechnologie. Zoals iedereen wel weet, worden daarmee veel spelfouten en een aantal grammaticale fouten geconstateerd, maar worden er ook veel over het hoofd gezien. Dit komt vooral omdat er weinig wordt gedaan met de betekenis en de context van de betreffende woorden en zinsdelen. Momenteel wordt gewerkt aan meer geavanceerde / intelligente systemen, die meer fouten moeten detecteren.

Analyse van tekstcorpora *

In de meeste grote tekstcorpora die worden gebruikt als basis voor taalkundig onderzoek zijn de bronteksten verrijkt met taalkundige informatie. Minimaal wordt voor elk woord informatie gegeven over de woordsoort en de vervoeging (morfo-syntactische informatie), vaak is ook informatie over de stamvorm opgenomen (lemmatisering). Bij veel recente corpora is (een gedeelte van) de tekst ook volledig syntactisch geanalyseerd. Hierbij spelen tagger-lemmatizers en parsers een belangrijke rol. Ook als je voor je onderzoek zelf een tekstcorpus opbouwt, kunnen deze instrumenten worden ingezet voor de taalkundige analyse daarvan.

Automatisch vertalen

Hier is de afgelopen 70 jaar veel tijd en geld in gestoken, met wisselend resultaat. Teksten binnen een specifiek, goed afgebakend, domein kunnen vaak redelijk vertaald worden. Zie voor een overzicht het document Aspecten van automatisch vertalen: resultaten - problemen (Steven Krauwer, 2001-2003). Er is momenteel een aantal commerciŽle systemen op de markt, waarvan helaas meestal niet bekend wordt gemaakt hoe ze precies werken. Een voorbeeld hiervan is Systran. Dit programma wordt b.v. gebruikt door de Europese Commissie voor het maken van ruwe vertalingen voor intern gebruik. Het vertaalt tussen veel verschillende talenparen. Een demo-webversie is te vinden op http://www.systransoft.com. Een veelgebruikte toepassing van automatische vertaalsystemen is die voor het vertalen van webpagina's. De zoekmachine Google, bijvoorbeeld, biedt bij elke niet-Nederlandstalige webpagina die wordt gepresenteerd na een zoekopdracht, de optie "Vertaal deze pagina". De kwaliteit is daarbij vaak minder belangrijk - het gaat erom dat de kern van de inhoud overkomt, zodat je ongeveer weet wat er b.v. op een Chinese webpagina staat.

Zoektechnologie (information retrieval) *

Slimme zoektechnologie zoekt niet uitsluitend op woordvorm, maar betrekt daarbij ook de betekenis en houdt rekening met synoniemen en gerelateerde termen. Vragen kunnen in gewoon Nederlands gesteld worden en typ- en spelfouten worden automatisch gecorrigeerd.

Tekstclassificatie

Bij automatische tekstclassificatie worden documenten ingedeeld in vooraf bepaalde categorieŽn of thema's. Deze techniek wordt bijvoorbeeld toegepast door intelligente zoeksystemen die het internet doorzoeken naar documenten die relevant zijn in het kader van een specifieke zoekvraag. Een andere toepassing is de automatische classificatie van e-mailberichten, waardoor deze direct kunnen worden doorgestuurd naar de juiste afdeling of automatisch beantwoord kunnen worden, waardoor bulkvragen die steeds over dezelfde onderwerpen gaan, kunnen worden afgevangen en de servicedesk van het betreffende bedrijf meer tijd over heeft voor het verwerken van de bijzondere vragen.

Text mining *

Text mining is een zoekmethode met behulp waarvan in grote verzamelingen databestanden kan worden gezocht naar informatie van hoge kwaliteit. Dat betekent dat de gevonden informatie in hoge mate relevant moet zijn in verband met de zoekvraag. In onze faculteit wordt het programma Weka gebruikt voor text mining.
Zie voor meer informatie over dit onderwerp het Wikipedia-lemma over Text mining.

Automatisch samenvatten

Taaltechnologie maakt het mogelijk automatisch samenvattingen (met zelf te bepalen omvang) te genereren van willekeurige teksten. Een voorbeeld van zo'n toepassing is de Automatic summarizer for Dutch and English scientific documents van Martijn Wieling.

Diagnose, training en ondersteuning van mensen met communicatieve beperkingen

Om de positie van Nederlanders en Vlamingen met communicatieve beperkingen te kunnen verbeteren heeft de Nederlandse Taalunie een onderzoek laten uitvoeren naar toepassingen van taal- en spraaktechnologie (TST) voor deze doelgroep. TST kan worden ingezet voor de diagnose van beperkingen, voor training en herstel van communicatiemogelijkheden, en voor hulpmiddelen die de resterende vaardigheden ondersteunen. Zie voor meer informatie (waaronder een samenvatting van het betreffende onderzoeksrapport) http://taalunieversum.org/taal/technologie/communicatieve_beperkingen/

Dialoogsystemen (natural language interface systems)

Een dialoogsysteem is een communicatiesysteem dat is gebaseerd op taaltechnologie. Het is een systeem dat de menselijke interactie imiteert. Een gebruiker van een dialoogsysteem kan in het dialoogscherm een vraag, een aantal losse woorden of een verhaal invoeren. De ingevoerde tekst wordt taalkundig geanalyseerd in verhouding tot een databestand. Als het systeem voldoende informatie heeft, zal het systeem de gebruikersreacties met relevante documenten in verband brengen en de relevantie van deze documenten controleren. Zijn de documenten in eerste instantie niet relevant, dan zal het systeem de gebruiker een wedervraag stellen, totdat een relevant document is gevonden. Een dialoogsysteem verwijst naar documenten en geeft zelf geen inhoudelijke informatie. Vaak zal het een interface zijn voor een zoeksysteem, waardoor iemand b.v. vragen kan stellen aan een productcatalogus, reisinformatie (OVIS), etc. Veel dialoogsystemen zijn tegenwoordig spraakgestuurd, door de toevoeging van componenten voor spraakanalyse en spraaksynthese (zie hieronder).
Zie voor meer informatie over dit onderwerp het Kennislinkartikel Bellen met een pratende computer.

Spraaksynthese

Spraaksynthese (text to speech) wordt op steeds grotere schaal toegepast bij het automatisch voorlezen van gedigitaliseerde tekst. Deze toepassing is een uitkomst voor visueel gehandicapten. Ook het gewone publiek maakt echter steeds meer gebruik van dergelijke toepassingen, bijvoorbeeld in de vorm van e-books en/of e-mails die worden voorgelezen (b.v. in de auto). Een voorbeeld van commerciŽle programmatuur op dit gebied is ReadSpeaker, met behulp waarvan de tekst op een website aan de bezoeker kan worden voorgelezen. De technologie is eenvoudig te gebruiken en vereist geen specifieke kennis bij de gebruiker. Ook heeft de gebruiker geen speciale plug-ins nodig. Een voorbeeld van het gebruik van deze technologie is te vinden op de website van de gemeente Haarlemmermeer (klik op "Lees voor"). Een voorbeeld van een gratis programma dat je zelf kunt installeren om de tekst van willekeurige welke website voor te laten lezen is BrowseAloud. Dit programma leest de tekst niet alleen voor, maar heeft ook een 'meeleescursor'. Die meeleescursor maakt de tekst die wordt voorgelezen geel, zodat de gebruiker tegelijkertijd kan luisteren ťn lezen.

Spraakanalyse

Bij spraakanalyse wordt gesproken taal door de computer geanalyseerd. Een veelgebruikte toepassing van deze techniek is dicteersoftware, met behulp waarvan gedicteerde spraak door de computer automatisch wordt getranscribeerd. Hoewel deze techniek nog wel wat haken en ogen heeft, kan hij al zinvol worden toegepast bij de productie van zakelijke tekst (medische toepassingen, verzekeringen, etc.). Het kan ook een uitkomst zijn voor mensen met RSI of een andere motorische aandoening of beperking en voor mensen die werk doen waarbij ze hun handen niet vrij hebben voor het bedienen van een toetsenbord. Een voorbeeld van een commerciŽle state of the art toepassing op die gebied is Dragon NaturallySpeaking. De betreffende website bevat ook een filmpje waarin het programma wordt gedemonstreerd.
Een andere toepassing van spraakanalyse, waaraan momenteel veel onderzoek wordt gedaan, is het zoeken in gesproken media. Hierbij kan met behulp van een (schriftelijke) zoekinterface gezocht worden in (ongetranscribeerde) geluids- en videobestanden. Een voorbeeld van een toepassing voor het gewone publiek is te vinden op de website van het Willem Frederik Hermans instituut, waarop ook geluidsmateriaal wordt aangeboden waarin Willem Frederik Hermans aan het woord is (onder andere documentaires en interviews). De onderzoeksgroep Human Media Interaction van de Universiteit Twente heeft een combinatie van spraaktechnologie en indexering toegepast waarmee het mogelijk is geworden om in de multimediabestanden naar specifieke fragmenten te zoeken. Overigens worden vergelijkbare technieken al enige tijd toegepast door veiligheids- en spionagediensten voor het scannen van bijvoorbeeld telefoonverkeer op verdachte onderwerpen.

Overige pagina's in deze rubriek: Introductie   Instrumenten