Werkbank Geesteswetenschappen

Startpagina > Tekstanalyse > Text mining

Text mining

Textmining, ook wel textdatamining, verwijst naar het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Met deze technieken wordt gepoogd patronen en tendensen te ontwaren. Concreet gaat men teksten softwarematig structureren en ontleden, transformeren, vervolgens inbrengen in databanken, en ten slotte evalueren en interpreteren.
Bron: Wikipedia (https://nl.wikipedia.org/wiki/Textmining), geraadpleegd op 13-3-2016.

Het gaat bij text mining dus om geautomatiseerde analyse van een grote hoeveelheid tekst. Dit sluit aan bij het begrip Big Data: enorme verzamelingen data, die niet meer met behulp van traditionele computertechnieken kunnen worden opgeslagen en geanalyseerd. Waar het bij Big Data kan gaan om diverse soorten data (van grote databases tot audio- en videobestanden en van gestructureerd tot ongestructureerd materiaal), focust text mining op het doorzoeken en analyseren van grote hoeveelheden (voornamelijk ongestructureerde) tekst. Dat kan voor onderzoek in de geesteswetenschappen interessant zijn, omdat daardoor tekstverzamelingen die door hun omvang niet handmatig en met behulp van meer traditionele programmatuur voor tekstanalyse (zoals concordantiesoftware) niet adequaat kunnen worden geanalyseerd, nu toch als onderzoeksmateriaal kunnen worden gebruikt. Denk daarbij bijvoorbeeld aan historische of moderne gedigitaliseerde journalistieke teksten (bijvoorbeeld uit Delpher of LexisNexis Academic), aan verzamelingen tweets, of aan een groot corpus van gedigitaliseerde 18e eeuwse boeken (Early Dutch Books Online).

De computertechnologie die wordt ingezet bij text mining maakt het mogelijk om grote hoeveelheden tekstuele data te verzamelen, te bewerken en te bewaren. Daarnaast probeert de programmatuur allerlei relevante verbanden te vinden in de data en daar betekenis aan te geven. Hier wordt bijvoorbeeld gebruik van gemaakt in de communicatiewetenschap, waarbij de meer traditionele inhoudsanalyse (content analysis) in geautomatiseerde vorm toegepast wordt voor onderzoek naar aspecten van sociale media en krantenartikelen op basis van verzamelingen die miljoenen items bestaan (zie bijvoorbeeld Flaounas e.a. 2012).

Bepaalde deeltechnieken van text mining kunnen ook worden ingezet om beperkte tekstverzamelingen die op meer traditionele wijze worden geanalyseerd, automatisch van annotaties te voorzien. Dat geldt bijvoorbeeld voor het toevoegen van bepaalde semantische labels en classificaties en voor named entity recognition, met behulp waarvan bepaalde specifieke elementen in een tekst gelokaliseerd en geclassificeerd kunnen worden. Denk daarbij bijvoorbeeld aan namen van personen, geografische lokaties, organisaties, jaartallen en data, etc.

In onze faculteit wordt in verschillende onderzoeksprojecten een vorm van text mining ingezet. Voorbeelden daarvan zijn:

  • NewsReader: a computer program that “reads” daily streams of news and stores exactly what happened, where and when in the world and who has been involved..
  • Semantics of History: this project has developed a historical ontology and a lexicon that are used in a new type of information system that can handle the time-based dynamics and varying perspectives in historical archives..
Voor meer informatie over het inzetten van deze techniek word verwezen naar het facultaire Computational Lexicology & Terminology Lab (CLTL)

wekaVoor ondersteuning bij het werken met het freeware data mining programma Weka, kan je ook contact opnemen met Onno Huber (o.huber at vu.nl).

Meer informatie

Overige pagina's in deze rubriek: Introductie   Lexicale analyse   Kwalitatieve analyse   Inhoudsanalyse   Stylometrie