Werkbank Geesteswetenschappen |
Startpagina > Tekstanalyse > Text mining
Text mining
Textmining, ook wel textdatamining, verwijst naar het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Met deze technieken wordt gepoogd patronen en tendensen te ontwaren. Concreet gaat men teksten softwarematig structureren en ontleden, transformeren, vervolgens inbrengen in databanken, en ten slotte evalueren en interpreteren. Het gaat bij text mining dus om geautomatiseerde analyse van een grote hoeveelheid tekst. Dit sluit aan bij het begrip Big Data: enorme verzamelingen data, die niet meer met behulp van traditionele computertechnieken kunnen worden opgeslagen en geanalyseerd. Waar het bij Big Data kan gaan om diverse soorten data (van grote databases tot audio- en videobestanden en van gestructureerd tot ongestructureerd materiaal), focust text mining op het doorzoeken en analyseren van grote hoeveelheden (voornamelijk ongestructureerde) tekst. Dat kan voor onderzoek in de geesteswetenschappen interessant zijn, omdat daardoor tekstverzamelingen die door hun omvang niet handmatig en met behulp van meer traditionele programmatuur voor tekstanalyse (zoals concordantiesoftware) niet adequaat kunnen worden geanalyseerd, nu toch als onderzoeksmateriaal kunnen worden gebruikt. Denk daarbij bijvoorbeeld aan historische of moderne gedigitaliseerde journalistieke teksten (bijvoorbeeld uit Delpher of LexisNexis Academic), aan verzamelingen tweets, of aan een groot corpus van gedigitaliseerde 18e eeuwse boeken (Early Dutch Books Online). De computertechnologie die wordt ingezet bij text mining maakt het mogelijk om grote hoeveelheden tekstuele data te verzamelen, te bewerken en te bewaren. Daarnaast probeert de programmatuur allerlei relevante verbanden te vinden in de data en daar betekenis aan te geven. Hier wordt bijvoorbeeld gebruik van gemaakt in de communicatiewetenschap, waarbij de meer traditionele inhoudsanalyse (content analysis) in geautomatiseerde vorm toegepast wordt voor onderzoek naar aspecten van sociale media en krantenartikelen op basis van verzamelingen die miljoenen items bestaan (zie bijvoorbeeld Flaounas e.a. 2012). Bepaalde deeltechnieken van text mining kunnen ook worden ingezet om beperkte tekstverzamelingen die op meer traditionele wijze worden geanalyseerd, automatisch van annotaties te voorzien. Dat geldt bijvoorbeeld voor het toevoegen van bepaalde semantische labels en classificaties en voor named entity recognition, met behulp waarvan bepaalde specifieke elementen in een tekst gelokaliseerd en geclassificeerd kunnen worden. Denk daarbij bijvoorbeeld aan namen van personen, geografische lokaties, organisaties, jaartallen en data, etc. In onze faculteit wordt in verschillende onderzoeksprojecten een vorm van text mining ingezet. Voorbeelden daarvan zijn:
Voor ondersteuning bij het werken met het freeware data mining programma Weka, kan je ook contact opnemen met Onno Huber (o.huber at vu.nl).
Meer informatie
|
Overige pagina's in deze rubriek: Introductie Lexicale analyse Kwalitatieve analyse Inhoudsanalyse Stylometrie |