Werkbank Geesteswetenschappen

Startpagina > Digitale teksten > Voorbewerking

Voorbewerking van digitale teksten

Als je teksten wilt analyseren met behulp van ICT-hulpmiddelen (zoals concordantieprogrammatuur), is dat meestal geen probleem als het gaat om 'kale' tekstbestanden . In andere gevallen (en als een tekst nog niet digitaal beschikbaar is), is vaak één of andere vorm van bewerking nodig, afhankelijk van het van het bestandsformaat waarin de tekst is opgeslagen.
N.B. Het gaat hierbij om technische vormen van voorbewerking, niet om het toevoegen van inhoudelijke annotatie. Zie hiervoor de pagina's over vrije annotatie en formele annotatie.

Scannen & OCR
Een tekst die niet digitaal beschikbaar is, moet eerst worden gescand. Een scan is in eerste instantie een afbeelding; om de gescande tekst te kunnen bewerken en doorzoeken, moet hij eerst met behulp van OCR-technieken worden omgezet naar een tekstbestand. Dit gebeurt meestal niet foutloos, zeker niet bij ouder drukwerk, waardoor altijd een correctieronde nodig is.

Fragmentatie
Teksten die worden aangeboden via het internet zijn vaak gefragmenteerd, bijvoorbeeld doordat elk hoofdstuk als apart bestand wordt aangeboden. Voor computerondersteunde tekstanalyse is het meestal handiger om dergelijke tekstfragmenten samen te voegen in één bestand.

Word
Teksten die beschikbaar zijn in Word, kunnen door de meeste programma's voor tekstanalyse niet worden gelezen. Deze teksten moeten vanuit Word eerst worden opgeslagen als tekstbestand. Je kunt dit doen met behulp van de optie Opslaan als. In het dialoogvenster dat dan verschijnt, selecteer je bij "Opslaan als:" (onderaan het venster) de optie "Tekst zonder opmaak". Nadat je het bestand een naam hebt gegeven (die eindigt op .txt) en op [Opslaan] hebt geklikt, krijg je een tweede dialoogvenster. Hierin moet de optie "Windows (Standaard)" worden aangevinkt. Verder hoeft hier meestal niets te worden aangevinkt. Het bestand krijgt van Word automatisch het achtervoegsel .txt. Het is aan te raden om dit niet te wijzigen.

HTML
Teksten die HTML-codes bevatten, zijn meestal bedoeld om gelezen te worden via een web browser (zoals Internet Explorer). Deze HTML-codes kunnen de doorzoekbaarheid van de tekst door speciale tekstanalyseprogramma's echter drastisch verminderen. Zo zul je bijvoorbeeld de woordgroep "een rood boek" niet vinden als "rood" cursief is weergegeven (als in "een rood boek"). In de tekst zelf is dit namelijk als volgt opgenomen: "een <i>rood</i> boek".
N.B. Overigens zul je deze woordgroep in de web browser wel vinden als je m.b.t. <Ctrl>+<F> zoekt naar "een rood boek". Naast HTML-codes, kan een HTML-document ook programmeerscripts bevatten (zoals Java-script), andere pagina-elementen (zoals menu’s en advertenties) en zgn. karakterentiteiten, die vaak gebruikt worden voor letters met diacritische tekens (zoals &eacute; voor é) en speciale karakters (zoals &nbsp voor een ‘harde’ spatie).
Er zijn diverse (gratis) hulpprogramma's beschikbaar om HTML-codes uit een tekst te verwijderen. Dit kan bijvoorbeeld ook met de het programma NoteTab (optie Modify > Strip HTML Tags). Omdat dit een teksteditor is, kun je m.b.v. dit programma eventuele andere ongerechtigdheden in het tekstbestand handmatig corrigeren.

XML
Veel formele annotatie wordt tegenwoordig aangebracht in de vorm van XML-codes. Een analyseprogramma als WordSmith kan omgaan met XML-codering: je kunt er zowel gebruik van maken als het laten negeren. Dit geldt echter niet voor alle cot-programmatuur. Het verwijderen van XML-codes is echter niet altijd eenvoudig, en meestal ongewenst (het is immers niet voor niets toegevoegd).

PDF
PDF-bestanden kunnen in principe alleen met behulp van een programma als Acrobat Reader (of een kloon daarvan) worden doorzocht. Om dergelijke bestanden om te kunnen zetten naar tekstbestanden is een programma als Acrobat Professional nodig. Voorwaarde daarbij is dan nog dat de maker van het bestand deze mogelijkheid niet heeft geblokkeerd.

Overige pagina's in deze rubriek: Introductie   Typen   Bestandsformaten   Annotatie   Verkrijgbaarheid