Voorbewerking van digitale teksten
Als je teksten wilt analyseren met behulp van ICT-hulpmiddelen (zoals concordantieprogrammatuur), is dat meestal geen probleem als
het gaat om
'kale' tekstbestanden
. In andere gevallen (en als een tekst nog niet digitaal beschikbaar is), is vaak één of andere
vorm van bewerking nodig, afhankelijk van het van het bestandsformaat waarin de tekst is opgeslagen.
N.B. Het gaat hierbij om technische vormen van voorbewerking, niet om het toevoegen van inhoudelijke annotatie. Zie hiervoor de pagina's over vrije annotatie en formele annotatie.
Scannen & OCR
Een tekst die niet digitaal beschikbaar is, moet eerst worden gescand.
Een scan is in eerste instantie een afbeelding; om de gescande
tekst te kunnen bewerken en doorzoeken, moet hij eerst met
behulp
van OCR-technieken
worden omgezet naar een tekstbestand. Dit gebeurt meestal niet
foutloos, zeker niet bij ouder drukwerk, waardoor altijd een
correctieronde nodig is.
Fragmentatie
Teksten die worden aangeboden via het internet zijn
vaak gefragmenteerd, bijvoorbeeld doordat elk hoofdstuk als apart
bestand
wordt aangeboden. Voor computerondersteunde tekstanalyse is het meestal
handiger om dergelijke tekstfragmenten samen te voegen in
één bestand.
Word
Teksten die beschikbaar zijn in Word, kunnen door de meeste programma's
voor tekstanalyse niet worden gelezen. Deze teksten moeten vanuit Word
eerst worden opgeslagen als tekstbestand. Je kunt dit doen met behulp
van de optie Opslaan als. In het dialoogvenster dat dan verschijnt,
selecteer je bij "Opslaan als:" (onderaan het venster) de optie "Tekst
zonder opmaak". Nadat je het bestand een naam hebt gegeven (die eindigt
op .txt) en op [Opslaan] hebt geklikt, krijg je een tweede
dialoogvenster. Hierin moet de optie "Windows (Standaard)" worden
aangevinkt. Verder hoeft hier meestal niets te worden aangevinkt. Het
bestand krijgt van Word automatisch het achtervoegsel .txt. Het is aan
te raden om dit niet te wijzigen.
HTML
Teksten die HTML-codes bevatten, zijn meestal bedoeld om gelezen te
worden via een web browser (zoals Internet Explorer). Deze HTML-codes
kunnen de doorzoekbaarheid van de tekst door speciale
tekstanalyseprogramma's echter drastisch verminderen. Zo zul je
bijvoorbeeld de woordgroep "een rood boek" niet vinden als "rood"
cursief is weergegeven (als in "een rood boek"). In de
tekst zelf is dit namelijk als volgt opgenomen: "een
<i>rood</i> boek".
N.B. Overigens zul je deze woordgroep in de web browser wel vinden als
je m.b.t. <Ctrl>+<F> zoekt naar "een rood
boek". Naast HTML-codes, kan een HTML-document ook
programmeerscripts bevatten (zoals Java-script), andere
pagina-elementen (zoals menu’s en advertenties) en zgn.
karakterentiteiten, die vaak gebruikt worden voor letters met
diacritische tekens (zoals é voor é) en speciale
karakters (zoals   voor een ‘harde’ spatie).
Er zijn diverse (gratis) hulpprogramma's beschikbaar om HTML-codes uit
een tekst te verwijderen. Dit kan bijvoorbeeld ook met de het programma
NoteTab (optie
Modify
> Strip HTML Tags).
Omdat dit een teksteditor is, kun je m.b.v. dit
programma eventuele andere ongerechtigdheden in het
tekstbestand
handmatig corrigeren.
XML
Veel formele annotatie wordt tegenwoordig
aangebracht in de vorm van XML-codes. Een analyseprogramma als
WordSmith kan omgaan met XML-codering: je kunt er zowel gebruik van
maken als het laten negeren. Dit geldt echter niet voor alle
cot-programmatuur. Het verwijderen van XML-codes is echter niet altijd
eenvoudig, en meestal ongewenst (het is immers niet voor niets
toegevoegd).
PDF
PDF-bestanden kunnen in principe alleen met behulp van een programma
als Acrobat Reader (of een kloon daarvan) worden doorzocht. Om
dergelijke bestanden om te kunnen zetten naar tekstbestanden is een
programma als Acrobat Professional nodig. Voorwaarde daarbij is dan nog dat de maker van het bestand
deze mogelijkheid niet heeft geblokkeerd.