Werkbank Geesteswetenschappen

Startpagina > XML > Text Encoding Initiative

Text Encoding Initiative

In principe kan iedereen voor elk type tekst een aparte, eigen, XML-codeset ontwikkelen. In de wereld van XML wordt echter zoveel mogelijk gewerkt met standaardspecificaties, om uitwisseling van documenten en de ontwikkeling van verwerkende programmatuur optimaal mogelijk te maken. Het Text Encoding Initiative (TEI) is een consortium dat werkt aan de ontwikkeling en het onderhoud van een standaard voor de digitale representatie van teksten die als onderzoeksmateriaal worden gebruikt in de geesteswetenschappen. In het kader daarvan is voor een groot aantal tekstuele structuren (zoals kritische edities, proza, gedichten, tekstcorpora, lexicons, oudere manuscripten, e.d.) een XML-specificatie ontwikkeld. TEI wordt nu gezien als de facto standaard voor het annoteren van elektronische teksten in de geesteswetenschappen en wordt daarnaast veel gebruikt door bibliotheken, musea en uitgevers. Voorbeelden van projecten binnen de humaniora die gebruik maken van de XML-definities van TEI zijn te vinden in een overzicht op de TEI-site.

De genoemde XML-specificaties liggen vast in zgn. TEI-dtd, waarvan ook een vereenvoudige versie beschikbaar is: TEI Lite. De TEI-dtd's kunnen eenvoudig worden uitgebreid voor speciale doeleinden. Dit is nuttig als in een project gewerkt wordt met standaard tekststructuren (zoals gedichten of tekstcorpora) waarin bepaalde projectspecifieke elementen moeten worden geannoteerd.

Een belangrijk onderdeel van elk document dat is geannoteerd op basis van de TEI-DTD is de zgn. TEI-header. Hierin kunnen de volgende metadata worden beschreven:

  • file description: een zo volledig mogelijke bibliografische beschrijving van het digitale document (zoals titel, editie, uitgever, e.d.)
  • encoding description: een beschrijving van de relatie tussen de elektronische tekst en de bron(nen) daarvan. Hierin wordt bijvoorbeeld aangegeven of (en hoe) de tekst is genormaliseerd tijdens de transcriptie, hoe onduidelijkheden in de bron zijn behandeld, welke annotaties het document bevat, e.d.
  • text profile: beschrijvende en contextuele informatie over de tekst, zoals het onderwerp van de tekst, de gebruikte taal / talen, de situatie waarin de tekst werd geproduceerd (bijvoorbeeld tijdens een interview) of een beschrijving van de deelnemers aan getranscribeerde conversaties.
  • revision history: beschrijft de versiegeschiedenis van het document, waarin bijvoorbeeld de wijzigingen in aangepaste versies van een document worden beschreven.

Voorbeeld van een TEI header

Meer informatie

Text Encoding Initiative (TEI) Homepage
Guidelines for Electronic Text Encoding and Interchange
Women Writers Project Guide to Scholarly Text Encoding
TEI Lite: An Introduction to Text Encoding for Interchange

Overige pagina's in deze rubriek: Introductie   Basisprincipes   Voorbeelden   Werken met XML   Meer informatie