Toolkit Academische Vaardigheden
Toolkit Academische Vaardigheden

De rol van datavisualisatie

Er zijn verschillende manieren om onderzoeksdata visueel te presenteren. De meest basale manier is met behulp van tabellen, die nuttig zijn voor het (samenvattend) presenteren van data en veel worden gebruikt in wetenschappelijke publicaties. Maar des te complexer tabellen zijn, des te moeilijker het vaak is om ze te interpreteren. Een duidelijke opmaak, titel en bijschriften bij de kolommen en rijen zijn daarom belangrijk. Er zijn wel manieren om een tabel op bepaalde punten beter leesbaar te maken, of om de aandacht van de lezer te kunnen richten op bepaalde aspecten van de tabel. Voorbeelden daarvan zijn het markeren van cellen die een waarde bevatten die boven of beneden een bepaalde grens liggen (zogeheten outliers), of het toevoegen van een kolom met een grafisch element, zoals een klein trendgrafiekje voor de ontwikkeling van elke categorie. In wetenschappelijke teksten ben je echter voor tabellen meestal gebonden aan een bepaalde presentatiestijl, die weinig ruimte laat voor een alternatieve opmaak. In andere tekstgenres speelt deze beperking niet of minder.

Daarnaast zijn tabellen vooral een effectieve vorm voor het presenteren van data als exacte aantallen en/of percentages belangrijk zijn. Ze zijn minder geschikt voor het illustreren van bepaalde ontwikkelingen en trends. Daarom worden in plaats van (of naast) tabellen vaak andere vormen van datavisualisatie gebruikt om data inzichtelijker te maken, door deze in een visueel aantrekkelijke en begrijpelijke vorm te presenteren. Twee belangrijke verschijningsvormen daarvan zijn grafieken en kaarten. Deze worden gebruikt in allerlei teksttypen, zoals journalistieke teksten, informatieve webteksten, academische teksten en onderzoeksrapporten. Op websites en in audiovisuele media kan ook gebruik worden gemaakt van interactieve en dynamische datavisualisaties. Deze twee vormen worden verder niet besproken op deze website.

Deze vormen van datavisualisatie zijn een krachtig middel om de argumentatie in een betoog te ondersteunen en helpen ook om een tekst beter verwerkbaar te maken voor de lezer. Ze kunnen daardoor zowel het informeren als het argumenteren ondersteunen. Er zijn echter twee zaken waar je goed op moet letten als je datavisualisatie zelf als middel wilt inzetten, of als je een tekst waarin datavisualisatie wordt ingezet (kritisch) leest.

  1. Het is belangrijk om zo goed mogelijk na te gaan op welke dataset de visualisatie is gebaseerd, hoe die tot stand is gekomen en op welke manier er gebruik wordt gemaakt van de data. Als de steekproef waarop de data zijn gebaseerd niet statistisch accuraat is, als een dataset onvolledig is, of als de data op een foutieve manier zijn gemanipuleerd, is de resulterende visualisatie per definitie misleidend. Zeker als je nog niet over veel onderzoeksvaardigheden beschikt, zal het echter lastig zijn om dergelijke misleidende visualisaties te herkennen. Bij wetenschappelijke publicaties verwacht je dat een redacteur of peer reviewers hier kritisch naar hebben gekeken.
  2. Als op de totstandkoming van de dataset en het gebruik daarvan onderzoektechnisch niets is aan te merken, kan de visualisatie zelf zijn gemanipuleerd. De data worden dan op zo’n manier gepresenteerd dat ze de argumentatie lijken te versterken, terwijl dat in feite niet het geval is, of niet in de mate die de misleidende visualisatie doet vermoeden. Deze vorm van misleiding is beter te herkennen, zeker als je weet waarop je moet letten.
We lichten dit toe aan de hand van twee typen datavisualisatie die veel voorkomen in academische publicaties: grafieken en verspreidingskaarten.

Misleidende grafieken

Grafieken kunnen op verschillende manieren misleidend zijn, ook als de dataset waarop ze zijn gebaseerd onderzoektechnisch correct tot stand is gekomen. Hieronder wordt een aantal van die manieren kort besproken. Voorbeelden (met toelichting) van de manipulaties die we noemen, vind je in de artikelen Checktips: Op deze drie manieren kunnen grafieken je misleiden op de site Nieuwscheckers van de Universiteit Leiden en Misleading Graphs... and how to fix them! van Maarten Grootendorst, die mede als bron zijn gebruikt voor dit overzicht.

1. Ontbrekende of onduidelijke bijschriften

Het ontbreken van bijschriften (labels) op één van de assen maakt een correcte interpretatie van een grafiek onmogelijk. Het gaat daarbij vaak om de as waarop de variabele wordt aangegeven die een waarde aanduidt, zoals een jaartal, tijdsduur, het aantal personen waarvoor iets geldt of een geldbedrag. Ook het gebruik van onduidelijke of misleidende bijschriften kan het voor de lezer moeilijk maken om te begrijpen wat de grafiek nu precies laat zien en daarmee een misleidende interpretatie sturen. Een voorbeeld: een as waarop de winst van een bedrijf is aangegeven, maar waarbij het onduidelijk is of het om een bruto- of een nettowinst gaat.

2. Selectief gebruik van data

Het komt regelmatig voor dat van een dataset die op zich correct tot stand is gekomen, slechts een deel als basis voor een visualisatie wordt gebruikt, omdat dat de argumentatie het beste onderbouwt. Dit wordt ook wel cherry-picking the data genoemd. Denk bijvoorbeeld aan een dataset waarin een bepaald fenomeen door de tijd heen wel een algemeen stijgende tendens heeft, maar tussendoor ook (tijdelijke) dalingen bevat. Iemand die een structureel stijgende ontwikkeling wil aantonen, kan dan in een lijndiagram (line chart) of een staafdiagram (bar chart) de tijdelijke dalingen weglaten. De resulterende grafiek heeft op de horizontale as dan geen gelijkmatig interval van bijvoorbeeld periodes of geldbedragen: er vallen ‘gaten’ in.

Een andere vorm van cherry-picking is het weglaten van bepaalde categorieën uit een grafiek, waardoor de verhoudingen tussen de categorieën die wel weergegeven worden niet meer correct zijn. Controleer daarom bijvoorbeeld bij een cirkeldiagram waarbij voor de weergegeven categorieën procenten zijn aangegeven of deze opgeteld uitkomen op 100%. Als er geen procenten maar absolute aantallen worden aangegeven, kan dit echter lastig te constateren zijn, zeker als alle categorieën die in de dataset voorkomen niet allemaal in de tekst van de publicatie worden genoemd.

3. Gemanipuleerde assen

Bij lijn- en staafdiagrammen moet je altijd goed kijken naar de assen, omdat manipulatie daarvan de interpretatie van de dataset kan beïnvloeden. Let daarbij vooral op de volgende zaken:

  1. Als de verticale as niet op nul begint, kan dat tot gevolg hebben dat verschillen tussen de beschreven variabelen groter lijken dan ze in werkelijkheid zijn.
  2. Als de stappen tussen de meetpunten op de verticale as te groot gemaakt zijn, kunnen de verschillen juist kleiner lijken dan ze feitelijk zijn. De grafiek neemt dan vaak slechts een klein deel in van de verticale as.
  3. Als de horizontale as een verloop in de tijd weergeeft, dan moet hij chronologisch zijn geordend en een gelijkmatig interval hebben (bijvoorbeeld per jaar, 10 jaar, 100 jaar, etc.). Anders kan er een vertekend beeld van de daadwerkelijke ontwikkeling worden gegeven.
  4. Soms worden grafieken met een dubbele verticale as gebruikt om de ontwikkeling van twee fenomenen in één grafiek weer te geven. Op die manier kunnen deze met elkaar worden vergeleken. De linker verticale as geeft dan de ontwikkeling van het ene fenomeen weer en de rechter verticale as die van het andere. Deze grafieken zijn vaak moeilijk te interpreteren en kunnen een vertekend beeld geven van de dataset. Kijk in dergelijke gevallen altijd kritisch naar de meeteenheden die op de assen zijn aangegeven. Als deze verschillend zijn, kan dat leiden tot een onjuiste interpretatie van de relatie tussen de gegevens.

4. Driedimensionale grafieken

Tweedimensionale grafieken zijn meestal eenvoudig te interpreteren. Bij driedimensionale grafieken daarentegen, met name bij cirkeldiagrammen (pie charts), kunnen de gegevens zo worden gepresenteerd dat bepaalde onderdelen op de voorgrond groter of belangrijker lijken dan die op de achtergrond. Kijk dus altijd zeer kritisch naar dit type grafiek en laat je er niet door misleiden. Als je zelf grafieken wilt gebruiken in een werkstuk of scriptie, kun je ook beter geen driedimensionale varianten gebruiken, hoe fraai ze er soms ook uit kunnen zien, om elke schijn van misleiding te voorkomen.

5. Onjuiste schaling bij gebruik van pictogrammen

Soms worden in grafieken pictogrammen of afbeeldingen gebruikt in plaats van balkjes, om ze visueel aantrekkelijker te maken. Waar balkjes in een staafdiagram echter altijd dezelfde breedte hebben, is dit met pictogrammen en afbeeldingen vaak niet het geval. Stel bijvoorbeeld dat een pictogram het aantal personen aanduidt. Als het pictogram dat een groter aantal aanduidt (laten we zeggen 400 in plaats van 150) niet alleen hoger is, maar ook breder, resulteert dat in een perceptueel misleidende vergelijking. Mensen zullen dan namelijk de neiging hebben om de totale omvang van het pictogram te interpreteren en niet alleen de hoogte daarvan.

Misleidende verspreidingskaarten

In veel wetenschappelijke disciplines worden zogeheten verspreidingskaarten of spreidingskaarten gebruikt om de geografische verspreiding van een verschijnsel visueel weer te geven, ter ondersteuning van de argumentatie in de tekst. Een historicus kan bijvoorbeeld de 18e-eeuwse heksenverbrandingen in kaart brengen om aannemelijk te maken dat de laatste uitingen van deze praktijk zich in economisch achtergebleven gebieden voordeden. Een medicus kan twee kaarten presenteren om aan te geven dat de ziekte malaria in 1930 in een veel groter gebied en in grotere aantallen voorkwam dan in 2000, om aan te tonen dat deze ziekte sterk is teruggedrongen.

Het is belangrijk om je te realiseren dat elke kaart het resultaat is van bepaalde keuzes die zijn gemaakt: welke data zijn verzameld en met welk doel is dat gebeurd, wat wordt daarvan getoond en wat juist niet, welke projectie, groottes, vormen en kleuren worden er gebruikt? Hieronder beschrijven we beknopt een aantal aandachtspunten die hiermee samenhangen.

1. Projectiemethode

Er bestaan veel manieren om de bolvorm van de aarde te projecteren op een plat vlak. Geen enkele projectie kan dat echter doen zonder vervormingen te vertonen. Afhankelijk van de eisen die worden gesteld aan een kaart, aan het af te beelden gebied, en aan het doel van de kaart, is een bepaalde projectie meer of minder geschikt.

Op de bekendste versie van de wereldkaart, die in de Mercatorprojectie, worden de verhoudingen tussen de oppervlakten van de continenten vervormd weergegeven. Daardoor ziet Afrika er bijvoorbeeld relatief klein uit, terwijl landen als Groenland en Rusland enorm groot overkomen. In werkelijkheid is Afrika ruim 14 maal groter dan Groenland. Deze projectie van Afrika als een klein continent is, naast een cartografisch-technische keuze, ook een politieke keuze geweest, die mede van invloed is geweest op onze beeldvorming van het continent. Er zijn ook projectiemethoden, zoals de Gall-Peters projectie, die proberen om de verhoudingen tussen de landmassa’s accurater te weer te geven.

2. Weergegeven dimensies

Het verschijnsel dat in kaart wordt gebracht heeft meestal meer dimensies dan alleen een geografische. Als die (deels) worden genegeerd, of niet op een heldere manier in kaart worden gebracht, dan kan dat een vertekend beeld van de werkelijkheid opleveren. Naast de onderzoektechnische factor ‘representativiteit’ (hoe representatief en hoe compleet zijn de gegevens waarop de kaart is gebaseerd) zijn er twee andere belangrijke factoren die de informatieve waarde van een verspreidingskaart bepalen:

  1. De dimensie ‘aantal’: is de verspreidingskaart een ‘platte’ kaart waarop alleen het voorkomen van het verschijnsel wordt aangegeven, of wordt ook het aantal malen dat het verschijnsel op die plaats voorkomt in kaart gebracht? [Voorbeeld]
  2. De dimensie ‘tijd’: hoe groot is de periode waarvan de gegevens in de kaart zijn verwerkt? Geven zij een momentopname of omspannen zij een korte tijd? Of zijn er gegevens uit een lange tijdspanne op één kaart bij elkaar gevoegd en is er geen rekening gehouden met veranderingen die zich in de loop van die lange tijd kunnen hebben voorgedaan?
Daarnaast kan het verschil maken of wordt gewerkt met absolute aantallen of met percentages. Bovendien kunnen er nog andere variabelen een rol spelen. Illustratief is het artikel ‘Mapping the coronavirus crisis: How maps can inform or mislead’ van Mickey Butts van de Haas School of Business at the University of California, Berkeley (2020). Hierin laat hij zien dat als het aantal gevallen van corona wereldwijd in kaart wordt gebracht, het van belang is om de absolute aantallen aan te passen aan de omvang van de populatie in de weergegeven gebieden (en dus te werken met relatieve aantallen). De kaart ziet er dan wezenlijk anders uit. Ook het niveau van de ploteenheid kan een rol spelen: het plotten van coronagevallen per stad, of zelfs per wijken van steden, kan heel andere inzichten geven dan plotten op landniveau. Je ziet dan bijvoorbeeld dat de armste wijken een veel hogere infectiegraad hebben dan wijken waarin het gemiddelde inkomen hoger ligt.

3. Opmaak en symbolen

De opmaak van een kaart (met aspecten als kleurgebruik, lettertype en lettergrootte) kan, evenals het gebruik van bepaalde symbolen en de vorm daarvan, sturend werken bij de interpretatie van de getoonde gegevens. Het woordgebruik van de bijschriften kan dat nog versterken.

Een fraai voorbeeld hiervan wordt gegeven in het artikel ‘Zo maken kaarten in de media ons onbewust negatiever over migranten’ van Maite Vermeulen, Leon de Korte en Henk van Houtum in de De Correspondent (juli 2020). Hierin laten ze zien hoe kaarten die in eerste instantie informatief en feitelijk ogen, door hun opmaak eigenlijk verre van neutraal zijn en in de woorden van de auteurs onbewust de antimigratie-onderbuik in Europa versterken.

Goed kleurgebruik voor de kaartvlakken is belangrijk. Gebruik bijvoorbeeld voor aantallen die van laag naar hoog lopen één kleur in gradaties die van licht naar donker lopen. Daarmee maak je de kaart zo overzichtelijk mogelijk.

Conclusie

Het herkennen van misleidende grafieken en verspreidingskaarten is een vaardigheid die je in staat stelt om data op een kritische en accurate manier te interpreteren. Door je bewust te zijn van de mogelijkheid van vertekende schalen, verborgen nulpunten, visuele effecten en andere trucs, kun je de informatie beter begrijpen en de juiste conclusies trekken. Het is daarom essentieel om jezelf altijd af te blijven vragen hoe een grafiek of een kaart is opgebouwd en welke intenties erachter kunnen zitten. Met deze kennis ben je beter gewapend tegen misleiding en kun je weloverwogen beslissingen nemen op basis van betrouwbare data.

Meer weten?

Misleading graph, Wikipedia.

De Grafiekpolitie is een groep wetenschappers die misleidende grafieken bestrijdt. Op hun website vind je een groeiend aantal artikelen met voorbeelden van misleidende grafieken.

Eric Deluca and Sara Nelson, Lying With Maps. In Manson, S. M. (ed.) (2017). Mapping, Society, and Technology. Minneapolis, Minnesota: University of Minnesota Libraries Publishing.