2.
DE OORZAAK*
* Over de bakermat van slechte statistiek
Het is statistisch bewezen dat de meeste statistieken niet kloppen.
Onzinnige en verkeerde statistieken ontstaan niet vanzelf. In het vorige hoofdstuk beschreef ik de drie hoofdrolspelers als het gaat om statistiek, namelijk de makers, gebruikers en consumenten. Dit hoofdstuk gaat over de rol die respectievelijk de gebruiker en consument spelen bij het ontstaan van fouten. De voorbeelden behoren vooral tot de categorie gestuntel en minder tot de categorie gekonkel.
Tofu veroorzaakt geheugenverlies: van feit naar fabel
Ongetwijfeld heb je bij het lezen van een artikel wel eens gedacht: “Hè? Dat is stug!”. Ik dacht het in ieder geval bij het lezen van een artikel in De Telegraaf met de kop “Tofu veroorzaakt geheugenverlies”.
Tofu blijkt toch niet zo gezond als gedacht. Uit onderzoek blijkt dat de vleesvervanger het geheugen aantast en kan leiden tot dementie. Dat blijkt uit onderzoek door de universiteiten van Loughborough en Oxford, meldt de website Meat & Meal. (…) De wetenschappers onderzochten 719 ouderen die meer tofu aten dan normaal. Vooral bij de personen onder de 68 jaar bleek dat het geheugen achteruit ging
* Telegraaf.nl, 15 juli 2008
Ik ben vegetariër noch fan van tofu. Toch prikkelde bovenstaande conclusie mijn nieuwsgierigheid. De bron die De Telegraaf noemt, is de website MeatandMeal.nl. Tot mijn verbazing stond daar de volgende tekst op.
(…) De wetenschappers onderzochten de effecten van een verhoogde soja-consumptie onder 719 ouderen en daaruit bleek dat, vooral bij de personen van 68 jaar en ouder, een verhoogde tofu-consumptie
* Meatandmeal.nl, 15 juli 2008
De Telegraaf meldt dat het effect vooral bij personen onder de 68 optreed, terwijl op de website Meat & Meal duidelijk staat dat personen van boven de 68 risico lopen. Wie heeft er nu gelijk? De wetenschappers van de Universiteit van Loughborough mogen het zeggen.
(…) De onderzoeksresultaten, die later deze maand zullen worden gepubliceerd in “Dementias and Geriatric Cognitive Disorders”, bevatten bewijs dat een hoge consumptie van tofu in verband staat met een verslechterend geheugen, vooral onder mensen van 68 en ouder (…)
* http://www.lboro.ac.uk/service/publicity/news-releases/2008/104_tofu.html
Het is kennelijk moeilijk om een bericht letterlijk over te nemen. Althans, De Telegraaf kreeg het niet voor elkaar. Een opmerkelijk detail dat onvermeld bleef in beide artikelen, is het feit dat de 719 onderzochte ouderen op Java blijken te wonen. De onderzoekers waarschuwen op de universiteitssite dat het niet duidelijk is hoe het gevonden effect zich verhoudt tot andere etnische groepen. Zowel De Telegraaf als Meat & Meal brachten de feiten dus te kort door de bocht.
Onzinnige statistieken ontstaan nadat de oorspronkelijke cijfers worden hergebruikt en (onbewust) muteren tot onzin. In goed Nederlands noemen we dat een mutant stat. Dit komt vaak door de onkunde van de gebruiker, maar kan bijvoorbeeld ook ontstaan door een verkeerde generalisatie. Je kunt het vergelijken met een populair kinderspelletje. Een kind bedenkt een zin en fluistert die in het oor van het kind naast zich. Dat fluistert de zin weer door. Dit gaat door tot en met het laatste kind in de kring, dat tenslotte de zin hardop uitspreekt. De grap is natuurlijk dat er van de oorspronkelijke zin weinig over is. Zo werkt het vaak ook bij hergebruik van statistiek.
Uit het volgende voorbeeld blijkt dat een simpele wisseling van woorden tot een hele andere conclusie kan leiden dan de oorspronkelijke. In maart 2008 stond de volgende tekst in het AD en de Volkskrant.
Eén derde van de ouders van de ondervraagden heeft geen bezwaar tegen het softdrugsgebruik van hun kroost, blijkt uit de enquête.
* Algemeen Dagblad en de Volkskrant, 14 maart 2008
Schokkend? Alarmerend? Valt wel mee. De conclusie was gebaseerd op een stuk tekst op de website van Top-X, het jongerenpanel van actualiteitenrubriek Eén Vandaag. De zin was verkeerd overgenomen. Het waren de jongeren zelf die massaal hadden aangegeven dat hun ouders het goed vonden dat ze blowden. Dat is misschien niet een schokkende conclusie maar wel tegenovergesteld aan wat de twee kranten beweerden.
Ook De Telegraaf blijkt een dankbare bron van mutant stats. Zo stond in de zaterdagbijlage Vrouw het volgende.
20% van de kinderen tussen 7 tot 15 jaar vindt hun vader “heel erg lief”. En slechts twee op de tien kinderen vindt dat hun vader er goed uitziet. Au.
* De Telegraaf- Bijlage Vrouw, april 2008
Deze gegevens zouden uit een onderzoek komen dat Kidsweek in samenwerking met onderzoeksbureau Qrius uitvoerde. Na wat zoekwerk bleek dat niet 20% maar bijna 80% hun vader “heel erg lief” vond. De Telegraaf draaide de cijfers dus gewoon om. Gelukkig maar. Ik maakte me al zorgen. Overigens stuiten we in dit voorbeeld ook op ander statistisch gestuntel. Het gebruik van het woordje slechts is vreemd, aangezien het percentage twintig even groot is als twee op de tien. De vragen werden bovendien online gesteld aan 174 bezoekers van de website kidsweek.nl. Die 174 deelnemers vormen een te kleine en geen representatieve groep voor een steekproef op basis waarvan uitspraken worden gedaan over alle Nederlandse jongeren tussen 7 en 15 jaar. Het onsubtiele “Au” zorgt er tot slot voor dat je het tweede gegeven automatisch anders interpreteert dan het eerste.
Een mutant stat die in dit rijtje voorbeelden niet mag ontbreken, betreft een uitspraak waarmee bijna elke presentatie- of communicatietrainer een training begint. Deze uitspraak luidt dat de perceptie van je gesprekspartner voor zeven procent wordt bepaald door wat je zegt en voor 93% door hoe je het zegt. Als de trainer al een bron voor deze cijfers weet te vermelden, moet dat het onderzoek van psycholoog Albert Mehrabian zijn. Zijn onderzoek gaat echter helemaal niet over communicatie, maar specifiek over het overbrengen van gevoelens. De getergde Mehrabian zag zich genoodzaakt zijn resultaten toe te lichten, omdat ze al zo vaak verkeerd zijn geïnterpreteerd.
(…) Totale voorkeur = 7% Verbale voorkeur + 38% Vocale voorkeur + 55% Voorkeur voor gezichtsuitdrukking: Bedenk a.u.b., dat deze en andere vergelijkingen met betrekking tot het relatieve belang van verbale en non-verbale boodschappen zijn ontleend aan proefnemingen over het overbrengen van gevoelens en opvattingen (dat wil zeggen voorkeur/afkeer). Alleen als een spreker het heeft over zijn gevoelens of opvattingen, zijn deze vergelijkingen toepasbaar. Zie ook de referenties 286 en 305 in Silent Messages – dat zijn de oorspronkelijke bronnen van mijn bevindingen. (…)
* Bron: www.kaaj.com/psych/smorder.html
Het heeft niet mogen baten. De gemuteerde statistiek werd meerdere malen kritiekloos herhaald en groeide uit tot een onweerlegbaar feit dat de Mehrabian Myth is gaan heten. De kans dat zoiets gebeurt, is nog groter wanneer de mutatie ons onderbuikgevoel lijkt te bevestigen. Soms dient een mutant stat zelfs als basis voor nieuwe statistieken en berekeningen. De bron is dan vaak niet meer te achterhalen, zoals blijkt uit het voorbeeld van de presentatie- en communicatietrainingen.
Een laatste voorbeeld, waar iedereen waarschijnlijk wel eens van heeft gehoord, is de volkswijsheid dat één op de tien mannen homoseksueel is. Deze bewering komt voort uit een onderzoek van de seksuoloog, entomoloog en zoöloog Alfred Kinsey die in de jaren vijftig onderzoek deed naar seksualiteit in de Amerikaanse samenleving. Zijn onderzoek gold destijds als opzienbarend en had een grote impact op de manier waarop men keek naar seksualiteit. Uit het betreffende onderzoek zou blijken dat 10% van de ondervraagden tussen de 20 en 35 jaar direct of indirect homoseksuele gedachten of gevoelens had. Buiten het feit dat je een dergelijk percentage niet zo maar naar “één op de tien mannen” mag vertalen, was dit ook niet de conclusie van Kinsey. Zijn onderzoek is later door velen bekritiseerd en zijn methoden bleken inderdaad niet allemaal even zuiver. Toch blijft een dergelijke conclusie als een algemeen aanvaard gegeven bij het grote publiek hangen. In vrijwel elke groep van tien mensen levert de mutant stat van de verkeerd geciteerde Kinsey immers een sappig verhaal, dan wel een sappige reactie op. Uitroeien is onmogelijk.
Ik zie, ik zie wat jij niet ziet: het ijsbergsyndroom
Niet alles kun je meten, hoe vervelend dat misschien ook is. Hoeveel illegale vreemdelingen zijn er in Nederland? Hoeveel slachtoffers zijn er van huiselijk geweld? Hoeveel geld wordt er in Nederland witgewassen? In welke bedrijfstak wordt er het meest gepest op de werkvloer? Vooral wanneer het gaat om sociale kwesties kan een blinde vlek ontstaan. De blinde vlek vertegenwoordigt gegevens die niet bekend zijn bij officiële instanties en waarvan we dus een schatting moeten maken. Daaraan kleven vanzelfsprekend bezwaren. Het hangt er maar net van af wie je vraagt om een schatting te maken. Een minister geeft ongetwijfeld een ander antwoord op de vraag naar het aantal illegalen in Nederland dan de hulpverlener bij de daklozenopvang. Beide kijken vanuit hun eigen achtergrond naar het probleem en hebben verschillende belangen bij media-aandacht of een eventuele oplossing.
Omdat het moeilijk kan zijn om duidelijkheid te krijgen over de aard en omvang van sociale problemen, zoekt men vaak zijn toevlucht tot vergelijkingen en voorbeelden. Mensen die een sociaal probleem op de kaart willen zetten, zetten hun schatting soms kracht bij met een dreigende opmerking als: “… en dat is nog maar het puntje van de ijsberg”. Daarmee kap je elke vorm van discussie af. Met ijsbergen is het dus oppassen geblazen.
Ruim 7200 55-plussers hebben hulp gezocht voor hun uit de hand gelopen drinkgedrag. Het is waarschijnlijk het topje van de ijsberg, zegt Bert Versteeg van de Minnesota-kliniek Mirage van Brijder in Den Haag. „Drinken is volledig geaccepteerd, maar mensen die in de praktijk niet kunnen omgaan met alcohol, raken in de problemen. Hun relatie gaat eraan ten onder, ze komen professioneel in de problemen. Het is lastig om daarmee naar buiten te komen. Gevolg: er is enorm veel verborgen leed.” Veel ouderen drinken veel, zegt Versteeg, ‘dat zien wij ook in de dagelijkse praktijk’.
* AD.nl 29 juni 2009
Het kan bijna niet anders of de ijsberg in bovenstaand voorbeeld is ingezet om gebrek aan informatie te verhullen. Of, zo je wilt, om een vermoeden te verwoorden. Het losstaande feit dat 7200 mensen van 55 jaar en ouder hulp zoeken vanwege hun drinkgedrag, zegt namelijk weinig. De informatie roept vooral vragen op. Hebben al deze 55-plussers een serieus drankprobleem? Voor de één kan een uit de hand gelopen avond al aanleiding zijn om er iets aan te doen, terwijl de ander pas na lang aandringen van zijn omgeving hulp zoekt. Hoeveel is veel en is een drankprobleem hetzelfde als alcoholisme? Er blijkt onduidelijkheid te bestaan over de exacte definitie van alcoholisme. In ieder geval is het effect van alcohol op je gedrag een belangrijk criterium, maar bij de diagnose van drankproblemen is dat nu juist weer lastig. Het effect van alcohol op menselijk gedrag verschilt namelijk per persoon.
Als we er achter willen komen of de hierboven aangehaalde ijsberg inderdaad meer is dan een topje, kunnen we bij het Trimbos Instituut te rade gaan. Dat is het Landelijk Kennisinstituut voor Geestelijke Gezondheidszorg, Verslavingszorg en Maatschappelijke Zorg. In onderstaand persbericht van het Trimbos Instituut staat meer informatie over 55-plussers en hun vermoedelijke drankprobleem, maar helaas schieten we er opnieuw weinig mee op.
Uit de cijfers blijkt dat in 1998 nog 3.154 mensen van 55 jaar en ouder ingeschreven stonden bij de instellingen voor verslavingszorg, in 2007 is dit gestegen tot 7.241
* Bron: Trimbos.nl, 29 juni 2009
Ingeschreven staan is iets anders dan hulp zoeken. Uit het artikel van het Algemeen Dagblad krijgen we bovendien de indruk dat meer dan 7200 mensen zich in 2007 hebben aangemeld bij hulpinstanties. Dat hoeft niet te kloppen. Iemand die zich in 2005 aanmeldt en in 2007 nog in behandeling is, blijft op de lijst staan van ingeschreven personen.
Het noemen van een voorbeeld kan, net als de ijsbergvergelijking, lastige vragenstellers de mond snoeren. Vooral persoonlijke voorbeelden brengen het probleem dicht bij de lezer. Die moet vervolgens sterk in zijn schoenen staan, wil hij daar ongevoelig voor blijven of ijskoud beweren dat de gegeven informatie hem nog altijd bar weinig zegt.
Marcel, inmiddels 64 jaar oud, zat echter behoorlijk in de problemen. De hele avond dronk hij alcohol en als-ie de volgende ochtend opstond trilden zijn handen zo erg dat hij zijn kop koffie niet mee kon optillen zonder dat de inhoud er aan alle kanten uitklotste. Voor Adrie Buisman (68) uit Amsterdam is het feit dat het altijd en overal maar drinken wordt geaccepteerd de oorzaak van zijn problemen. Tijdens zijn werkzame leven ging hij hoe langer hoe meer drinken. „Een paar biertjes als ik thuis kwam, een halve fles wijn tijdens het eten en nog een glaasje cognac toe. En dan moest de avond nog beginnen.”
* Bron: AD.nl 29 juni 2009
Als je het zo stelt, vertegenwoordigen Marcel en Adrie de totale groep van alcoholisten van 55 jaar en ouder. Niet alle 7200 hulpzoekenden hebben echter dezelfde problemen als deze twee heren. Zelfs als de lezer zich daarvan bewust is, zal hij toch geneigd zijn om het gedrag van Marcel en Adrie als definitie te hanteren, maar als definitie van wat? Een helder beeld van het precieze probleem wordt niet gegeven.
De nijging om bij sociaal gevoelige problemen een grote onderrapportage te veronderstellen, noemt socioloog Peter Vasterman het ijsbergsyndroom. Daarbij vormen de officiële cijfers slechts het topje van de ijsberg. Makers en gebruikers komen hier vaak mee weg, omdat veel sociale problemen zich nu eenmaal moeilijk laten vangen in concrete cijfers en definities.
Appels en peren: hoe vergelijk je cijfers?
Cijfers hebben een context nodig. Eén percentage of gemiddelde zegt niet zo veel. We moeten het cijfer in perspectief kunnen zien. Dat kan door cijfers uit verschillende periodes met elkaar te vergelijken. Op die manier kan men bijvoorbeeld zien of een bepaald fenomeen is toe- of afgenomen. Vergelijkingen kun je ook maken tussen verschillende groepen of plaatsen. Vanzelfsprekend loert hier het gevaar dat je appels en peren met elkaar gaat vergelijken en dat de uitkomst dus nietszeggend is.
In september 2009 stond in de Sp!ts dat het aantal gevallen van overlast en geweldpleging op bus en tram flink was toegenomen.
Ook het totaal aantal meldingen, waarin ook scheldpartijen, hinderlijk gedrag, betalingsproblemen en andere verstoringen zijn meegeteld, stijgt sterk. In 2007 registreerden de vervoersbedrijven Arriva, Connexxion, Syntus en Veolia in totaal nog 3869 incidenten. In 2008 waren dat er al 4711. De vervoersbedrijven verwachten dit jaar uit te komen op 6699 meldingen, een stijging van ruim 42 procent ten opzichte van 2008
*Bron: Sp!ts, 3 september 2009
Een overtuigende oorzaak voor de toename kon de Taskforce Veiliger Openbaar Vervoer (TVOV) niet geven, maar volgens hun analyse steeg het aantal strafbare incidenten in 2008 met 33 procent. Het maken van die berekening is eenvoudig. De cijfers zeggen echter niets als de oorzaak onbekend is. Misschien meet je wel helemaal geen toename. Het kan bijvoorbeeld zijn dat het aantal incidenten niet toenam, maar dat het personeel vaker besloot om een incident te melden. Of dat het personeel bepaald gedrag ging zien als intimiderend of gewelddadig. Dat kan weer een gevolg zijn van de toegenomen aandacht voor geweld in het openbaar vervoer.
In 2006 was er nog amper media-aandacht voor geweld in het openbaar vervoer. In 2007 berichtte de landelijke media voor het eerst over ernstige incidenten. In 2008, nadat incidenten hadden plaatsgevonden in Gouda en Arnhem, was het een terugkerend thema. Niet alleen burgers stonden opeens stil bij dit fenomeen, ook de chauffeurs zelf keken anders naar hun werk. Daarnaast vielen niet-fysieke verstoringen nu ook binnen de definitie van geweld. Chauffeurs meldden dus niet alleen vaker verstoringen, maar ook meer soorten verstoringen. Luidruchtige jongeren waren opeens bedreigend, een klant die niet wilde betalen werd als een probleem gezien en een opgestoken middelvinger was nu intimiderend. Met andere woorden, door alle media-aandacht werd de definitie van geweld opgerekt en nam het aantal meldingen toe. Het logische gevolg is dat je het aantal meldingen in 2008 niet goed kunt vergelijken met dat van 2006 of 2007. Beter is het om vooraf een heldere en bij voorkeur smalle definitie van geweld op te stellen. Die meet je vervolgens over een aantal jaar.
Een vergelijking wordt nog lastiger als het onderwerp moeilijk is te definiëren. Dat bleek eerder al bij de voorbeelden over sociale kwesties. Neem pesten op het werk. In 2005 voerde de Europese Stichting voor de Verbetering van Levens- en Arbeidsomstandigheden een onderzoek uit over dit onderwerp. Het percentage deelnemers aan het onderzoek dat zegt slachtoffer te zijn van pesterijen, varieert sterk per land. In Italië is dat bijvoorbeeld twee procent, in België 8,5 % en in Finland zeventien procent. Pesten de Finnen elkaar nu het meest? Die conclusie lijkt gerechtvaardigd, maar is te kort door de bocht. In het onderzoeksrapport staat al een aantal redenen:
• De helft van alle werkende Europeanen woont in slechts vijf landen, namelijk Duitsland, Groot-Brittannië, Spanje, Frankrijk en Italië
• De werkeloosheidspercentages lopen sterk uiteen
• De verhouding tussen werkende mannen en werkende vrouwen verschilt per land
• Het aantal tijdelijke contracten of parttimers verschilt per land
• Het aantal grote bedrijven verschilt per land
Dan hebben we het nog niet gehad over de grote economische, juridische, culturele en sociale verschillen tussen de gemeten landen. Vullen Italianen een dergelijk onderzoek anders in dan Finnen? Zijn Finnen minder terughoudend of interpreteren Italianen het fenomeen pesten anders? Iets wat gebruikelijk is in Spanje kan als zeer beledigend worden opgevat in Duitsland. Het onderzoek merkt droogjes op dat we al deze verschillen in het achterhoofd moeten houden bij de interpretatie van de resultaten.
Vergelijken is dus lastig. Definities veranderen, evenals onderzoekmethodes. Dit gebeurt niet in de laatste plaats door het gebruik van internet. Zo vinden de meeste opinieonderzoeken tegenwoordig online plaats, maar niet iedereen maakt (evenveel) gebruik van internet. Zijn de mensen die wel regelmatig gebruik maken van internet daar anders door gaan denken, of bereiken we met huidige onderzoeken andere groepen mensen? Voor het vergelijken van statistieken is het belangrijk dat de cijfers tot stand zijn gekomen met eenzelfde methode en verwijzen naar een eenduidig gedefinieerd fenomeen.
Dat is ook toevallig: toeval bestaat wel
Foute statistieken ontstaan soms door de aanwezigheid van toeval. Eigenlijk moet ik zeggen dat er foute discussies ontstaan over statistieken, omdat we het bestaan van toeval niet willen accepteren. Wie kan er zonder blikken of blozen aan een roulettetafel inzetten op zwart, als deze kleur al twintig keer achter elkaar is gevallen? Iets in ons wil een verklaring voor een bepaalde gebeurtenis, zeker wanneer die opeens of juist meerdere keren achter elkaar voorkomt.
Michael Blastland en Andrew Dilnot beschrijven dit fenomeen uitgebreid in hun boek “The Tiger That Isn’t” uit 2008. Het effect van toeval laat zich volgens hen het best illustreren door het volgende experiment. Gooi de inhoud van een pak rijst met een krachtige worp omhoog. Je zal zien dat de rijstkorrels niet allemaal op gelijke afstand van elkaar op de grond vallen. Dat zou pas opvallend zijn. Het zou betekenen dat er één en dezelfde oorzaak bestaat voor het vallen van de korrels die bovendien altijd dezelfde is. Nee, de rijstkorrels vallen elke keer dat je het pak leeggooit op totaal verschillende manieren op de grond. Er zullen groepjes korrels bij elkaar komen te liggen, maar er zullen ook nog steeds lege plekken op de vloer zijn zonder rijstkorrels. Sommige liggen afgezonderd van de rest in hun eentje. Het vallen van de korrels hangt immers nauw samen met de plek waar je staat, de kracht van je worp, de omstandigheden in de ruimte, enzovoorts. Het is een combinatie van factoren die leidt tot de hoopjes of lege plekken. We zeggen dat de rijstkorrels toevallig zus of zo zijn gevallen. Toeval bepaalt hoe de korrels op de grond komen te liggen. Toeval betekent echter niet hetzelfde als zonder oorzaak. Er is wel degelijk een oorzaak voor hoopjes of lege plekken, maar dat is een complexe oorzaak die samenhangt met vele factoren en per worp verschilt. Dat is over het algemeen makkelijk te vatten als het gaat om een pak rijst. Wanneer het echter gaat om een ogenschijnlijk toevallige gebeurtenis die ons hard raakt, zoals een heftige aardbeving of het overlijden van een dierbare na een medische ingreep of auto-ongeluk, dan gaan we er van uit dat er een oorzaak is. We proberen het te bevatten en te begrijpen. Er moet een reden zijn voor deze gebeurtenis, vinden we, maar soms is die er niet. Anders gezegd: soms is de reden een complexe samenloop van totaal uiteenlopende factoren die niet of weinig voorkomt. Dat kan een onbevredigende en moeilijk te accepteren conclusie zijn. Zeker voor de media, die over het algemeen een warme belangstelling koesteren voor onverwachte gebeurtenissen en opvallende uitschieters. Dat soort zaken zijn nieuws en ze leveren een interessant artikel op. Wij willen dat de media ons vertellen waarom iets is gebeurd, hoe oppervlakkig die verklaring misschien ook is. We willen niet horen dat er toevallig wat kinderen overleden in een ziekenhuis of dat er zomaar meer gevallen van kanker zijn geconstateerd dit jaar.
De hamvraag is dan ook: hoe sluit je uit dat iets niet gewoon toeval is? Dat is lastig, maar in de statistiek niet onmogelijk. Je kunt over het algemeen vrij goed de kans berekenen dat iets toeval is. Stel je hebt een euro. Daarmee gooi je twintig keer waarvan vijftien keer kop. Dat is sterk. Je begint te vermoeden dat het een verzwaarde, valse Euro is. De mogelijkheid bestaat echter dat het gewoon toeval is. Om er achter te komen of het geen toeval was, zul je vaker moeten gooien. Misschien wel duizend keer. Bij een zuivere munt verwacht je dat de kop circa vijfhonded keer boven komt te liggen en dat je vijfhonded keer de muntkant ziet, maar dat hoeft niet. Zelfs met een zuivere munt kan het voorkomen dat je bijvoorbeeld 305 keer kop krijgt en 695 keer munt. Dat is frustrerend want nu weet je nog steeds niet of je toeval kan uitsluiten. Je zou dan niet één keer duizend maal moeten gooien, maar veel vaker. Wacht tot het een druilerige zondag is en gooi driehonderd rondes met een munt, elke ronde duizend keer. Per ronde noteer je het aantal keren kop. Figuur 3 laat zien wat het resultaat kan zijn. Nota bene: dit is inderdaad het resultaat dat je verwacht als je met een zuivere munt gooit.
In figuur 3 kun je bijvoorbeeld zien dat na driehonderd rondes het slechts twee keer is voorgekomen dat de kop 640 keer boven kwam te liggen. Je ziet ook dat de 305 keer kop een uitzondering is, een toevalligheid. Het hoogste aantal keren dat de kop boven lag, was 501. Dat gebeurde van de driehonderd rondes wel 35 maal. Als je met een andere munt een vergelijkbare figuur krijgt, kun je met redelijke zekerheid zeggen dat hij zuiver is. Helemaal zeker weten doe je het nooit. Nu kan ik me voorstellen dat je zelfs op een druilerige zondag geen zin hebt om je over te geven aan dit dodelijk saaie experiment.

Figuur 3: Fictieve grafiek van het resultaat van het gooien met een zuivere munt.
Het voorbeeld laat echter zien dat je behoorlijk wat moet doen als je toeval wilt aantonen. Hoe kleiner het experiment, des te groter de kans dat je toeval niet kunt uitsluiten.
Dit geldt ook voor het St. Radboud ziekenhuis in Nijmegen, één van de vijf ziekenhuizen in Nederland met een kinderhartafdeling. Begin april 2009 maakte Zembla een televisieuitzending met de titel “Operatie Stilzwijgen”. Daarin kwamen meerdere stilgezwegen missers van ziekenhuizen aan de orde, waaronder fouten op de kinderhartafdeling van het St. Radboud ziekenhuis. Volgens Zembla overleden op deze afdeling over een periode van vijf jaar twee tot zes procent meer kinderen. Deze aantallen werden vervolgens breed uitgemeten in de media. Er kwam veel kritiek op dit item. Niet alleen van het ziekenhuis zelf, maar ook van de onderzoekers die de cijfers hadden opgesteld – de Europese Vereniging van Thoraxchirurgen (EACTS). De percentages bleken gebaseerd op een incomplete database die bovendien nog in ontwikkeling was.
Het effect van toeval was echter iets dat zowel de documentairemakers als de criticasters over het hoofd hadden gezien. Volgens het CBS stierven tussen 1997 en 2007 in Nederland gemiddeld per jaar 25 kinderen tussen de nul en tien jaar aan ziekten aan hart en vaatstelsel. Dat zijn er natuurlijk 25 te veel, maar je kunt je afvragen of deze percentages zo dramatisch hoog zijn. Het is in ieder geval onjuist om te stellen dat op de honderd kinderen er in het St. Radboud twee tot zes kinderen meer overlijden dan elders in Nederland. In Nederland overlijden per jaar namelijk niet zoveel kinderen aan hart- en vaatziekten. Stel dat er jaarlijks wel heel veel kinderen sterven aan hart- en vaatziekten, dan kan je stellen dat het aantal sterfgevallen gelijk verdeeld moet zijn over de vijf ziekenhuizen – Denk daarbij aan de proef met kop of munt. Het sterftecijfer is echter te laag en de bandbreedte van de gepresenteerde percentages te groot, namelijk tussen de twee en zes procent, om toeval te kunnen uitsluiten.
Ik ga er van uit dat ieder van deze 25 kinderen in één van deze ziekenhuizen in behandeling is geweest. De verdeling over de verschillende ziekenhuizen kan dan toevalligerwijs meerdere malen in het nadeel van het St. Radboud uitvallen. Vanzelfsprekend is de voorwaarde dat er geen verschillen bestaan tussen de centra. Gesteld dat één van de vijf ziekenhuizen duidelijk verschilt van de overige vier en dat er in dat ziekenhuis meer sterfgevallen plaatsvinden, is dat het onderzoeken waard. Nu het om 25 gevallen gaat, heeft het toeval volop de gelegenheid om toe te slaan. Toeval bestaat echter niet, menen veel mensen, dus wordt gezocht naar een ‘echte’ oorzaak. De media zagen een berg rijst liggen en zochten een verklaring. Het St. Radboud leed imagoschade en had het nakijken.
Nog meer toeval in de praktijk: de zaak tegen Lucia de Berk
Eén van de meest spraakmakende rechtszaken van de laatste jaren was die tegen de verpleegkundige Lucia de Berk. Zij werd op 18 juni 2004 door het Haagse Hof veroordeeld tot levenslang en TBS voor zeven moorden en drie pogingen tot moord op patiënten in verschillende ziekenhuizen. Hard bewijs tegen De Berk was er niet. Zij was niet op heterdaad betrapt en had altijd volgehouden onschuldig te zijn. Na heropening van de zaak eiste het Openbaar Ministerie op 17 maart 2010 vrijspraak. Dat werd op 14 april 2010 door het Hof bekrachtigd. Lucia de Berk had toen ruim zes jaar onschuldig vastgezeten.
De directe aanleiding voor de verdenkingen tegen Lucia de Berk was het overlijden van een baby in het Juliana Kinderziekenhuis (JKZ) in Den Haag op 4 september 2001. Het ziekenhuis onderzocht vervolgens andere medische dossiers. In totaal werden 1029 diensten op de betrokken afdeling onderzocht, gedraaid door in totaal 27 verpleegkundigen. Tijdens acht diensten vond er een reanimatie-incident plaats. Elk van die incidenten was onverwacht en medisch onverklaarbaar. Bij alle acht was De Berk betrokken. Het JKZ maakte een voorlopige berekening. De kans dat Lucia zo vaak toevallig betrokken was geweest bij een sterfgeval en/of incident, was volgens hen één op zeven miljard. Paul Smits, directeur van het JKZ, maakte op 9 september tijdens een persconferentie bekend dat een verpleegkundige betrokken was bij meerdere verdachte sterfgevallen en reanimaties. Op 17 september 2001 deed het ziekenhuis officieel aangifte tegen De Berk.
Ook de Haagse ziekenhuizen Leijenburg, het Rode Kruis en het Penitentiair Ziekenhuis onderzochten sterfgevallen die onverklaarbaar leken. Lucia de Berk was in die ziekenhuizen vanaf 1997 als verpleegkundige werkzaam geweest. Elk ziekenhuis kwam met een lijst met verdachte sterfgevallen die hadden plaatsgevonden tijdens de diensten van De Berk. Het totale onderzoek betrof aanvankelijk dertig sterfgevallen en incidenten. Al vrij snel kwamen de meeste daarvan te vervallen. Voor al die sterfgevallen was indertijd geen melding gedaan. Ten tijde van het overlijden was bovendien een verklaring van natuurlijke dood getekend.
Kan het toeval zijn dat één verpleegkundige zo vaak bij een incident met fatale afloop is betrokken? Dat was de vraag waar de rechtbank voor stond. Deze vraag werd voorgelegd aan rechtspsycholoog prof. dr. H. Elffers. Volgens de rechtspsycholoog was de kans één op 342 miljoen dat mevrouw De Berk toevallig bij zoveel incidenten aanwezig was geweest, gegeven de voorhanden zijnde gegevens over roosterdata en incidenten. Elffers verwierp dan ook de bewering dat er wel sprake was van toeval en stelde in de Haagse Courant van 30 januari 2004: “Het was geen toeval dat patiënten stierven precies op de momenten dat de verdachte dienst had” Zelf verwoordde hij in STAtOR, een periodieke uitgave van de Vereniging voor Statistiek en Operationele Research, zijn antwoord aan het Haagse gerechtshof als volgt: “Geacht hof, het is geen toeval, de rest is aan u” .
Statistici discussieerden vervolgens in de media over dit getal. Elffers zou de vraag van de rechtbank verkeerd hebben ‘vertaald’ en ook bij zijn berekening werden vraagtekens gezet. Toch nam de rechtbank in haar vonnis van 24 maart 2003 het getal van Elffers over en gaf er een eigen interpretatie aan.
De rechtbank is van oordeel dat uit de door dr. H. Elffers uitgevoerde waarschijnlijkheidsberekeningen, zoals neergelegd in zijn rapport van 29 mei 2002, volgt dat het uitermate onwaarschijnlijk moet worden geacht dat de verdachte de in de tenlastelegging genoemde incidenten bij toeval heeft meegemaakt. Deze berekeningen geven derhalve aan dat het in hoge mate waarschijnlijk is dat er een verband bestaat tussen het werkzaam zijn van de verdachte en het zich voordoen van bedoelde incidenten
* LJN: AF6172, Rechtbank ‘s-Gravenhage , 09/757337-01 en 09/092180-02
De rechtbank maakt hier een beruchte fout, ook wel prosecutor’s fallacy genoemd. Het is een als – dan redenering die niet klopt.
Stel, je bent op zoek naar de verdachte van een tasjesroof in Amsterdam. De dader is omschreven als een roodharige, mank lopende man die langer is dan twee meter. Je laat een statisticus uitrekenen wat de kans is dat iemand voldoet aan al deze kenmerken. Volgens de statisticus is deze kans zeer klein, namelijk één op de 100.000. Met andere woorden, slechts één op de 100.000 mensen voldoet aan alle kenmerken. Toch vind je na lang zoeken in Amsterdam een man die voldoet aan deze omschrijving. Een logische redenering lijkt de volgende.
De kans dat iemand aan al deze kenmerken voldoet is erg klein, namelijk één op de 100.000. Deze man voldoet aan alle kenmerken. Daarom is de kans wel heel klein dat hij niet de dader is. Hij is dus de dader.
Nu bega je een procecutor’s fallacy. Je sluit de kans (bijna) helemaal uit dat hij de tasjesrover niet is. Daarmee haal je twee kansen door elkaar. De eerste kans is dat iemand voldoet aan de beschrijving. De tweede kans is dat iemand voldoet aan de beschrijving en ook nog schuldig is. Dit voorbeeld gaat leven als je het vertaalt naar reële getallen. In de regio Amsterdam wonen ongeveer één miljoen mensen. Dat betekent dat er ongeveer tien mensen rondlopen die voldoen aan het beschreven signalement. Er lopen dus tien mogelijke verdachten in Amsterdam en omgeving rond. De kans dat de door jou gevonden man schuldig is, is één op de tien. De kans dat deze persoon onschuldig is, is negen op de tien.
Terug naar de zaak van “Lucia de B.”, zoals ze in de pers werd genoemd. Elffers berekende op basis van de hem beschikbaar gestelde data de kans, dat de bewering “Het is toeval dat Lucia de Berk zoveel incidenten meemaakte”, juist is. Na zijn berekening kon hij de bewering verwerpen, omdat de kans dat deze waar was zeer klein werd geacht. Hij vertaalt dit door te zeggen dat de kans dat iemand dit toevallig meemaakt zeer klein is.
Hij rekent echter niet de kans op toeval uit in combinatie met schuld of onschuld. Je mag dus niet zeggen: “De kans dat iemand dit toevallig meemaakt is zeer klein. Als Lucia de Berk dit toch meemaakt, moet ze wel schuldig zijn”. Toch interpreteerde de rechtbank zijn getallen op die manier. Misschien werd de rechtbank daarbij geholpen door de uitspraken van de expert Elffers in de media. In het hoger beroep zei het Gerechtshof dat het geen gebruik meer maakte van statistische gegevens en argumentatie, maar bleef dat toch doen. Het werd evident geacht dat zoveel incidenten tijdens Lucia’s diensten geen toeval konden zijn.
Op 2 november 2007 pleitte een groot aantal Nederlandse hoogleraren statistiek en kansberekening voor een heropening van de zaak. Zij overhandigden een ondertekende petitie aan de Minister en Staatssecretaris van Justitie. De Nederlandse Nobelprijswinnaar Natuurkunde Gerard ‘t Hooft merkte bij zijn ondertekening van de petitie op:
“Dat het gerechtshof pretendeert geen statistische argumenten te hebben gebruikt, wordt door de verwoordingen van het vonnis weerlegd. Men laat de getallen, ofwel de wetenschappelijke onderbouwing, achterwege, maar legt wel een a priori verband tussen de diverse sterfgevallen waar Lucia de Berk aanwezig zou zijn geweest. Als men echt de rol van het toeval achterwege had willen laten, had men de zeven gevallen alle afzonderlijk in beschouwing moeten nemen en zich steeds moeten afvragen of er werkelijk sprake is geweest van moord dan wel dood door schuld of nalatigheid. De conclusie dat er van moord of poging tot moord sprake is, kan alleen maar berusten op het argument van de coïncidentie en dat argument had men niet mogen gebruiken. De teksten in het dagboek hadden als aanwijzing kunnen gelden, maar niet als onomstotelijk bewijs. Ik concludeer dat de bewijsvoering hier ondeugdelijk is geweest. Daar medisch personeel nu eenmaal beroepshalve veel betrokken is bij sterfgevallen dient het gerecht daarbij nog meer dan in andere gevallen terughoudend te zijn in aanklachten van dood door schuld, laat staan moord.”
Ook het oordeel van Philip Dawid, professor Statistiek aan de Universiteit van Londen, op 29 september 2007 op novatv.nl is duidelijk:
“Ongeveer elke fout die kon worden gemaakt, is gemaakt. Absoluut. Van het in de eerste plaats inwinnen van advies bij niet professionele mensen, van het niet begrijpen van de subtiliteiten die behoren bij de interpretatie van statistische gegevens, van het gebruik van de verkeerde data tot het manipuleren van de data, het is echt een nachtmerrie!”.
Ik wil met het bovenstaande niet de indruk wekken dat de oorspronkelijke veroordeling van Lucia de Berk puur en alleen op statistische gronden was gebaseerd. Het Openbaar Ministerie droeg ook andere argumenten aan. Het gebeurt echter niet vaak in Nederland dat een statisticus wordt gevraagd om een kansberekening te geven die vervolgens als bewijslast wordt gebruikt.
Kansberekening en statistiek kunnen ook een rol spelen wanneer het gaat om andere soorten bewijsmateriaal. Zo zijn er vele vragen waar een rechter mee te maken kan krijgen alvorens tot een oordeel te komen. Kan je aannemen dat een verdachte schuldig is als vier mensen hem in een line-up aanwijzen als dader? Hoe betrouwbaar is een gevonden DNA-match? Kan het toeval zijn dat er een DNA-match is gevonden? Wat is de kans dat een geurhond het mis heeft bij een geur-indentificatieproef? Hoe nauwkeurig is een snelheidsbepaling bij auto’s? Voor de kansberekening zijn dat essentiële vragen. Bij al deze zaken speelt statistiek een belangrijke rol. Een statisticus die blind vertrouwt op de hem aangeboden data vaart dan ook op ramkoers, zeker in een rechtszaak. Ook andere, niet door het Openbaar Ministerie aangehangen scenario’s, moeten worden bekeken door de deskundigen.
De belangrijkste vervolgvraag is: hoe kwamen de data tot stand? Hoe was de line-up georganiseerd? Wat was de kwaliteit van het DNA materiaal? Onder welke omstandigheden vond de geur-identificatieproef plaats? Waren de acht incidenten in de zaak Lucia de Berk wel echte verdachte incidenten en zo ja, waarom waren andere incidenten dan niet verdacht? Het grote gevaar ligt namelijk op de loer dat onderzoekers van te voren menen te weten wat ze gaan vinden. Als De Berk aanwezig was bij een onverklaarbaar overlijdensgeval wordt dit geval verder onderzocht. Vervolgens is de stap weer wat kleiner geworden om moord te zien als oorzaak van dit overlijden. De gevallen van overlijden waar De Berk niet bij aanwezig was, zullen op hun beurt makkelijker als een natuurlijke dood worden geclassificeerd.
Tot slot mogen deskundigen wat mij betreft ook wel eens tegen een rechter, officier van justitie of advocaat zeggen: “Interessante vraag, maar mijn vakgebied is (of ikzelf ben) nog niet zo ver om deze vraag voor u te beantwoorden. Als ik dus toch een antwoord geef, is de kans groot dat het onzinnig is”.
Tips & Tricks
In dit hoofdstuk keek ik naar de oorzaken van slechte statistiek. Gebruikers zijn vaak gemakzuchtig, staan onder tijdsdruk of zijn op zoek naar een mooi en sterk verhaal. Dat wil nog wel eens uitlopen op het klakkeloos overnemen van cijfers en het maken van fouten. Gelukkig is op basis van gezond verstand vaak al te zien dat iets niet klopt. Wie genadeloos door slechte statistiek heen wil prikken, doet er goed aan een gezond wantrouwen te koesteren tegen:
• statistieken over sociale problemen
• algemene statistieken zonder duidelijke bron
• toppen van ijsbergen
• spectaculaire stijgingen
• grote verschillen tussen groepen
• zeer onwaarschijnlijke gebeurtenissen die voor je gevoel geen toeval kunnen zijn (maar dat volgens een kansberekening wel kunnen zijn)