6.
HET GEMIDDELDE*

* De gulden middenweg

Een statisticus waadde vol vertrouwen door een rivier die gemiddeld één meter diep was. Hij verdronk.

Godfried Bomans

Het gemiddelde is een veel gebruikte maat om aan te geven waar ongeveer het midden ligt in een groep. Met het gemiddelde kun je - net als met het percentage - de resultaten van een onderzoek snel duidelijk maken. Iedereen kan zich er wat bij voorstellen. Daarin schuilt ook het gevaar. Het gemiddelde wordt al snel opgevat als de standaard, redelijk, geldend voor de meesten of het midden. In een land waar normaal al gek genoeg is, zijn dit gevaarlijke vertalingen. We gaan er bij de interpretatie van het gemiddelde bovendien vaak van uit dat er evenveel boven als onder de streep staat. Alsof het gemiddelde het midden is, maar dat hoeft het absoluut niet te zijn. Zo bezit tachtig procent van de wereldbevolking minder dan het gemiddelde.

Als je ergens iets leest over het gemiddelde, wordt meestal het rekenkundig gemiddelde bedoeld. Dat zijn alle waarnemingen bij elkaar opgeteld, gedeeld door het totaal aantal waarnemingen. Een voorbeeld. Volgens het Nationaal Gaming Onderzoek 2008 van TNS NIPO besteden Nederlanders van acht jaar en ouder gemiddeld vier uur per week aan computerspelletjes. Hoe bereken je dat gemiddelde? Houd een week lang alle Nederlanders van acht en ouder in de gaten en noteer hoeveel uur ze aan spelletjes besteden. Tel al die weektotalen bij elkaar op en deel dat door het aantal Nederlanders dat ouder is dan acht jaar. Zo kwam TNS NIPO uit op vier uur per week. Het onderzoeksbureau vroeg vijfduizend mensen naar hun digitale speelgedrag. Als je een gemiddelde wilt berekenen, dan is een dergelijk grote steekproef nodig. Daarmee voorkom je namelijk dat slechts enkele gameverslaafden het gemiddelde omhoog trekken. Hetzelfde geldt voor de non-gamers, want je wilt ook niet dat een paar geheelonthouders je gemiddelde negatief beïnvloeden. In de statistiek worden de waarden die erg ver van het midden liggen outliers of extrema genoemd. Deze extreme waardes kunnen een effect hebben op het gemiddelde. Zoals bovenstaand voorbeeld laat zien, kun je de invloed van deze extremen beperken door een grote steekproef te nemen. Een andere manier om de te grote invloed van extreme waarden bij het berekenen van het gemiddelde te voorkomen, is om deze waarden niet mee te nemen. Dan speel je eigenlijk een beetje vals. Dat gebeurt vaak.

Doe maar extreem, dan doe je normaal genoeg

Soms komen extremen juist goed van pas, bijvoorbeeld als we het centrum van een groep wat hoger of juist lager willen presenteren. Zo kampen de technische opleidingen al jaren met een tekort aan vrouwen. Alle campagnes ten spijt, kiezen vrouwen de afgelopen jaren niet vaker voor een béta-opleiding. In 2008 was slechts vijf procent van alle Nederlandse bètastudenten vrouw. Een hoogleraar Natuurkunde hoorde ik eens in een interview op BNR Nieuwsradio opmerken dat vrouwelijke studentes gemiddeld hoger scoren op toetsen en gemiddeld sneller hun diploma halen. Mede daarom vond zij het jammer dat maar zo weinig meiden voor een bètastudie kozen. Het klinkt vreemd, maar voor de goede prestaties is het juist gunstig dat de dames ver in de minderheid zijn. Hun gemiddelde is namelijk minder gemiddeld dan dat van de mannen. Neem voor het gemak even aan dat het gemiddelde cijfer van de mannelijke studenten een zes is. Die zes kan tot stand komen door alle cijfers van de heren bij elkaar op te tellen en te delen door het aantal mannelijke studenten. Aangezien er nogal wat mannelijke studenten zijn, trekken de prestaties van de grote meute de extreem slechte en goede resultaten naar het midden. Bij de dames ligt dat anders. Daar kan slechts een handjevol goede studentes het gemiddelde van het eveneens kleine totaal van studentes al omhooghalen.

Jos Burgers, auteur van diverse managementboeken over marketing en klanttevredenheid, raadt met een vergelijkbare redenering af om nog langer een klanttevredenheidsonderzoek uit te voeren.

‘Wat heb je daar aan? Het gemiddelde cijfer is bijna altijd een 7,5. En dat komt doordat de ontevreden klanten allang zijn weggelopen. Die spreek je dus helemaal niet meer!’

* Bron: http://www.molblog.nl/bericht/MarketingLive-Jos-Burgers/

De cijfers die overblijven, variëren grofweg tussen de zes en de negen en zo kun je voorspellen dat uit een dergelijk onderzoek meestal een 7,5 komt.

De drie centrummaten

Extremen zijn lastig. Als hun invloed op het (kleine) totaal te groot is, halen ze het gemiddelde sterk omhoog of omlaag. Als extremen te veel opgaan in een grote massa, zie je ze niet of nauwelijks meer terug. In beide gevallen leidt dat tot een onrealistische weergave van de werkelijkheid. Wat zijn de alternatieven? De extremen helemaal uit je berekening laten, is nogal een paardenmiddel. Gelukkig zijn er naast het rekenkundig gemiddelde nog meer manieren om het midden van een groep uit te drukken. Je kunt centrummaten gebruiken zoals de modus en de mediaan die zich minder sterk laten beinvloeden door extreme waardes. Hoewel gemiddelde, modus en mediaan alle drie het midden weergeven, zijn er wel degelijk verschillen. De modus is het meest voorkomende getal in een reeks getallen. De mediaan is het getal dat precies in het midden van de getallenreeks ligt en dus het echte midden aangeeft. Helaas zijn deze twee maten minder bekend bij het grote publiek. Ze worden wel eens gebruikt, maar dat is niet altijd terug te vinden in de presentatie van de onderzoeksresultaten. In praktijk worden de drie maten soms door elkaar gehaald, bijvoorbeeld in Engelstalige teksten. Mean, mode en median zijn de Engelse termen voor de centrummaten, maar kunnen alle drie ook met de term average worden aangeduid. Average wordt echter meestal beschouwd als het rekenkundig gemiddelde.

Met een simpel sommetje kun je de verschillen tussen de drie centrummaten duidelijk zien. Halverwege 2009 was mijn…

1. jongste zoon 2 jaar

2. oudste zoon 4 jaar

3. zus 37 jaar

4. broer 35 jaar

5. vader 66 jaar

6. grootmoeder 96 jaar

7. grootvader 94 jaar

8. eigen leeftijd 35 jaar

Op basis van deze acht cijfers kun je de volgende berekeningen maken:

Gemiddelde

46,13

2 + 4 + 37 + 35 + 35 + 66 + 96 + 94/8

Modus

35

komt het meest voor

Mediaan

36

ligt precies in het midden

Figuur 8: Berekening van het gemiddelde, de modus en de mediaan

Zoals je ziet, zijn er nogal wat verschillen tussen de modus en de mediaan aan de ene kant en het gemiddelde aan de andere kant. Het nadeel van de modus is dat sommige waarden bij toeval gelijk kunnen zijn. In dit geval zijn dat de leeftijden van mijn tweelingbroer en mij. Waren mijn opa en oma even oud geweest en had ik geen tweelingbroer gehad, dan was de modus juist erg hoog uitgevallen. De mediaan geeft in bovenstaand voorbeeld dan ook het beste het echte centrum of midden weer, maar de mediaanmaat is niet efficiënt. Niet alle aanwezige informatie wordt namelijk benut. Dat gebeurt wel bij het gemiddelde maar zoals we al zagen, hebben uiterste waarden weer een sterke invloed op deze maat. In dit geval zorgen mijn grootouders er voor dat het gemiddelde behoorlijk omhoog wordt getrokken. Daarom ligt het gemiddelde in dit voorbeeld juist het verst verwijderd van het midden.

In praktijk kleven aan alle drie de centrummaten dus wat nadelen. Welke kun je dan het beste kiezen? Dat brengt ons weer terug bij hoofdstuk vier over de steekproef. Het effect van een kleine steekproef is in bovenstaand voorbeeld duidelijk zichtbaar. Welke centrummaat je ook gebruikt, over het algemeen geldt dat de steekproef groot genoeg moet zijn om tot zinnige uitspraken te kunnen komen. Als de steekproef groot genoeg is, is de kans groot dat er ongeveer evenveel hoge als lage extremen zijn. De extrema vallen dan als het ware tegen elkaar weg en de meeste waarden zullen zich rond het gemiddelde bevinden. In zo’n geval liggen de modus, de mediaan en het gemiddelde vrij dicht bij elkaar.

Het venijn zit hem in de staart

Niet alleen extreme waardes kunnen het gemiddelde beïnvloeden en daarmee een vertekend beeld van de werkelijkheid geven. Statistici kunnen ook te maken krijgen met een ongelijke of scheve verdeling van waardes. In grafiekvorm kan een scheve verdeling er als volgt uitzien:

Figuur 9: Grafiek met een scheve verdeling - in dit geval van het besteedbaar inkomen van Nederlandse huishoudens in 2007. Bron: cijfers afkomstig van het CBS.

In figuur 9 zien we het aantal huishoudens op de verticale as, afgezet tegen het besteedbaar inkomen op de horizontale as. Na 30.000 neemt het aantal huishoudens dat meer heeft te besteden in een rap tempo af. Zo ontstaat aan de rechterkant een staart. Het kan natuurlijk ook dat een bepaalde waarde aan de linkerkant een staart laat zien. Een dergelijke grafiek heet in statistisch jargon een scheve verdeling. Welk effect heeft een scheve verdeling nu op het bepalen van het midden? Dat zie je als je de verschillende centrummaten uitrekent. In 2007 was het gemiddelde besteedbare inkomen ongeveer 31.500. De mediaan geeft aan dat de helft van de Nederlandse huishoudens minder dan 23.000 heeft te besteden. De andere helft heeft juist meer te besteden. De grootste groep huishoudens – de modus – heeft een besteedbaar inkomen tussen de 16.000 en 18.000. In een scheve verdeling zoals hierboven, met de staart aan de rechterkant, is het gemiddelde meestal groter dan de mediaan en de mediaan is op zijn beurt weer groter dan de modus. Eigenlijk geeft de modus bij een scheve verdeling het best het midden weer. Kortom, een scheve verdeling zorgt er voor dat, zelfs met een grote steekproef, de centrummaten ver uit elkaar komen te liggen.

Het is vaak niet meteen duidelijk wanneer het gaat om een scheve verdeling. Het gevaar ligt op de loer dat je met een rekenkundig gemiddelde gaat rekenen terwijl het midden in werkelijkheid hoger of lager ligt. Een voorbeeld illustreert dat. Volgens een onderzoek van Multiscope brengen Nederlanders samen maandelijks ongeveer zeventig miljoen uur door op de sites van Google, Hyves en Nu.nl. In april 2008 brachten verschillende media dit als nieuws. Een indrukwekkend cijfer. De onderzoekers komen tot dit cijfer door eerst elk individueel bezoek op deze sites te registreren. Ook als één persoon meerdere keren per uur de site bezoekt. Vervolgens vermenigvuldigt Multiscope het totale aantal individuele bezoeken met de gemiddelde duur van een bezoek. Nu is de kans groot dat de gemiddelde duur scheef is verdeeld. Het overgrote deel van de bezoekers van Google en Nu.nl zit hooguit enkele minuten op de site. Dat resulteert in een verdeling met een staart aan de rechterkant. Bij Hyves is het waarschijnlijk precies andersom. Hyves is een social networking site. Daar zullen de meeste bezoekers langer op blijven hangen dan bij een zoekmachine of een site voor kort nieuws. De kans is dan ook groot dat de grafiek van de Hyvesbezoeken een scheve verdeling aan de linkerkant laat zien. We hadden gezien dat bij scheve verdelingen de modus het best het echte midden aangeeft want dat is de waarde die het meest voorkomt. We hebben ook gezien dat in een scheve verdeling het rekenkundig gemiddelde juist het verst af ligt van de modus. Voor Google en Nu.nl, die qua duur een staart aan de rechterkant hebben, valt het rekenkundig gemiddelde dus waarschijnlijk fors hoger uit dan de modus. Bereken je vervolgens het totaal aantal uren op basis van het rekenkundig gemiddelde, dan kan het eindcijfer veel hoger uitvallen dan in werkelijkheid het geval is. Let dus goed op bij cijfers die gebaseerd zijn op vermenigvuldigingen met gemiddelden. Meestal zal het hier om een rekenkundig gemiddelde gaan, waarbij niet alleen extremen, maar ook een scheve verdeling parten kunnen spelen. Die nuance zie je niet terug in de uitkomst van de berekening.

De kunst van het weglaten

Net als bij het percentage ontbreken bij het gemiddelde vaak de belangrijkste gegevens. De gegevens zijn zo goed als waardeloos, zolang de grootte van de steekproef niet bekend is, of hoe men is omgegaan met extreme waardes, of welke centrummaat is gebruikt.

Zo luisterde ik op 22 januari 2009 naar een kort interview op Radio 1 met Ruud Huirne, directeur van het Landbouw Economisch Instituut (LEI). Hij vertelde aan interviewer Trudy van Rijswijk een, op het eerste gehoor, alarmerend verhaal. De inkomens in de land- en tuinbouw waren in 2008 met gemiddeld 41 % gedaald. Dat klonk als een grote daling, maar de mededeling wekte meer vragen dan antwoorden op. Ten opzichte van wat waren de inkomens gedaald en was de daling voor elk onderdeel van de sector even groot? Om bijvoorbeeld tot het algemene gemiddelde van 41 % te komen, moet het LEI het gemiddelde in elk van de branches meten.

Een gemiddelde dat is opgebouwd uit verschillende groepsgemiddeldes, noem ik een overstijgend gemiddelde. Een gemiddelde van gemiddelden dus. Extreme waardes kunnen vanzelfsprekend de hoogte van een overstijgend gemiddelde onevenredig beïnvloeden, net zoals dat het geval kan zijn bij het berekenen van één enkel gemiddelde. In het geval van het LEI kan elk branchegemiddelde te maken hebben gehad met uitschieters. Stel dat een aantal pluimveehouders in Limburg is getroffen door een lokale kippenziekte, dan beïnvloeden de lagere inkomsten van dit kleine clubje het gemiddelde van de overige pluimveehouders. Het totale gemiddelde van de pluimveehouders beïnvloedt vervolgens het algemene, of overstijgende, gemiddelde van de land- en tuinbouwsector. Om te bepalen of een inkomensdaling in de land- en tuinbouw van gemiddeld 41 % groot is, is dus meer informatie nodig. In het NOS Journaal van 22 januari 2009 kregen we nog te horen dat vissers er ten opzichte van 2007 iets op vooruit waren gegaan en dat de pluimveehouders en de tuinbouwers er gemiddeld op achteruit waren gegaan. Alleen voor de tuinbouw werd de exacte daling vermeld: het ging om een daling van 72 % ten opzichte van 2007. Misschien trok het tuinbouwgemiddelde het algemene gemiddelde van de agrarische sector omlaag? In het rapport op de website van LEI is echter geen toelichting te vinden bij deze cijfers. Ook het gemiddelde van 41 % is niet terug te vinden in het rapport.

Ter afsluiting van dit hoofdstuk over het gemiddelde volgt nog een voorbeeld uit de praktijk. Zoals in hoofdstuk vijf over percentages is te lezen, is het belangrijk om te weten welke cijfers achter de percentages zitten. Bij een gemiddeld percentage loop je anders het risico van een dubbel gebrek aan gegevens. Allereerst moeten we weten hoe de percentages zijn opgebouwd: een daling ten opzichte van wat? Ten tweede moeten we informatie krijgen over de samenstelling van het percentage: zaten er in een kleine groep misschien wat forse uitschieters bij?

Wat bijvoorbeeld te denken van de volgende nogal kromme tekst op een zak chips:

> 30% minder vet dan gemiddeld in andere chips

De tekst zal niet onjuist zijn want dat mag niet van de reclamecodecommissie. Wat wel mag, is het toevoegen van nietszeggende teksten op verpakkingsmateriaal. Slechts een enkeling weet waarschijnlijk hoeveel vet er normaliter in chips zit, laat staan dat er iemand weet hoeveel vet er gemiddeld in chips zit. Daarvoor zou je immers van alle soorten chips moeten weten hoeveel vet er in zit en dat delen door alle soorten. Dan moet je ook nog weten wat de fabrikant bedoelt met “andere chips”. Zijn dat chips van dezelfde soort of juist alle soorten chips? Is er bij het berekenen van het gemiddelde gekeken naar zeer vette of juist vetarme chips? Het is een geruststellende gedachte dat je één ding zeker weet. Ook in deze zak zitten vette chips.

Tips & Tricks

De tips die ik in dit hoofdstuk meegeef, zijn voor een groot gedeelte gelijk aan die uit hoofdstuk vijf over het percentage. Zowel percentage als gemiddelde zijn vanwege hun eenvoud veel gebruikte statistische hulpmiddelen en het gekonkel vindt door middel van dezelfde trucs plaats.

Stel jezelf bij het gebruik van een gemiddelde de volgende vragen:

• Over welk midden gaat het precies bij een bepaald gemiddelde? Gaat het om het gemiddelde, de mediaan of de modus

• Uit welke waarden bestaat dit gemiddelde? Zitten daar extreme waarden bij? Waar staan de cijfers achter de centrummaat precies voor

• Waarom presenteert men juist deze centrummaat

• Hoe groot was de steekproef

• Wie heeft het onderzoek uitgevoerd

• Welke cijfers laat de gebruiker weg

• Waarom wil iemand juist deze cijfers presenteren

• Vraag je vooral af wat er niet staat