Hoofdstuk 12 Verdelingsvormen en -maten

In dit hoofdstuk wordt besproken:
  • modaliteit
  • skewness
  • kurtosis
  • normaalverdeling
  • standaard normaalverdeling
  • visualisaties van verdelingen.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek (PB0212)
  • Onderzoekspracticum cross-sectioneel onderzoek (PB0812)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Data
  • Beschrijvingsmaten

12.1 Inleiding

Datareeksen bestaan vaak uit honderden of duizenden datapunten. Het is daarom niet goed mogelijk om een overzicht te krijgen van de verzamelde data door naar die ruwe datapunten te kijken. Bovendien zijn de individuele datapunten vaak ook niet van belang: datareeksen worden meestal verzameld om informatie te krijgen over een populatie. Omdat die populaties bijna altijd zijn gedefinieerd als oneindig groot, zijn de patronen in datareeksen belangrijker dan individuele datapunten.

Datareeksen hebben altijd een verdeling. In de statistiek zijn allerlei verdelingsvormen bekend die gebruikt kunnen worden om data efficiënt te beschrijven. Figuur 12.1 laat een aantal van deze verdelingsvormen zien. In de rest van dit hoofdstuk zullen verdelingsvormen en de bijbehorende maten verder worden toegelicht.

Een illustratie van verschillende verdelingsvormen.

Figuur 12.1: Een illustratie van verschillende verdelingsvormen.

12.2 Verdelingsvormen

In het hoofdstuk Beschrijvingsmaten bespraken we handige maten om onze datapunten weer te geven, zoals het gemiddelde en de standaarddeviatie. Hiermee weten we om welke waarde datapunten heen liggen en we weten hoe dicht ze bij dat gemiddelde in de buurt liggen. Het enige dat nu nog ontbreekt, is informatie over de manier waarop de datapunten om het gemiddelde heen liggen, met andere woorden de verdelingsvorm (Engels: ‘distribution’) van de datapunten.

Hieronder in Figuur 12.2 zie je de datareeks van de flipperlengte van een groep pinguïns op Antarctica. De gemiddelde lengte is \(201\) millimeter; de standaarddeviatie is \(14.02\).

Histogram van de verdeling van de pinguïn flipperlengte

Figuur 12.2: Histogram van de verdeling van de pinguïn flipperlengte

Uit deze figuur valt duidelijk op te maken dat de flipperlengte niet mooi verdeeld is. Er staan meer scores links van het gemiddelde dan rechts van het gemiddelde. Dit zou kunnen komen doordat de gemiddelde flipperlengte voor mannetjes en vrouwtjes verschilt. Of doordat er toevallig een aantal pinguïns met erg korte flippers aan het onderzoek hebben meegedaan.

Bovenstaande figuur geeft de verdelingsvorm van de data als histogram weer. Hier correspondeert de horizontale as (x-as) met de schaal van de datareeks (in het voorbeeld de verschillende flipperlengtes). De hoogte van het balkje staat voor het aantal datapunten met een bepaalde waarde. De hoogte van het balkje staat voor het aantal datapunten met een bepaalde waarde. Bij een histogram worden de datapunten altijd samengevoegd in groepen. In dit geval is de x-as in tien delen gesplitst en binnen elke deel zijn alle datapunten opgeteld om de hoogte van het balkje in dat deel te bepalen. Het is belangrijk om op te merken dat de indelingen van de getallen op de x-as automatisch wordt ingesteld als het histogram wordt gemaakt met statistische software. Wat een bruikbare breedte is, wisselt per datareeks.

De verdelingsvorm van data wordt meestal bepaald door te kijken naar een grafische weergave van de data, een zogenaamde plot of grafiek. Een histogram is hier een voorbeeld van. Puur kijken naar een grafiek zorgt ervoor dat de verdelingsvorm soms open is voor interpretatie. Daarom zijn er naast visuele hulpmiddelen ook kwantitatieve indicatoren voor een verdelingsvorm, de zogenaamde verdelingsmaten.

Over het algemeen zijn er drie termen die gebruikt worden om een verdelingsvorm te beschrijven, de modaliteit (‘toppigheid’), de scheefheid (‘skewness’) en de spitsheid (‘kurtosis’) van een verdeling. De mate van aanwezigheid van deze vormen kunnen getoetst worden met de volgende verdelingsmaten: de Hartigans’ dip test (unimodaliteit), skewness (scheefheid) en kurtosis (spitsheid).

Hieronder worden deze verschillende verdelingsvormen en de bijbehorende verdelingsmaten besproken.

12.2.1 Modaliteit of ‘toppigheid’

Modaliteit of toppigheid beschrijft het aantal toppen van een verdeling. Het begrip ‘modaliteit’ komt van ‘modus’, dus de meest voorkomende waarde in een datareeks. De modus vormt een ‘top’ in de verdeling van de data.

Verdelingen kunnen één of meerdere toppen hebben. Een verdeling met één top wordt unimodaal of eentoppig genoemd, en een verdeling met meer toppen wordt multimodaal of meertoppig genoemd. Hier zijn weer specifieke varianten van zoals de bimodale of tweetoppige verdeling.

Twee histogrammen met een unimodale (eentoppige) en een bimodale (tweetoppige) verdeling

Figuur 12.3: Twee histogrammen met een unimodale (eentoppige) en een bimodale (tweetoppige) verdeling

In Figuur 12.3 is de modaliteit van de data duidelijk te zien. Maar het is niet altijd duidelijk hoeveel toppen een verdeling heeft.

Het uiteindelijke doel is om op basis van de verdelingsvorm in een streekproef iets te kunnen zeggen over de verdelingsvorm van de populatie. Zijn hier duidelijk twee toppen te identificeren of waren er toevallig wat minder deelnemers rondom het gemiddelde? Deze ambiguïteit kan komen door de steekproeffout en meetfout, maar het kan ook zijn dat de populatie een beeld geeft dat moeilijk te duiden is.

Onderzoekers moeten steeds de meest logische verklaring vinden, gegeven de aard van de data en eerdere onderzoeken. Je moet dus je conclusies kunnen onderbouwen.

In de praktijk zijn multimodale verdelingen vaak een indicatie dat de populatie uit meerdere subpopulaties bestaat. Neem bijvoorbeeld lengte (volgens het CBS; zie de link hieronder). Bij vrouwen ligt de modus tussen de \(1,68\) en de \(1,72\) meter en bij mannen tussen de \(1,78\) en \(1,82\) meter. De verdeling van lengte is dus bimodaal omdat de populatie Nederlanders uit twee subpopulaties bestaat – mannen en vrouwen – die in het kader van lengte relevant zijn om te onderscheiden.

Link verwijst naar de CBS cijfers over lengte en gewicht, uitgesplitst naar geslacht

Gaat hetzelfde op voor het voorbeeld van de flipperlengte van pinguïns? In theorie is het mogelijk dat de data een multimodale verdeling heeft, waarbij het gemiddelde van vrouwelijke pinguïns wat lager ligt dan dat van mannelijke pinguïns. Maar dit is niet heel duidelijk te zien uit de data. Daarom kijken we ook naar de verdelingsmaat.

De verdelingsmaat die hoort bij modaliteit is de Hartigan’s diptest. Deze test geeft een indicatie van de unimodaliteit van een verdeling. Een perfect unimodale verdeling heeft een diptestwaarde van \(0\). Naarmate een verdeling ‘meertoppiger’ lijkt te zijn – dus minder duidelijk eentoppig – wordt deze waarde steeds groter.

De uitkomst van de diptest voor de flipperlengte van pinguïns is \(0,035\). Hieruit valt op te merken dat deze waarde dicht bij \(0\) ligt en het niet erg waarschijnlijk is dat de verdeling meer dan één top heeft, oftewel waarschijnlijk is de verdeling unimodaal. Er zijn geen concrete vuistregels wanneer de waarde groot genoeg is om te spreken van bimodaliteit.

Maak er een gewoonte van om altijd zowel de grafiek als de verdelingsmaat van een variabele te bekijken. Verdelingsmaten zijn informatief, maar niet altijd gemakkelijk te interpreteren, vooral in combinatie met andere verdelingsmaten.

12.2.2 Scheefheid (‘skewness’)

Scheefheid, oftewel ‘skewness’ in het Engels, beschrijft of een verdeling symmetrisch of asymmetrisch is. Een scheve verdeling is asymmetrisch. Dit betekent dat de meeste datapunten aan één kant van de schaal liggen. Een (eentoppige) verdeling kan symmetrisch, linksscheef (negatief scheef) of rechtsscheef (positief scheef) zijn (zie Figuur 12.4).

In een symmetrische (eentoppige) verdeling liggen de meeste datapunten rondom het gemiddelde en zijn er steeds minder datapunten naarmate de afstand tot het gemiddelde toeneemt. De verdeling heeft de vorm van een klok en wordt in het Engels ook wel aangeduid met ‘bell curve’.

Bij een linksscheve verdeling liggen er minder datapunten aan de linkerkant van het gemiddelde. De meeste datapunten liggen dus aan de rechterkant en er is een staart met datapunten relatief ver weg van het gemiddelde aan de linkerkant. Bij een rechtsscheve verdeling liggen juist de meeste datapunten links van het gemiddelde. Rechts van het gemiddelde liggen minder datapunten in een staart.

Drie histogrammen met een linksscheve, een symmetrische en een rechtsscheve verdeling

Figuur 12.4: Drie histogrammen met een linksscheve, een symmetrische en een rechtsscheve verdeling

Scheve verdelingen kom je bijvoorbeeld tegen bij indicatoren voor ‘gepest worden’, ‘depressie’ of ‘burn-out’. Gelukkig worden de meeste kinderen niet of zelden gepest en hebben de meeste mensen geen of nauwelijks symptomen van depressie of burn-out. De grootste hoeveelheid datapunten vind je dus aan de linkerkant van de grafiek, bij lage scores op de variabele. Helaas zijn er wel enkele kinderen die vaak gepest worden of mensen met een ernstige depressie of burn-out. Deze mensen vormen de ‘staart’ van de verdeling, met hoge scores op de betreffende variabele. In al deze gevallen valt dus een rechtsscheve verdeling te verwachten.

De verdelingsmaat voor scheefheid heet ook skewness. Bij een perfect symmetrische verdeling ligt deze maat in de buurt van \(0\). Naarmate een verdeling meer linksscheef is, wordt de skewness steeds kleiner (dat is, meer negatief) en naarmate een verdeling meer rechtsscheef is, wordt de skewness steeds groter (dat is, meer positief).

Er zijn verschillende vuistregels wanneer er gesproken kan worden van een afwijking van normaliteit. Een meer conservatieve vuistregel legt deze bij een skewness van \(-1/1\), meer liberale vuistregels spreken pas van schending bij een skewness van \(-3/3\).

12.2.3 Spitsheid (‘kurtosis’)

Spitsheid oftewel ‘kurtosis’ beschrijft hoe spits of plat een verdeling is (zie Figuur 12.5). Het extreemste voorbeeld is een verdeling waarbij alle datapunten dezelfde waarde hebben: spitser kan een verdeling niet. Omgekeerd is de ‘platste’ verdeling de verdeling waarbij alle waarden even vaak voorkomen. Dit heet ook wel een uniforme verdeling. Een verdeling die erg spits is heet een leptokurte verdeling (‘lepto-’ staat voor ‘spits’). Een verdeling die erg plat is heet een platykurte verdeling (‘platy-’ staat voor ‘plat’).

Twee histogrammen met een platykurte en een leptokurte verdeling

Figuur 12.5: Twee histogrammen met een platykurte en een leptokurte verdeling

Een voorbeeld van een spits-verdeelde variabele is de leeftijd van kinderen die in dezelfde groep op school zitten. Hun leeftijden zullen erg op elkaar lijken. Daardoor liggen alle datapunten dicht bij elkaar. De leeftijd van alle Nederlanders is in vergelijking hiermee juist erg breed verdeeld.

De verdelingsmaat die bij spitsheid hoort, heet ook kurtosis. De kurtosis is \(0\) bij een perfect normale verdeling. Naarmate een verdeling platter is, wordt de kurtosis steeds kleiner (dat is, meer negatief) en naarmate een verdeling spitser is, wordt de kurtosis steeds groter (dat is, meer positief).

Er zijn verschillende vuistregels wanneer er gesproken kan worden van een afwijking van normaliteit. Een meer conservatieve vuistregel legt deze bij een kurtosis van \(-1/1\), meer liberale vuistregels spreken pas van schending bij een kurtosis van \(-3/3\).

12.3 Normale verdelingen

In deze overzichten met verdelingen is er één verdeling die vaker terugkomt: een unimodale, symmetrische verdeling, die niet bijzonder plat of spits is. Omdat deze verdeling niet op de een of andere manier afwijkend is, wordt deze verdeling de normale verdeling genoemd, oftewel de normaalverdeling. Deze verdeling heeft een aantal kenmerken, waarvan de eerste drie al zijn genoemd.

  • De normaalverdeling is unimodaal.
  • De normaalverdeling is niet scheef (en dus perfect symmetrisch).
  • De normaalverdeling is niet bijzonder spits of plat.
  • \(68\%\) van de datapunten (ongeveer twee derde) ligt binnen ongeveer één standaarddeviatie van het gemiddelde.
  • \(95\%\) van de datapunten ligt binnen ongeveer twee standaarddeviaties van het gemiddelde.
  • \(99,7\%\) van de datapunten (dus bijna allemaal) ligt binnen ongeveer drie standaarddeviaties van het gemiddelde.

De normale verdeling is de maatstaf voor de verdelingsmaten die hierboven besproken zijn. Een perfect normale verdeling is namelijk unimodaal (diptest = \(0\)), perfect symmetrisch (skewness = \(0\)) en niet bijzonder spits of plat (kurtosis = \(0\)) (zie Figuur 12.6). Vaak zal je in steekproeven een verdeling vinden die dicht in de buurt komt van een perfect normale verdeling, maar het toch net niet is. De bijbehorende waarden zullen dan iets van nul afwijken. Maar als een verdeling erg in de buurt komt van een perfecte normale verdeling mag in de praktijk nog steeds gesproken worden van een normale verdeling.

Tekening van een normale en een niet-normale verdeling. Artwork door Allison Horst.

Figuur 12.6: Tekening van een normale en een niet-normale verdeling. Artwork door Allison Horst.

De normale verdeling is belangrijk in de psychologie, onderwijswetenschappen en andere wetenschappen omdat veel variabelen in de natuur normaal verdeeld zijn. Bovendien is ook ruis, zoals meetfout, normaal verdeeld. Al in de zeventiende eeuw was dit Galileo opgevallen, maar het duurde nog tot 1809 tot Gauss de formule voor de normaalverdeling ontwikkelde en aantoonde dat ruis, zoals meetfouten, volgens deze normaalverdeling waren verdeeld. De aanname van een normale verdeling ligt ten grondslag aan veel statistische analyses die je in de loop van je studie nog zal tegenkomen.

12.3.1 Standaardnormale verdeling en z-scores

Een speciale vorm van de normale verdeling is een normaalverdeling met een gemiddelde van \(0\) en een standaarddeviatie van \(1\). Dit heet een standaardnormale verdeling of z-verdeling (zie Figuur 12.7).

Standaardnormale verdeling

Figuur 12.7: Standaardnormale verdeling

Deze z-verdeling is handig, want van elk datapunt in die verdeling is gelijk duidelijk hoe ver het van het gemiddelde ligt. Datapunten in een z-verdeling heten z-scores. Als een datapunt een z-score van \(2\) heeft, betekent dit dat dit datapunt \(2\) standaarddeviaties boven het gemiddelde ligt. Dat betekent ook dat slechts \(2,5\%\) van de datapunten nog hoger ligt dan dat datapunt. We zagen net namelijk dat \(95\%\) van de datapunten binnen twee standaarddeviaties van het gemiddelde ligt, dat is \(2,5\%\) aan elke kant van de verdeling.

Omdat je van een z-score weet hoe ver deze van het gemiddelde ligt, kan het handig zijn om datapunten om te rekenen in z-scores. Dit proces heet standaardisering. Je kunt een waarde standaardiseren door het gemiddelde van deze waarde af te trekken en dat te delen door de standaarddeviatie. Dit is in onderstaande formule weergegeven.

\[\begin{equation} z = \frac{x_i - \overline{x}}{sd_x} \tag{12.1} \end{equation}\]

Laten we als voorbeeld de leeftijd van de familie uit het hoofdstuk Beschrijvingsmaten nemen. De elf leeftijden van deze familie zijn

\[1\quad 7\quad 7\quad 9\quad 13\quad 37\quad 37\quad 35\quad 38\quad 63\quad 39\quad\]

Het gemiddelde was 26 en de standaarddeviatie was 19.52. Nu hebben we alle gegevens om voor elke leeftijd de bijbehorende z-score te berekenen. Deze scores zijn respectievelijk:

-1.28 -0.97 -0.97 -0.87 -0.67 0.56 0.56 0.46 0.61 1.9 0.67

Op deze manier is gemakkelijk van elk datapunt te zien hoe het zich verhoudt tot de gehele datareeks, zoals samengevat door het gemiddelde en de standaarddeviatie. We kunnen zo in één oogopslag vaststellen dat het datapunt met een z-score van \(-1,28\) een stuk onder het gemiddelde ligt. Er is geen sprake van heel extreme waardes; de absolute z-scores zijn namelijk allemaal kleiner dan \(3\) en zelfs kleiner dan \(2\). Dit betekent dat alle leeftijden minder dan twee standaardeviaties afwijken van het gemiddelde.

Let op, de standaardisering van waarden verandert de onderliggende verdeling van deze waarden niet. Een scheve verdeling zal na standaardisering net zo scheef blijven. Hoewel we dus van z-scores spreken betekent dit niet dat deze scores noodzakelijkerwijze volgens de normale verdeling (z-verdeling) zijn verdeeld. Om dit te bepalen moet je de verdeling in een grafiek bekijken.

Psychologen werken vaak met gestandaardiseerde waarden. De z-score geeft aan hoe ver een waarde van het gemiddelde afligt. Als de betreffende variabele ook nog normaal verdeeld is, geeft de z-score bovendien informatie over hoe extreem dat datapunt is, omdat we weten welke proportie van de datapunten op welke afstand van het gemiddelde ligt. Verder maakt standaardisering de vergelijking mogelijk tussen variabelen die op verschillende schalen gemeten zijn. Standaardisering vertaalt de datareeksen naar dezelfde schaal, waarbij \(0\) staat voor het gemiddelde en \(1\) staat voor één standaarddeviatie. Z-scores kunnen dus in statistische analyses erg handig zijn en je zult deze in het vervolg van je studie nog vaker tegen komen.

12.4 Verdeling van steekproefscores en conclusies over de populatieverdeling

Tot nu toe zijn aan bod gekomen de verschillende vormen die een verdeling kan hebben en hoe je deze vormen aan de hand van grafieken en verdelingsmaten kunt herkennen. Over het algemeen is de verdeling van een bepaalde variabele in een steekproef niet zo interessant, maar wel die verdeling in de populatie, de populatieverdeling. Tegelijkertijd kunnen we deze verdeling nooit helemaal kennen. Daarom maken we gebruik van die steekproeven. Door de verdeling van steekproefscores te bekijken, ontstaat er een beeld over de populatieverdeling. Hoe groter de steekproef, hoe kleiner de rol van toeval – in de vorm van steekproeffout en meetfout – en hoe meer de verdeling van steekproefscores gaat lijken op de populatieverdeling.

Het bepalen van de vorm die de populatieverdeling waarschijnlijk heeft aan de hand van de verdeling van steekproefscores is noodzakelijkerwijs een subjectief proces. Vooral als de verdeling van de steekproefscores een ambigu beeld geeft, is het moeilijk om als onderzoeker conclusies te trekken over de populatieverdeling. Zijn de outliers echte outliers of komen deze in de populatieverdeling ook wel vaker voor? Is een verdeling die bimodaal lijkt daadwerkelijk bimodaal of zijn er toevallig minder respondenten in de steekproef met een gemiddelde waarde? Is de ruis in de data meetfout of is de realiteit gewoon rommelig?

Tijdens je studie doe je ervaring op in het trekken van conclusies op basis van statistische informatie. Hierbij is het belangrijk om steeds kritisch naar het volledige plaatje te kijken. Dit houdt in dit geval in dat je naar de grafieken en verdelingsmaten kijkt, maar maak ook gebruik van andere informatiebronnen. Kijk bijvoorbeeld naar eerdere onderzoeken met vergelijkbare variabelen, naar de score van een deelnemer die opvalt op andere variabelen en naar de context van het onderzoek.

Als onderzoeker is het je taak de meest logische verklaring te vinden gegeven de aard van de data en eerdere onderzoeken. Deze verklaringen moet je steeds kunnen onderbouwen met een overtuigende redenering. Verschillende onderzoekers kunnen het oneens zijn over bepaalde conclusies. Daarom is het belangrijk om transparant te zijn in de beslissingen die je als onderzoeker neemt en om de achterliggende redenering helder weer te geven.

12.5 Visualisaties van verdelingsvormen

Tot zover heb je kennis gemaakt met verschillende verdelingsvormen en hoe deze middels histogrammen worden gevisualiseerd. Er zijn veel verschillende manieren om de verdeling van data punten te visualiseren. Hieronder worden enkele grafieken geïntroduceerd die je in het vervolg van je studie en in wetenschappelijke artikelen vaker zal tegenkomen. Elke grafiek heeft zijn eigen voor- en nadelen. Om uitspraken te doen over de verdeling van een datareeks is het daarom belangrijk verschillende visualisaties te bekijken.

12.5.1 Density plots

De normaalverdeling, zoals eerder besproken, wordt meestal niet weergegeven in een histogram, maar met een mooie soepele lijn, zoals in Figuur 12.8.

Normaalverdeling weergegeven als density plot met een perfecte klokvorm

Figuur 12.8: Normaalverdeling weergegeven als density plot met een perfecte klokvorm

Deze lijn geeft de zogenaamde ‘dichtheid’ (‘density’ in het Engels) van de verdeling aan, oftewel hoeveel datapunten er voor een gegeven meetwaarde zijn, en wordt daarom ook wel een density plot genoemd. Een density plot heeft altijd een oppervlakte van \(1\). Deze plot drukt uit welke proportie van de datapunten ergens zit ten opzichte van het totale aantal datapunten. Density plots zijn daarom heel handig om de kans op een bepaalde waarde af te lezen. Deze kans correspondeert namelijk met het deel van de density plot dat links of rechts van die gegeven waarde ligt.

Bijvoorbeeld bij de normale verdeling in Figuur 12.9 ligt \(68\%\) van de datapunten altijd binnen ongeveer één standaarddeviatie van het gemiddelde, \(95\%\) van de datapunten ligt binnen ongeveer twee standaarddeviaties van het gemiddelde en \(99,7\%\) van de datapunten ligt binnen ongeveer drie standaarddeviaties van het gemiddelde. Dit is te zien in de density plot van de normaalverdeling. Hieronder hebben wij een verticale lijnen getrokken bij \(-3\), \(-2\), \(-1\), \(1\), \(2\) en \(3\) standaarddeviaties.

Normaalverdeling weergegeven als density plot met verticale lijnen bij één, twee en drie standaarddeviaties van het gemiddelde

Figuur 12.9: Normaalverdeling weergegeven als density plot met verticale lijnen bij één, twee en drie standaarddeviaties van het gemiddelde

Een density plot is niet de enige grafiek die informatief is over de normaalverdeling. Het kan ook handig zijn om een histogram van een steekproef te interpreteren.

12.5.2 Histogrammen met ‘normal curves’

De histogrammen die je tot nu toe gezien hebt, waren voor het grootste deel de simpelste vormen. Simpelweg histogrammen die bestonden uit opgestapelde blokjes, waarbij elk blokje voor één deelnemer (datapunt) stond, en waarbij die blokjes op de x-as werden geplaatst bij de corresponderende meetwaarde van de desbetreffende variabele. Uit de vorm van de histogram kan al het een en ander afgeleid worden, maar het zou handig zijn als een histogram ook voorzien werd van een density plot. Deze optie bestaat, waarbij daarnaast ook nog de density plot van de normaalverdeling wordt gegeven, de zogenaamde ‘normal curve’. Zo kun je heel makkelijk vergelijken hoeveel de verdeling in een steekproef afwijkt van de normaalverdeling.

In Figuur 12.13 zie je links een histogram met de density plot in blauw en normal curve in groen.

Deze dubbele visualisatie is vooral handig om snel afwijkingen van de normale verdeling te kunnen zien en daardoor de verdeling van de data goed te kunnen beoordelen. In dit geval ligt de verdeling zo dicht bij een normale verdeling dat beide lijnen elkaar bijna overlappen.

12.5.3 Q-Q-plots

De Q-Q-plot is een andere bruikbare informatiebron om de verdeling van een datareeks te vergelijken met de normale verdeling.

De Q-Q-plot splitst de data in zogenoemde kwantielen (‘quantiles’, daarom ‘Q’). Kwantielen zijn de breekpunten tussen even grote delen van de data. Eerder ben je kwantielen, in de vorm van kwartielen, al tegengekomen bij het bespreken van de mediaan en de interkwartielafstand. Andere veelgebruikte kwantielen zijn ‘decielen’ (negen breekpunten die de datareeks in tien even grote delen splitsen) en ‘percentielen’ (\(99\) breekpunten die de datareeks in honderd delen splitsen).

In de Q-Q-plot worden de geobserveerde kwantielen uit de data geplot tegen de verwachte kwantielen op basis van een normale verdeling. Of de geobserveerde of de verwachte kwantielen op de x-as of op de y-as staan, wisselt per softwareprogramma. Dit maakt niet uit voor de interpretatie. Als een datareeks normaal verdeeld is, liggen de kwantielen allemaal op een diagonale lijn. Als een datareeks niet normaal is verdeeld, wijken de stipjes van de diagonale lijn af (zie Figuur 12.10).

Q-Q-plots van een spitse, een bijna normale, en een rechtsscheve verdeling

Figuur 12.10: Q-Q-plots van een spitse, een bijna normale, en een rechtsscheve verdeling

Er zijn geen concrete vuistregels hoever de stipjes van de lijnen af moeten liggen, het blijft een beetje gissen. Of anders gezegd, je kunt deze figuren het beste bekijken in combinatie met andere maten en op basis van meerdere figuren en maten een conclusie trekken voer de verdeling van de data.

12.5.4 Boxplots

Het laatste visuele perspectief heet de boxplot. In een boxplot worden drie kwartielen geplot, dat wil zeggen de breekpunten die de data in vier even grote delen splitsen. Meestal is een boxplot verticaal weergegeven, waardoor de y-as de schaal van de variabele weergeeft (zie Figuur 12.11).

Boxplots van een spitse, een bijna normale, en een rechtsscheve verdeling

Figuur 12.11: Boxplots van een spitse, een bijna normale, en een rechtsscheve verdeling

De middelste lijn in de boxplot geeft de mediaan van de data aan. De twee boxen erom heen geven het 1e en het 3e kwartiel aan. Dat betekent dat \(50\%\) van de datapunten binnen deze twee boxen liggen. De (verticale) lijnen geven aan tussen welke waarden de hoogste en de laagste \(25\%\) van de datapunten ligt.

Bovendien worden in een boxplot mogelijke outliers visueel weergegeven door middel van zwarte bolletjes of sterretjes. Als er geen outliers weergegeven worden, betekent dit dat je het einde van de verticale lijn kunt interpreteren als het minimum en maximum van de data.

12.5.5 Staafdiagrammen

Bij categorische variabelen hoeven meetwaarden niet samengevoegd te worden om het aantal datapunten per categorie grafisch weer te geven en kan er ook geen histogram gemaakt worden. Er is namelijk geen continue variabele om op de x-as te plaatsen. Wel kunnen op de plek van de x-as de categorieën naast elkaar worden weergegeven en kan op de y-as het aantal datapunten worden gezet. De resulterende grafiek heet een staafdiagram. Hoewel een staafdiagram erg veel lijkt op een histogram, moeten de implicaties van het ontbreken van een x-as niet worden onderschat. Zo kan er voor een staafdiagram, dus voor een categorische variabele, geen density plot gegenereerd worden. Er kan dus ook niet worden gesproken over verdelingsvormen bij categorische variabelen.

Qua interpretatie zijn histogrammen en staafdiagrammen wel precies hetzelfde. Ze geven een beeld van de verdeling van een variabele, oftewel, van de absolute en relatieve frequenties voor elke meetwaarde.

Voor geslacht ziet de staafdiagram er uit zoals in Figuur 12.12. Hieruit valt op te maken dat er nauwelijks verschil is in gemiddelde.

Staafdiagram voor geslacht  
Deze staafdiagram is letterlijk een visuele representatie van de frequentietabel. Op de y-as staat de count, het aantal datapunten. Er is geen x-as, maar de twee meetwaarden female en male worden weergegeven. Het staafje bij female komt tot 163 en het staafje bij male tot 167.

Figuur 12.12: Staafdiagram voor geslacht
Deze staafdiagram is letterlijk een visuele representatie van de frequentietabel. Op de y-as staat de count, het aantal datapunten. Er is geen x-as, maar de twee meetwaarden female en male worden weergegeven. Het staafje bij female komt tot 163 en het staafje bij male tot 167.

12.6 Samenvatting en concrete richtlijnen

Dit hoofdstuk bevat informatie met betrekking tot verdelingsvormen van datareeksen: scheve, spitse en normale verdelingen, kwantitatieve indicatoren voor verdelingsvormen en tot slot histogrammen, density plots, boxplots en Q-Q-plots. Hoe wordt deze informatie nu allemaal gebruikt om een datareeks, oftewel de verdeling van een variabele, te beoordelen?

Als eerste is het belangrijk om te realiseren, dat een steekproef uitsluitend bestaansrecht heeft als instrument om iets te leren over de populatie. Het bepalen van de vorm van de populatieverdeling aan de hand van de verdeling van steekproefscores is noodzakelijkerwijs een subjectief proces. Dat betekent dat het belangrijk is om de verschillende informatiebronnen te combineren en er kritisch over na te denken.

Neem bijvoorbeeld de boxplot van de bijna normaal verdeelde datareeks die we hierboven zagen. Er was hier een aantal stipjes zichtbaar buiten de boxplot, maar zijn deze echt indicatief voor outliers? Hoe scheef moet een scheve verdeling er uitzien om te concluderen dat die datareeks in de populatie waarschijnlijk ook scheef is verdeeld? Hoe duidelijk moet een tweede topje zijn om vast te stellen dat een verdeling waarschijnlijk tweetoppig is? Het combineren van verschillende grafieken en kwantitatieve indicatoren kan hierbij helpen. Bekijk bijvoorbeeld in Figuur 12.13 de combinatie van grafieken en kwantitatieve indicatoren voor de bijna normaal verdeelde datareeks.

Een histogram, Q-Q-plot en boxplot van een bijna normaal verdeelde datareeks, inclusief de waarden van de diptest, skewness en kurtosis

Figuur 12.13: Een histogram, Q-Q-plot en boxplot van een bijna normaal verdeelde datareeks, inclusief de waarden van de diptest, skewness en kurtosis

Het datapunt dat door de boxplot als mogelijke outlier worden geïdentificeerd aan de linkerzijde van de verdeling lijkt geen uitzonderlijk hoge waarde te hebben. Voor het datapunt met de hoogste waarde zou dit misschien nog het geval kunnen zijn. Als deze twee datapunten buiten beschouwing worden gelaten, komen misschien de skewness en de kurtosis ook weer dichter bij \(0\) te liggen. In de praktijk zou de onderzoeker in dit geval kunnen nagaan bij welke deelnemers die extreemste datapunten horen, om te kijken of de scores van deze deelnemers ook op andere datareeksen (variabelen) in de dataset uitzonderlijk zijn. Meer hierover vind je in het hoofdstuk Datascreening.

Net als bij andere complexe beslissingen geldt ook voor dit soort besluiten dat de vaardigheid om deze besluiten adequaat te nemen, grotendeels afhankelijk is van de hoeveelheid opgedane ervaring. Het is belangrijk om bij besluiten op basis van data en statistiek altijd de redenering te documenteren. Dit is zowel belangrijk tijdens je studie, zodat docenten jouw redenering kunnen volgen en zo nodig corrigeren, als bij echt wetenschappelijk onderzoek, zodat andere wetenschappers na publicatie kunnen meekijken en eventuele fouten kunnen detecteren. Gegeven de onvermijdelijk subjectieve aard van dit soort besluiten, kunnen verschillende wetenschappers het ook simpelweg oneens zijn. In dat geval is het inzichtelijk als niet alleen het uiteindelijke besluit, maar ook de onderliggende redenering toegankelijk is.

In dit hoofdstuk gebruiken we de Palmer Penguins dataset ter illustratie. Deze dataset bevat informatie over drie pinguïnsoorten. Meer informatie is beschikbaar op https://allisonhorst.github.io/palmerpenguins.