Hoofdstuk 28 Correlaties

28.1 Samenvatting en verdieping

In dit hoofdstuk wordt besproken:
  • Covarianties
  • Correlaties
  • Proporties verklaarde variantie
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek (PB0212)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Datasets
  • Verdelingen
  • Samenhang in data

28.1.1 Inleiding

De correlatiecoëfficiënt of simpelweg correlatie of Pearson’s \(r\) drukt uit hoe sterk twee continue variabelen – dus minimaal intervalniveau – met elkaar samenhangen. De correlatie wordt heel veel gebruikt – en ook heel veel misbruikt. Zoveel zelfs dat er een gezegde is ontstaan: “correlatie impliceert geen causatie.” Dit gezegde gaat in tegen de intuïtie van veel mensen dat als twee variabelen gecorreleerd zijn, dit komt doordat de ene variabele de andere beïnvloedt of andersom. Maar dat is maar zelden echt het geval (zie voor meer informatie hoofdstuk Causaliteit, hoofdstuk 7 in deze versie van het boek).

In dit hoofdstuk gebruiken we de Palmer Penguins dataset ter illustratie. Deze dataset bevat informatie over drie pinguïnsoorten. Er is meer informatie beschikbaar op https://allisonhorst.github.io/palmerpenguins. In dit hoofdstuk gebruiken we data van \(20\) pinguïns uit deze dataset.

Hoewel het niet per se nodig is om de formule voor de correlatie te kennen, is het wel erg handig. Bovendien helpt het begrijpen van de formule om te begrijpen wat een correlatie is. We leggen de formule uit aan de hand van scatterplots die worden getoond in figuur 28.1.

Twee scatterplots voor het verband tussen flipperlengte en gewicht en tussen snavellengte en snavelhoogte

Figuur 28.1: Twee scatterplots voor het verband tussen flipperlengte en gewicht en tussen snavellengte en snavelhoogte

Als iemand (of een pinguïn) op een variabele ver boven het gemiddelde scoort en op een andere variabele ook, draagt die persoon (of pinguïn) bij aan een positief verband. Personen die op beide variabelen juist onder het gemiddelde scoren, dragen ook bij aan een positief verband. Personen die op de ene variabele boven en op de andere variabele onder het gemiddelde scoren, dragen bij aan een negatief verband. Een scatterplot is dus eigenlijk in te delen in vier kwadranten, die bij elkaar komen op het gemiddelde. Dit is geïllustreerd in figuur 28.2.

Twee scatterplots voor het verband tussen flipperlengte en gewicht en tussen snavellengte en snavelhoogte, waarbij vlakken zijn ingekleurd om te laten zien waar elk datapunt ligt ten opzichte van het gemiddelde

Figuur 28.2: Twee scatterplots voor het verband tussen flipperlengte en gewicht en tussen snavellengte en snavelhoogte, waarbij vlakken zijn ingekleurd om te laten zien waar elk datapunt ligt ten opzichte van het gemiddelde

Nu is het zo dat een punt dat verder van het gemiddelde af ligt meer invloed heeft op het verband tussen twee variabelen dan punten die dichter bij het gemiddelde liggen. Voor elke deelnemer kunnen we bepalen hoe ver de twee datapunten ieder van het gemiddelde van de betreffende datareeks afliggen. Door van elk datapunt het gemiddelde af te trekken, krijgen we die afwijkingen per datapunt. De gemiddelden voor flipperlengte en gewicht zijn \(196.6\) mm en \(4011.25\) gram. Deze gemiddeldes kunnen we van de scores van elke deelnemer aftrekken. In tabel 28.1 staan deze berekeningen.

Tabel 28.1: Flipperlengte en gewicht voor 20 pinguïns en de afwijking van het gemiddelde
Flipperlengte Afwijking flipperlengte Gewicht Afwijking gewicht
Pinguïn 1 196 -0.6 3500 -511.25
Pinguïn 2 198 1.4 4400 388.75
Pinguïn 3 208 11.4 4350 338.75
Pinguïn 4 184 -12.6 3550 -461.25
Pinguïn 5 199 2.4 3325 -686.25
Pinguïn 6 203 6.4 4050 38.75
Pinguïn 7 191 -5.6 3275 -736.25
Pinguïn 8 190 -6.6 3900 -111.25
Pinguïn 9 213 16.4 5100 1088.75
Pinguïn 10 195 -1.6 4300 288.75
Pinguïn 11 190 -6.6 4250 238.75
Pinguïn 12 181 -15.6 3700 -311.25
Pinguïn 13 210 13.4 4450 438.75
Pinguïn 14 203 6.4 4050 38.75
Pinguïn 15 180 -16.6 3550 -461.25
Pinguïn 16 190 -6.6 3725 -286.25
Pinguïn 17 190 -6.6 3900 -111.25
Pinguïn 18 221 24.4 5100 1088.75
Pinguïn 19 210 13.4 3950 -61.25
Pinguïn 20 180 -16.6 3800 -211.25

28.2 De berekening van de correlatie

Deelnemers met een grote positieve afwijking op beide variabelen, of juist met een grote negatieve afwijking op beide variabelen, dragen bij aan een positief verband tussen deze twee variabelen. Zij liggen in de paarse kwadranten. Deelnemers met een positieve afwijking op de ene variabele, maar een negatieve afwijking op de andere variabele (of vice versa) dragen bij aan een negatief verband tussen de twee variabelen. Zij liggen in de groene kwadranten. Nu gaan we deze twee afwijkingen voor elke deelnemer met elkaar vermenigvuldigen. Dit staat in tabel 28.2.

Tabel 28.2: Flipperlengte en gewicht voor \(20\) pinguïns, de afwijking van het gemiddelde en het product van die afwijkingen
Flipperlengte Afwijking flipperlengte Gewicht Afwijking gewicht Product
Pinguïn 1 196 -0.6 3500 -511.25 306.75
Pinguïn 2 198 1.4 4400 388.75 544.25
Pinguïn 3 208 11.4 4350 338.75 3861.75
Pinguïn 4 184 -12.6 3550 -461.25 5811.75
Pinguïn 5 199 2.4 3325 -686.25 -1647.00
Pinguïn 6 203 6.4 4050 38.75 248.00
Pinguïn 7 191 -5.6 3275 -736.25 4123.00
Pinguïn 8 190 -6.6 3900 -111.25 734.25
Pinguïn 9 213 16.4 5100 1088.75 17855.50
Pinguïn 10 195 -1.6 4300 288.75 -462.00
Pinguïn 11 190 -6.6 4250 238.75 -1575.75
Pinguïn 12 181 -15.6 3700 -311.25 4855.50
Pinguïn 13 210 13.4 4450 438.75 5879.25
Pinguïn 14 203 6.4 4050 38.75 248.00
Pinguïn 15 180 -16.6 3550 -461.25 7656.75
Pinguïn 16 190 -6.6 3725 -286.25 1889.25
Pinguïn 17 190 -6.6 3900 -111.25 734.25
Pinguïn 18 221 24.4 5100 1088.75 26565.50
Pinguïn 19 210 13.4 3950 -61.25 -820.75
Pinguïn 20 180 -16.6 3800 -211.25 3506.75

De getallen in deze laatste kolom (de vermenigvuldigde afwijkingen) kunnen we bij elkaar optellen en delen door het aantal datapunten minus \(1\). De som is

\[\begin{equation} 307 + 544 + 3862 + 5812 + -1647 + 248 + 4123 + 734 + 17856 + -462 + \\ -1576 + 4855 + 5879 + 248 + 7657 + 1889 + 734 + 26566 + -821 + 3507 = \\ 80315 \tag{28.1} \end{equation}\]

Die som delen we vervolgens door het aantal datapunten minus 1, oftewel het aantal vrijheidsgraden. Dan krijgen we

\[\begin{equation} \frac{80315 }{ 20 - 1 } = 4227 \tag{28.2} \end{equation}\]

Dit is de zogenaamde covariantie. Deze formule lijkt op de formule voor de variantie, een spreidingsmaat (zie het hoofdstuk Verdelingen, hoofdstuk 15 in deze versie van dit boek). De covariantie is een maat voor de spreiding die twee datareeksen delen. De covariantie wordt op dezelfde manier berekend als de variantie. De berekeningen die we net hebben uitgevoerd om de covariantie te berekenen zijn als volgt, waarbij \(x\) voor de ene variabele staat en \(y\) voor de andere.

\[\begin{equation} \text{covariantie}_{xy} = {\frac{{\sum_{i=1}^n} (x_i - \overline{x})(y_i - \overline{y})}{n - 1}} \tag{28.3} \end{equation}\]

Deze covariantie drukt uit hoeveel variantie de twee variabelen \(x\) en \(y\) met elkaar delen. Een variabele deelt uiteraard \(100\%\) van de variantie met zichzelf. Dus de covariantie van \(x\) met \(x\) is de variantie (oftewel mean squares, MS).

\[\begin{equation} \text{MS} = \text{variantie}_{x} = {\frac{{\sum_{i=1}^n} (x_i - \overline{x})(x_i - \overline{x})}{n - 1}} = { \frac {{\sum_{i=1}^n} (x_i - \overline{x})^2}{n - 1}} \tag{28.4} \end{equation}\]

De formule voor de variantie en de covariantie zijn dus hetzelfde. De variantie is ‘de covariantie van een variabele met zichzelf.’ Deze formule voor de covariantie is dus eigenlijk geen nieuwe formule, maar is al eerder besproken.

Hoewel deze covariantie handig uitdrukt hoe sterk variabelen samenhangen (‘covariëren’), is een nadeel dat deze maat afhankelijk is van de meetschalen waarop de twee variabelen gemeten zijn. De covariantie tussen flipperlengte in millimeters en gewicht in grammen wordt opeens een stuk kleiner als we lengte zouden uitdrukken in centimeters en gewicht in kilogrammen. Dit gegeven – dat de hoogte van de covariantie dus afhangt van de schaalverdelingen van de gekozen meetinstrumenten – maakt de covariantie onvergelijkbaar tussen studies. We willen de covariantie dus corrigeren voor de schaalverdelingen van de gebruikte operationalisaties.

De oplossing hiervoor is om te delen door de standaarddeviatie. Dit elimineert de schaalafhankelijkheid. Bij standaardisering van scores wordt van elk datapunt het gemiddelde afgetrokken, waarna dat verschil wordt gedeeld door de standaarddeviatie. De nieuwe reeks datapunten heeft een gestandaardiseerde schaal, waarbij het gemiddelde \(0\) is en \(1\) staat voor \(1\) standaarddeviatie. Dit principe kan ook toegepast worden op de covariantie door de covariantie te delen door de standaarddeviaties. Het resulterende getal, de correlatiecoëfficiënt, is daardoor te vergelijken tussen verschillende studies.

\[\begin{equation} \text{correlatie}_{xy} = r_{xy} = \frac{\text{covariantie}_{xy}}{sd_x sd_y} \tag{28.5} \end{equation}\]

Studenten met een achtergrond in algebra is misschien opgevallen dat dit hetzelfde is als het product van de zogenaamde \(z\)-scores. Dus als alle datapunten al in \(z\)-scores omgerekend zijn, kunnen die twee \(z\)-scores voor elk paar datapunten vermenigvuldigd worden. Door de som van die producten te delen door het aantal datapunten minus \(1\), krijg je ook de correlatie. In formulevorm krijg je dan

\[\begin{equation} \text{correlatie}_{xy} = r_{xy} = {\sum_{i=1}^n} (\frac{x_i - \overline{x}}{sd_x}) (\frac{y_i - \overline{y}}{sd_y}) \frac{1}{n - 1} \tag{28.6} \end{equation}\]

Dit getal, de correlatie, staat centraal in de statistiek als maat voor samenhang. Voluit heet dit getal de Pearson product-moment correlatiecoëfficiënt en deze wordt aangeduid met een \(r\).

De standaarddeviatie van flipperlengte voor deze 20 pinguïns is \(11.71\) mm, voor gewicht \(509.09\) gram, voor snavellengte \(5.62\) mm en voor snavelhoogte \(2.15\) mm. Door de covariantie tussen twee van die variabelen te delen door het product van de twee bijbehorende standaarddeviaties, kunnen de correlaties berekend worden die bij de twee scatterplots horen.

De variantie die flipperlengte deelt met gewicht, oftewel de gedeelde variantie of covariantie, is \(4227.11\). De covariantie van snavellengte en snavelhoogte is \(-2.72\). De bijbehorende correlaties zijn dus

\[\begin{equation} r = \frac{\text{covariantie}_{xy}}{sd_x sd_y} = \frac{ 4227.11 }{ 11.71 \times 509.09 } = 0.71 \tag{28.7} \end{equation}\]

\[\begin{equation} r = \frac{\text{covariantie}_{xy}}{sd_x sd_y} = \frac{ -2.72 }{ 5.62 \times 2.15 } = -0.23 \tag{28.8} \end{equation}\]

We kunnen de twee scatterplots nu dus uitdrukken in één getal elk. De volgende stap is het interpreteren van die correlatiecoëfficiënten.

28.3 Interpretatie: mogelijke waarden

Correlatiecoëfficiënten drukken uit hoe sterk twee continue variabelen samenhangen en liggen altijd tussen \(-1\) en \(1\), waarbij \(0\) staat voor een gebrek aan verband, \(-1\) voor een perfecte negatieve samenhang, en \(1\) voor een perfecte positieve samenhang. Deze waarden corresponderen met patronen in een scatterplot. Als er perfecte samenhang is – positief of negatief – liggen de punten in een scatterplot op een rechte lijn. Als er geen samenhang is, vormen ze een ronde wolk. Daar tussenin zitten allerlei vormen, zoals te zien in figuur 28.3.

Scatterplots met verschillende correlaties

Figuur 28.3: Scatterplots met verschillende correlaties

De correlatie drukt het verband tussen twee variabelen alleen goed uit als de variabelen lineair met elkaar samenhangen. Dat betekent dat het verband tussen de twee variabelen over de hele schaal van de variabelen even sterk is. De stipjes moeten om een rechte lijn heen liggen. Als het verband bijvoorbeeld curvilineair is en de stipjes op een gekromde lijn liggen, kan de correlatie het verband niet goed samenvatten. Dat geldt ook voor datareeksen met outliers. Francis J. Anscombe heeft in 1973 vier paren datareeksen gepubliceerd die dezelfde correlatie (0.82) hebben, maar heel verschillende verbanden representeren (Anscombe, 1973). Deze staan in figuur 28.4.

Anscombe's kwartet: vier paren van datareeksen die dezelfde correlatie (0.82) hebben, maar heel verschillend samenhangen

Figuur 28.4: Anscombe’s kwartet: vier paren van datareeksen die dezelfde correlatie (0.82) hebben, maar heel verschillend samenhangen

Alleen voor het eerste paar datareeksen mag de correlatie gepresenteerd worden als beschrijving van het verband tussen de twee variabelen. Het is dus belangrijk om voor elke correlatie die berekend wordt altijd een scatterplot te maken om te inspecteren of die correlatie inderdaad op een lineair verband gebaseerd is.

28.4 Interpretatie: effectgroottes en vuistregels

De correlatie is een zogenaamde effectmaat. Dit is een groep statistische maten die aangeeft hoe sterk een verband is op een schaalverdeling onafhankelijk van de gebruikte operationalisaties. De sterkte van het verband wordt de effectgrootte, of effect size, genoemd. Dit betekent dat effectgroottes over verschillende studies met elkaar vergeleken kunnen worden. Een verband van r = .50 is altijd even sterk, of het nu het verband tussen impulsiviteit en veilig vrijen is, of het verband tussen neiging tot nadenken en het cijfer op een onderzoekspracticum. Deze effectgroottes zijn dus heel handig. Sterker nog, zoals statistieklegende Cohen stelde in een hoogstaand artikel “Things I have learned (so far)” stelde: “[…] the primary product of a research inquiry is one or more measures of effect size, not \(p\) values” (Cohen, 1990). Wat \(p\)-waarden zijn, wordt verderop besproken, maar het is duidelijk dat effectgroottes cruciaal zijn in wetenschappelijk onderzoek.

Omdat effectmate altijd dezelfde schaalverdeling hebben, is het mogelijk om voorzichtige vuistregels te formuleren die kunnen helpen bij het interpreteren van correlaties. Deze vuistregels delen correlaties in vijf categorieën in, van ‘triviaal’ tot ‘zeer sterk’ (zie tabel 28.3).

Tabel 28.3: Voorzichtige vuistregels voor het interpreteren van de sterkte van een verband tussen twee continue variabelen zoals uitgedrukt met een correlatiecoëfficiënt
Correlatie Samenhang
tussen -1 en -.7 zeer sterk negatief
tussen -.7 en -.5 sterk negatief
tussen -.5 en -.3 middelsterk negatief
tussen -.3 en -.1 zwak negatief
tussen -.1 en .1 triviaal
tussen .1 en .3 zwak positief
tussen .3 en .5 middelsterk positief
tussen .5 en .7 Sterk positief
tussen .7 en 1 zeer sterk positief

De laatste categorie, ‘zeer sterk’, is afkomstig van Rosenthal (1996). Oorspronkelijk werden maar drie niveaus onderscheiden – zwakke, middelsterke en sterke verbanden.

Hoewel deze vuistregel enig houvast geeft bij de interpretatie, is het belangrijk om altijd drie dingen te onthouden.

Ten eerste is de interpretatie van hoe sterk variabelen samenhangen per definitie een subjectieve aangelegenheid. Informatie over de aard van de variabelen is hierbij doorslaggevend. Kleine effecten kunnen cruciaal zijn en grote effecten kunnen verwaarloosbaar zijn. Als het verband tussen het gebruik van paracetamol en de kans op dodelijke bijwerkingen maar een heel klein beetje zou stijgen, zou dat verband nog steeds heel erg zwak zijn. Maar omdat paracetamol zoveel gebruikt wordt, kan die minuscule stijging toch heel belangrijk zijn. Interpretatie van een verband is dus onmogelijk zonder kennis over de variabelen. Gebruik van deze vuistregels wordt daarom sterk afgeraden, tenzij er echt geen zinnig interpretatiekader beschikbaar is (Gruijters & Peters, 2020).

Ten tweede zegt een correlatie niets over de vraag of het verband tussen twee variabelen causaal is. Dat twee variabelen samenhangen, hoe sterk ook, zegt niets over de vraag of de ene variabele ook invloed heeft op de andere variabele. Sterker nog, veruit de meeste variabelen die correleren of zelfs heel sterk correleren, hebben geen invloed op elkaar. Om conclusies te kunnen trekken over causaliteit of om nog sterkere causale uitspraken te kunne doen zoals over mediatie of moderatie zijn experimentele studieontwerpen nodig.

Ten derde zijn correlaties altijd puntschattingen die worden berekend op basis van steekproeven. Net als voor gemiddelden en andere getallen die uit steekproeven worden berekend, geldt dat correlaties uit steekproevenverdelingen afkomstig zijn. Ze verschillen daarom van steekproef tot steekproef. Een correlatie op zichzelf zegt dus weinig. Zonder het bijbehorende betrouwbaarheidsinterval is het moeilijk om te zeggen hoe sterk een verband in de populatie waarschijnlijk is. En het is de populatie waarin we geïnteresseerd zijn. Steekproeven zijn slechts een instrument om informatie te krijgen over de populatie.

28.5 De steekproevenverdeling van de correlatie

De correlatie is een maat voor hoe sterk twee variabelen samenhangen. Maar deze zogenaamde puntschatting is deels door toeval tot stand gekomen. De correlatie wordt namelijk berekend op basis van onze steekproef, die bestaat uit een willekeurige selectie uit de populatie waarin we eigenlijk geïnteresseerd zijn. In elke steekproef is de puntschatting voor de correlatie net iets anders. Als de steekproef klein is, kan de correlatie in de populatie zelfs heel ver van de steekproefcorrelatie afliggen. Als de steekproef groot is, ligt hij waarschijnlijk in de buurt. Net zoals voor alle andere puntschattingen geldt dat een correlatie weinig zegt als niet ook bekend is hoe accuraat die schatting is.

De oplossing hiervoor is eigenlijk altijd hetzelfde: betrouwbaarheidsintervallen berekenen op basis van de steekproevenverdeling. Voor de correlatie gebruiken we de steekproevenverdeling van Pearson’s \(r\).

Als voorbeeld nemen we weer de correlatie tussen flipperlengte en gewicht en die tussen snavellengte en snavelhoogte. Deze staan in vergelijkingen (28.9) en (28.10). De bijbehorende scatterplots staan in figuur 28.5.

\[\begin{equation} r = \frac{\text{covariantie}_{xy}}{sd_x sd_y} = \frac{ 4227.11 }{ 11.71 \times 509.09 } = 0.71 \tag{28.9} \end{equation}\]

\[\begin{equation} r = \frac{\text{covariantie}_{xy}}{sd_x sd_y} = \frac{ -2.72 }{ 5.62 \times 2.15 } = -0.23 \tag{28.10} \end{equation}\]

Herhaling van de twee scatterplots voor het verband tussen flipperlengte en gewicht en tussen snavellengte en snavelhoogte

Figuur 28.5: Herhaling van de twee scatterplots voor het verband tussen flipperlengte en gewicht en tussen snavellengte en snavelhoogte

Deze twee correlaties komen elk uit een steekproevenverdeling. In de populatie is er een bepaalde samenhang tussen deze variabelen. Laten we net doen alsof we weten dat in de populatie de correlatie tussen flipperlengte en gewicht \(r = .50\) is. De kans is het grootst dat in een willekeurige steekproef een correlatie van \(r = .50\) wordt gevonden, maar er kan ook een correlatie van \(r = 0\), \(r = .40\), of, zoals in ons geval, \(r = .71\) worden gevonden. Hoe waarschijnlijk dit is, hangt af van de steekproevenverdeling van Pearson’s \(r\).

Net zoals de steekproevenverdeling van het gemiddelde alle mogelijke gemiddelden bevat die je in een steekproef van een gegeven omvang kunt vinden, bevat de steekproevenverdeling van de correlatie alle correlaties die je in een steekproef van een gegeven omvang kunt vinden. Die steekproevenverdeling is afhankelijk van de populatiecorrelatie en van het aantal datapunten (de steekproefomvang). In dit geval zijn er \(20\) datapunten. Als de correlatie in de populatie \(r = .50\) is, laat figuur 28.6 de steekproevenverdeling zien waaruit de correlatie van elke steekproef komt.

Steekproevenverdeling voor een correlatie die in de populatie $r = .50$ is, berekend op basis van een steekproef met $20$ deelnemers

Figuur 28.6: Steekproevenverdeling voor een correlatie die in de populatie \(r = .50\) is, berekend op basis van een steekproef met \(20\) deelnemers

Zoals te zien in bovenstaande figuur, is de kans erg klein dat in een steekproef van \(20\) deelnemers uit een populatie waar \(r = .50\), een correlatie wordt gevonden kleiner dan \(r = −.25\) of groter dan \(r = .90\). De kans op een correlatie van \(r = .71\)), zoals in onze steekproef, of groter is \(9\%\), zoals geïllustreerd in figuur 28.7.

De kans op de gevonden steekproefcorrelatie tussen flipperlengte en gewicht in een steekproevenverdeling met een steekproefomvang van $20$ en een populatiecorrelatie van $r = .50$

Figuur 28.7: De kans op de gevonden steekproefcorrelatie tussen flipperlengte en gewicht in een steekproevenverdeling met een steekproefomvang van \(20\) en een populatiecorrelatie van \(r = .50\)

Net als het geval was voor de steekproevenverdelingen voor het gemiddelde, standaarddeviatie, scheefheid, enz., bevat de steekproevenverdeling van de correlatie alle mogelijke correlaties die in een steekproef gevonden kunnen worden. Deze steekproevenverdeling kan alleen opgesteld worden met behulp van een aanname van de betreffende waarde (in dit geval de correlatie) in de populatie.

Net als bij de beschrijvingsmaten is de steekproevenverdeling te beschouwen als de verdeling die we zouden krijgen als we onze steekproef oneindig vaak zouden herhalen, telkens de correlatie zouden berekenen en die correlaties zouden combineren in één verdeling. De steekproevenverdeling bevat dus per definitie alle mogelijke correlaties die we zouden kunnen vinden.

Er is ook een verschil tussen de steekproevenverdeling van de correlatie en de steekproevenverdelingen van de beschrijvingsmaten. De correlatie kan nooit buiten het interval van \(-1\) tot \(1\) liggen. Afwijkingen van de populatiecorrelatie komen door toeval, oftewel door steekproef- en meetfout. Als de populatiecorrelatie dichtbij \(-1\) of \(1\) ligt, is de kans dat door toeval de steekproefcorrelatie nog dichter bij \(1\) of \(-1\) ligt een stuk kleiner dan dat de steekproefcorrelatie dichter bij \(0\) ligt. Daarom wordt de steekproevenverdeling asymmetrisch naarmate de populatiecorrelatie dichter in de buurt van \(-1\) of \(1\) komt.

De steekproevenverdeling van het gemiddelde is symmetrisch. Deze verdeling is smaller of breder afhankelijk van de standaardfout en dus van de steekproefomvang, maar heeft altijd dezelfde vorm. De steekproevenverdeling van de correlatie kan van vorm veranderen, afhankelijk van de grootte van de populatiecorrelatie. Ook hier is de breedte van de verdeling afhankelijk van de standaardfout en dus van de steekproefomvang. In figuur 28.8 staat de steekproevenverdeling van een correlatie, die in de populatie \(r = .60\) is, voor verschillende steekproefgroottes.

Zes steekproevenverdelingen bij een populatiecorrelatie van r = .60 en steekproeven van $10$, $20$, $40$, $100$, $500$ en $1000$ deelnemers

Figuur 28.8: Zes steekproevenverdelingen bij een populatiecorrelatie van r = .60 en steekproeven van \(10\), \(20\), \(40\), \(100\), \(500\) en \(1000\) deelnemers

Twee dingen vallen op. Ten eerste wordt de steekproevenverdeling steeds meer symmetrisch naarmate de steekproefomvang stijgt. Ten tweede is de kans op sterk afwijkende correlaties bij kleine steekproeven (van 100 deelnemers of minder) nog steeds erg groot is. Bij een steekproef van \(10\) deelnemers is er zelfs een kans (van \(3\%\)). dat in een steekproef een negatieve correlatie wordt gevonden. De invloed van een deelnemer die toevallig een uitzondering is, is namelijk veel groter in kleine steekproeven. Pas in grote steekproeven wordt de invloed van toeval een beetje ingeperkt. Voor een enigszins accurate schatting, zijn dus vrij grote steekproeven nodig.

28.6 Het betrouwbaarheidsinterval van de correlatie

Omdat een correlatie berekend wordt uit de data verkregen met een steekproef, is de puntschatting onderhevig aan toeval en dus anders van steekproef tot steekproef (dus van studie tot studie). Hoeveel deze zal variëren hangt af van de steekproevenverdeling, maar de gehele steekproevenverdeling loopt altijd van -1 tot 1, omdat in theorie door toeval elke correlatie tussen -1 en 1 mogelijk is. De kans op extreme waarden is meestal wel verwaarloosbaar.

Het dus niet zinvol om de breedte van de steekproevenverdeling te rapporteren. Om toch op een efficiënte manier een indicatie van de accuraatheid van de correlatieschatting te kunnen geven, wordt het betrouwbaarheidsinterval gebruikt. Het publicatiehandboek van de American Psychological Association stelt zelfs “Because confidence intervals combine information on location and precision and can be directly used to infer significance levels, they are generally the best reporting strategy.” (Association, 2019, p. 88). Kortom, je moet altijd betrouwbaarheidsintervallen rapporteren.

Een betrouwbaarheidsinterval kan berekend worden met de gegevens uit een steekproef en omvat, voor een gegeven percentage van de steekproeven, de geschatte populatiewaarde. Bij een \(95\%\)-betrouwbaarheidsinterval – een van de meer gangbare betrouwbaarheden – zal dus in \(95\%\) van de steekproeven de populatiecorrelatie in het betrouwbaarheidsinterval van de steekproefcorrelatie liggen.

Omdat steekproevenverdelingen vaak normaal verdeeld zijn, kan het betrouwbaarheidsinterval berekend worden door een bepaalde symmetrische onzekerheidsmarge om de puntschatting uit een steekproef heen te leggen. Een \(95\%\)-betrouwbaarheidsinterval voor het gemiddelde kan worden berekend met (28.11)

\[\begin{equation} \text{betrouwbaarheidsinterval} = \text{gemiddelde} \pm \text{breedte-index} \times \text{standaardfout} \tag{28.11} \end{equation}\]

Maar, de steekproevenverdeling voor correlaties is niet symmetrisch. Een formule met een soortgelijke vorm zou alleen correct zijn voor correlaties die dicht bij \(0\) liggen of wanneer de steekproefomvang heel groot is. Het berekenen van een betrouwbaarheidsinterval voor de correlatiecoëfficiënt is dus wat ingewikkelder (zie de paragraaf “De standaardfout van Pearson’s \(r\)” hieronder), maar kan eenvoudig berekend worden in statistische software zoals jamovi of R.

De correlatie tussen flipperlengte en lichaamsgewicht was \(r=.71\) en die tussen snavellengte en snavelhoogte was \(r=-.23\). De steekproefomvang was \(20\) pinguïns. Hiermee kunnen de bijbehorende betrouwbaarheidsintervallen berekend worden. De \(95\%\)-betrouwbaarheidsintervallen zijn respectievelijk \([0.39; 0.88]\) en \([-0.61; 0.24]\). Om de kans dat de populatiecorrelatie in onze studie in het betrouwbaarheidsinterval ligt te vergroten, kunnen we 99%-betrouwbaarheidsintervallen berekenen: \([0.25; 0.91]\) en \([-0.69; 0.38]\). En als we de suggestie van -Cohen (1990) volgen, kunnen we 80%-betrouwbaarheidsintervallen berekenen: \([0.52; 0.83]\) en \([-0.49; 0.08]\).

Meestal gebruiken we de \(95\%\)-betrouwbaarheidsintervallen. In het geval van de pinguïns kunnen we hieruit concluderen dat de correlaite tussen het lichaamsgewicht van pinguïns en hun flipperlengte in de populatie ergens ligt tussen de \(.39\) en \(.88\), terwijl de correlatie tussen snavellengte en snalvelhoogte tussen de \(-.61\) en \(.24\) ligt en er dus waarschijnlijk geen correlatie bestaat in de populatie.

Met de betrouwbaarheidsintervallen voor correlaties, kunnen we dus eindelijk iets zeggen over het verband tussen twee variabelen. Maar, zoals eerder aangegeven geldt nog steeds: ‘één studie is géén studie’. Zelfs als een studie relatief veel deelnemers heeft, kunnen er verstorende factoren en specifieke omstandigheden zijn waardoor de uitkomsten van een volgende studie weer anders zijn. Ook is in dit hoofdstuk duidelijk geworden dat een betrouwbaarheidsinterval uit een willekeurige steekproef zomaar naast de populatiecorrelatie kan liggen. Bovendien zijn er zeer grote steekproeven nodig om voldoende nauwe betrouwbaarheidsintervallen te krijgen die met enige zekerheid vaststellen hoe sterk een correlatie in de populatie is.

Om echt uitspraken te kunnen doen waarop beleid en praktijk veilig gebaseerd kunnen worden, is het nodig om uitkomsten uit meerdere studies te combineren. Dergelijke literatuurstudies heten meta-analyses. Deze meta-analyses combineren de informatie uit meerdere studies om zo heel nauwe betrouwbaarheidsintervallen te kunnen berekenen. Meta-analyses zijn uiteindelijk de manier waarop onderzoeksvragen beantwoord worden. Betrouwbaarheidsintervallen geven natuurlijk wel al een goede voorlopige indruk van hoe de werkelijkheid in elkaar zou kunnen steken.

In de wetenschappelijke literatuur wordt het daarom steeds minder geaccepteerd om alleen puntschattingen te rapporteren, al was dit vroeger wel gangbaar. Omdat puntschattingen geen informatie bevatten over hoe accuraat ze zijn, werden deze gecombineerd met zogenaamde \(p\)-waarden, die tegenwoordig ook nog vaak gerapporteerd worden.

28.7 Benodigde steekproefomvang

Voordat een studie wordt uitgevoerd is het nodig om te berekenen hoeveel deelnemers er nodig zijn. Vaak willen onderzoekers effectgroottes zoals de correlatiecoëfficiënt berekenen, en dan is het nodig om die met een bepaalde accuraatheid te kunnen schatten. In andere woorden, onderzoekers willen vaak een betrouwbaarheidsinterval verkrijgen met een gegeven maximale breedte. Als onderzoekers een voorspelling doen die is afgeleid uit een theorie willen ze soms een hypothese toetsen, en in dat geval wordt soms nulhypothese-significantietoetsing gebruikt. In dat kader willen onderzoekers een gegeven power bereiken.

In het geval van correlaties is er met betrekking tot accurate schatting een handige tabel beschikbaar in Moinester & Gottfried (2014), die ook formules (Equation 8 op p. 127) geven die gebruikt kunnen worden. Het is niet nodig deze formules of getallen te kennen: wel is het handig te weten dat ze bestaan. Voor een interval van \(.1\) breed (bijvoorbeeld van \(.35\) tot \(.45\), voor een puntschatting van de correlatie van \(.40\)) varieert de benodigde steekproef van ruim \(1500\) deelnemers, als een hele lage correlatie wordt verwacht, tot ruim \(60\) deelnemers, als de verwachting is dat de correlatie bijna \(1\) is.

Natuurlijk kunnen onderzoekers ook genoegen nemen met bredere intervallen, en als een interval van \(.3\) volstaat (bij een steekproefcorrelatie van \(.40\) zou dat interval alle correlaties van \(.25\) tot \(.55\) bevatten) volstaan zelfs bij een hele lage verwachte populatiecorrelatie \(171\) deelnemers. Het nadeel van dermate brede intervallen is dat de populatiecorrelatie dan zowel een klein verband (want \(.25\) is lager dan \(.3\)) als een sterk verband (want \(.55\) is hoger dan \(.5\)) zou kunnen betreffen. Op basis van een dergelijke studie zou de conclusie dus zijn dat het verband waarschijnlijk zwak, middelsterk, of sterk is. Liefst kunnen onderzoekers natuurlijk accurater conclusies trekken. De prijs hiervoor is grotere steekproeven.

In hoofdstuk “Correlaties en Steekproefomvang”, hoofdstuk 41 in deze versie van het boek, staan tabellen met de benodigde steekproefomvang om correlaties accuraat te schatten of om een bepaalde power te behalen.

28.8 De proportie verklaarde variantie

Het kwadraat van de correlatiecoëfficiënt is de proportie verklaarde variantie: het percentage van de variantie in de ene variabele die wordt verklaard door de andere variabele. Het is belangrijk om je te realiseren dat dit geen causale verklaring is: het betekent alleen dat de variabelen dezelfde informatie leveren.

Als twee variabelen dus een correlatie hebben van \(r = .3\), dan verklaren ze \(r^2 = .3^2 = .09 = 9\%\) van elkaar (“van elkaar” omdat correlaties symmetrisch zijn: als de variabele X \(9\%\) verklaart van variabele Y, dan verklaart variabele Y ook \(9\%\) van variabele X), en als \(r = .5\), dan \(r^2 = .5^2 = .25 = 25\%\).

28.9 De standaardfout van Pearson’s \(r\)

De standaardfout van \(r\) is moeilijk met de hand te berekenen (het kan wel; zie de link hieronder voor een pagina met de verdeling van Pearson’s \(r\)). Echter, er is een trucje: \(r\) kan worden getransformeerd naar een \(z\)-verdeling! Dit heet de Fisher-transformatie, en hij werkt als volgt (28.12)

\[\begin{equation} \text{Fisher's } z = \frac{1}{2} \text{ln} \left( \frac{1 + r}{1 - r} \right) = \text{arctan} \left( {r} \right) \tag{28.12} \end{equation}\]

De resulterende z-verdeling heeft als standaardfout (28.13)

\[\begin{equation} \text{standaardfout Fisher's } z = \frac{1}{\sqrt{n-2}} \tag{28.13} \end{equation}\]

Als vervolgens bijvoorbeeld de twee Fisher’s \(z\) waarden zijn berekend waarmee het betrouwbaarheidsinterval kan worden opgesteld, kunnen die weer worden teruggerekend naar Pearson’s \(r\) met de volgende formule (28.14)

\[\begin{equation} \text{Pearson's } r = \frac{e^2z - 1}{e^2z + 1} = \text{tanh}(z) \tag{28.14} \end{equation}\]

In R kun je overigens het package SuppDists downloaden; hierin zitten functies om rechtstreeks met de verdeling van Pearson’s \(r\) te werken (zie ?pPearson).

28.10 Pearson’s \(r\) en normaliteit

Veel statistische analyses vereisen dat de steekproevenverdeling van bijvoorbeeld het gemiddelde normaal is verdeeld. Hoe de populatieverdeling eruitziet, en hoe de steekproefscores zijn verdeeld, maar niet uit. De correlatie is een uitzondering. Als twee variabelen allebei een normale populatieverdeling hebben, dan kunnen ze maximaal met \(r = 1\) correleren. De figuur hieronder laat dit zien.

Twee normale verdelingen.

Figuur 28.9: Twee normale verdelingen.

Deze datareeksen bestaan elk uit 100 willekeurig gegenereerde getallen uit de normaalverdeling, die vervolgens oplopend zijn gesorteerd. Daardoor correleren ze maximaal. De reden dat de correlatie niet 1 is, is dat door de willekeurige selectie soms wat meer hoge of lage waarden voorkomen. Als we 1000 getallen hadden geselecteerd, dan hadden de verdelingen er nog normaler uitgezien en dan was de correlatie hoger geweest.

Deze methode kunnen we ook gebruiken om een scheve verdeling te genereren met de zogenaamde bètaverdeling (dit heeft overigens niets te maken met de bèta uit regressieanalyses). Ditmaal maken we de ene verdeling een beetje scheef.

Een normale verdeling en een mild scheve verdeling.

Figuur 28.10: Een normale verdeling en een mild scheve verdeling.

We kunnen die verdeling ook nog schever maken.

Een normale verdeling en een vrij scheve verdeling.

Figuur 28.11: Een normale verdeling en een vrij scheve verdeling.

Of zelfs heel erg scheef.

Een normale verdeling en een erg scheve verdeling.

Figuur 28.12: Een normale verdeling en een erg scheve verdeling.

Zoals te zien is, daalt de maximaal haalbare correlatie. In de scatterplot is te zien dat het verband niet langer lineair is, maar curvi-lineair.

Als we de andere verdeling, die tot nu toe steeds normaal was, linksscheef maken, daalt de maximaal haalbare correlatie nog verder:

Twee erg scheve verdelingen.

Figuur 28.13: Twee erg scheve verdelingen.

En in het extreemste geval kunnen we de maximaal haalbare correlatie zelfs bijna op 0 zetten.

Twee uitzonderlijk scheve verdelingen.

Figuur 28.14: Twee uitzonderlijk scheve verdelingen.

De maximaal haalbare correlatie voor twee gesorteerde datareeksen zou, getuige het betrouwbaarheidsinterval, zelfs negatief kunnen zijn!

Dit is logisch als je je realiseert dat als beide variabelen geen spreiding hebben, dat iedereen dan hetzelfde scoort. Dan is het dus niet mogelijk om voor een willekeurige onderzoekseenheid (bijvoorbeeld een deelnemer) de waarde op de ene variabele te voorspellen uit de waarde op de andere variabele: oftewel, er kan geen samenhang zijn.

Als beide variabelen dezelfde verdeling hebben, is de scheefheid geen probleem meer.

Twee rechtsscheve verdelingen.

Figuur 28.15: Twee rechtsscheve verdelingen.

Zelfs als beide verdelingen extreem scheef zijn, is dat geen probleem: als ze maar dezelfde verdelingsvorm hebben.

Twee extreem linksscheven verdelingen.

Figuur 28.16: Twee extreem linksscheven verdelingen.

Dus, voor correlaties geldt niet dat de steekproefscores normaal verdeeld moeten zijn. De populatie hoeft ook niet normaal verdeeld te zijn. En de steekproevenverdeling van het gemiddelde maakt al helemaal niets uit.

Waar je wel op moet letten, is dat als twee variabelen andere verdelingen hebben, de maximaal haalbare correlatie lager wordt. Dit is geen probleem van de correlatiecoëfficiënt: hij geeft nog steeds een goede indruk van het verband tussen de twee variabelen. Aangenomen dat de verdeling van de steekproefscores informatief is voor de populatieverdeling geldt tenslotte dat het betreffende verband in de populatie ook niet perfect kan zijn. Zelfs als steekproefscores niet normaal zijn verdeeld, en zelfs als de ene datareeks linksscheef is en de andere rechtsscheef, dan geldt nog steeds dat de correlatie een goede indruk geeft van het verband tussen die twee variabelen. Dat dat verband niet erg sterk kan zijn, komt omdat het verband in de populatie niet sterk kan zijn, als gevolg van de verdelingsvormen van de populatieverdelingen.

Overigens blijkt uit de voorbeelden hierboven ook dat vrij extreme afwijkingen van normaliteit nodig zijn voordat de maximaal haalbare correlatie echt laag wordt. Hoewel het dus altijd belangrijk is om de data goed te inspecteren en dus histogrammen en scatterplots te bestellen, zijn afwijkingen van normaliteit geen reden tot zorgen over de correlatie.

Referenties

Anscombe, F. J. (1973). Graphs in Statistical Analysis. Analysis, 27(1), 17–21. https://doi.org/gjs3bw
Association, A. P. (Ed.). (2019). Publication Manual of the American Psychological Association (Seventh edition). American Psychological Association.
Cohen, J. (1990). Things I Have Learned (So Far). American Psychologist, 45, 1304–1312. https://doi.org/bhd52q
Gruijters, S. L. K., & Peters, G.-J. Y. (2020). Meaningful change definitions: Sample size planning for experimental intervention research. Psychology & Health, 1–16. https://doi.org/ghpnx8
Moinester, M., & Gottfried, R. (2014). Sample size estimation for correlations with pre-specified confidence interval. The Quantitative Methods of Psychology, 10(2), 124–130. http://tqmp.org/RegularArticles/vol10-2/p124/
Rosenthal, J. A. (1996). Qualitative descriptors of strength of association and effect size. Journal of Social Service Research, 21(4), 37–59. https://doi.org/bcfsp2