Hoofdstuk 41 Correlaties en steekproefomvang

In dit hoofdstuk wordt besproken:
  • Nulhypothese-significantietoetsing
  • Steekproefomvang
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek (PB0212)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Correlaties

41.1 Correlaties schatten

Voordat een studie wordt uitgevoerd, is het nodig om te berekenen hoeveel deelnemers er nodig zijn. Vaak willen onderzoekers effectgroottes zoals de correlatiecoëfficiënt berekenen en willen deze met een bepaalde accuraatheid kunnen schatten. In andere woorden, onderzoekers willen een betrouwbaarheidsinterval met een gegeven maximale breedte verkrijgen.

In het geval van correlaties is er een handige tabel beschikbaar in het artikel van Moinester & Gottfried (2014). Hierin worden ook handige formules gegeven (Equation 8 op p. 127). Het is niet nodig deze formules of getallen te kennen; wel is het handig te weten dat ze bestaan.

Een betrouwbaarheidsinterval van \(.10\) breed is bijvoorbeeld een interval dat loopt van \(.35\) tot \(.45\) bij een puntschatting van de correlatie van \(.40\). Bij een betrouwbaarheidsinterval van \(.10\) varieert de benodigde steekproef van ruim \(1500\) deelnemers, als een hele lage correlatie wordt verwacht, tot ruim \(60\) deelnemers, als een correlatie van bijna \(1\) wordt verwacht.

Natuurlijk kunnen onderzoekers ook genoegen nemen met bredere intervallen. Bij een steekproefcorrelatie van \(.40\) zou een betrouwbaarheidsinterval van \(.30\) breed alle correlaties van \(.25\) tot \(.55\) bevatten. Als een betrouwbaarheidsinterval van \(.30\) volstaat, zijn zelfs bij een hele lage verwachte populatiecorrelatie \(171\) deelnemers voldoende. Het nadeel van zulke brede intervallen is dat de populatiecorrelatie dan zowel een zwak verband (want \(.25\) is lager dan \(.30\)) als een sterk verband (want \(.55\) is hoger dan \(.50\)) zou kunnen zijn. Op basis van een dergelijke studie zou de conclusie dus zijn dat het verband waarschijnlijk zwak, middelsterk of sterk is. Het liefst trekken onderzoekers natuurlijk accurater conclusies. De prijs hiervoor is grotere steekproeven.

Tabel 41.1: Benodigde steekproefomvang om correlaties van .10 tot .90 te schatten met een 95%-betrouwbaarheidsinterval met halfbreedtes (foutenmarges) van .05 tot .50
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
r = 0.1 1507 378 168 95 61 43 32 25 20 16
r = 0.2 1417 355 159 90 58 41 30 24 19 16
r = 0.3 1274 320 143 81 53 37 28 22 18 15
r = 0.4 1086 273 123 70 46 32 24 19 16 13
r = 0.5 867 219 99 57 37 27 20 16 13 11
r = 0.6 633 161 74 43 29 21 16 13 11 10
r = 0.7 404 105 49 30 21 15 12 10 9 8
r = 0.8 205 56 28 18 14 11 9 8 7 7
r = 0.9 63 21 13 11 9 8 7 7 6 6
Tabel 41.2: Benodigde steekproefomvang om correlaties van .10 tot .90 te schatten met een 99%-betrouwbaarheidsinterval met halfbreedtes (foutenmarges) van .05 tot .50
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
r = 0.1 2600 650 288 162 103 72 53 40 32 26
r = 0.2 2446 611 271 153 98 68 50 38 30 25
r = 0.3 2198 550 245 138 88 61 45 35 28 23
r = 0.4 1874 469 209 118 76 53 40 31 24 20
r = 0.5 1495 376 168 96 62 44 33 26 21 17
r = 0.6 1091 276 125 72 47 34 26 20 17 14
r = 0.7 696 178 82 48 33 24 19 16 13 11
r = 0.8 352 94 46 29 21 16 13 12 10 9
r = 0.9 106 34 21 17 14 12 11 9 8 7

41.2 Nulhypothese-significantietoetsing

In tabel hieronder staat het aantal deelnemers dat nodig is om een power van \(80\%\), \(90\%\), \(95\%\) en \(99\%\) te bereiken voor populatiecorrelaties van \(.10\) tot \(.90\), uitgaande van een alpha van \(.05\).

Tabel 41.3: Benodigde steekproefomvang bij power van \(80%\), \(90%\), \(95%\) en \(99%\) voor populatiecorrelaties van \(.10\) tot \(.90\)
80% 90% 95% 99%
0.1 1564 2092 2586 3656
0.15 692 926 1142 1614
0.2 388 516 638 900
0.25 246 328 404 568
0.3 170 224 276 388
0.35 122 162 200 280
0.4 92 122 150 210
0.45 72 94 116 162
0.5 58 76 92 128
0.55 46 60 74 102
0.6 38 50 60 82
0.65 32 40 48 66
0.7 26 34 40 54
0.75 22 28 34 44
0.8 18 24 28 36
0.85 16 20 22 30
0.9 14 16 18 24

In onderstaande tabel staat het aantal deelnemers dat nodig is om een power van 80% te bereiken voor populatiecorrelaties van \(.10\) tot \(.90\), als er in een studie meerdere p-waarden berekend worden. Hierbij wordt ervan uitgegaan dat de onderzoeker de kans op een type 1-fout bij alle correlaties tezamen op \(5\%\) wil houden. De alpha wordt daarom ingesteld op \(5\%\) gedeeld door het aantal correlaties, of eigenlijk \(p\)-waarden, dat berekend wordt.

Tabel 41.4: Powertabel voor power van 80% met in de kolommen populatiewaarden van Pearson’s r van .1 tot .9 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20
aantal alpha 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 0.0500 1564 388 170 92 58 38 26 18 14
2 0.0253 1888 466 204 112 68 46 32 22 16
3 0.0170 2078 514 224 122 76 50 34 24 16
4 0.0127 2212 546 238 130 80 52 36 24 16
6 0.0085 2402 592 258 140 86 56 38 26 18
10 0.0051 2640 652 284 154 94 62 42 28 20
20 0.0026 2962 730 318 172 106 68 46 32 22

Hieronder staat dezelfde tabel, maar nu voor een power van \(95\%\).

Tabel 41.5: Powertabel voor power van 95% met in de kolommen populatiewaarden van Pearson’s r van .1 tot .9 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20
aantal alpha 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 0.0500 1564 388 170 92 58 38 26 18 14
2 0.0253 1888 466 204 112 68 46 32 22 16
3 0.0170 2078 514 224 122 76 50 34 24 16
4 0.0127 2212 546 238 130 80 52 36 24 16
6 0.0085 2402 592 258 140 86 56 38 26 18
10 0.0051 2640 652 284 154 94 62 42 28 20
20 0.0026 2962 730 318 172 106 68 46 32 22

Het is zeldzaam dat er op basis van een dataset slechts één p-waarde wordt uitgerekend, bijvoorbeeld slechts één correlatie en verder niets. Het aantal \(p\)-waarden ligt in de praktijk meestal in de tientallen. Om de kans op een type 1-fout acceptabel te houden, is het dus bijna altijd nodig om te corrigeren voor multiple testing. In de praktijk gebeurt dit niet altijd voldoende, zelfs niet in gepubliceerd onderzoek. De noodzaak om te corrigeren voor multiple testing resulteert in een lagere power. Dit moet gecompenseerd worden met grotere steekproeven om de kans op type 2-fouten acceptabel te houden. In de praktijk zijn er dus vaak honderden deelnemers nodig om de kans op het trekken van verkeerde conclusies een beetje binnen de perken te houden.

Referenties

Moinester, M., & Gottfried, R. (2014). Sample size estimation for correlations with pre-specified confidence interval. The Quantitative Methods of Psychology, 10(2), 124–130. http://tqmp.org/RegularArticles/vol10-2/p124/