Hoofdstuk 24 Power voor correlaties
- steekproef omvang en power bij correlaties.
- Onderzoekspracticum inleiding onderzoek (PB0212)
- Onderzoekspracticum cross-sectioneel onderzoek (PB0812)
- Correlaties
24.1 Correlaties schatten
Voordat een studie wordt uitgevoerd, is het nodig om te berekenen hoeveel deelnemers er nodig zijn. Vaak willen onderzoekers effectgroottes zoals de correlatiecoëfficiënt berekenen en willen deze met een bepaalde accuraatheid kunnen schatten. In andere woorden, onderzoekers willen een betrouwbaarheidsinterval met een gegeven maximale breedte verkrijgen.
In het geval van correlaties is er een handige tabel beschikbaar in het artikel van Moinester & Gottfried (2014). Hierin worden ook handige formules gegeven (Equation 8 op p. 127). Het is niet nodig deze formules of getallen te kennen; wel is het handig te weten dat ze bestaan.
Een betrouwbaarheidsinterval van \(.10\) breed is bijvoorbeeld een interval dat loopt van \(.35\) tot \(.45\) bij een puntschatting van de correlatie van \(.40\). Bij een betrouwbaarheidsinterval van \(.10\) varieert de benodigde steekproef van ruim \(1500\) deelnemers, als een hele lage correlatie wordt verwacht, tot ruim \(60\) deelnemers, als een correlatie van bijna \(1\) wordt verwacht.
Natuurlijk kunnen onderzoekers ook genoegen nemen met bredere intervallen. Bij een steekproefcorrelatie van \(.40\) zou een betrouwbaarheidsinterval van \(.30\) breed alle correlaties van \(.25\) tot \(.55\) bevatten. Als een betrouwbaarheidsinterval van \(.30\) volstaat, zijn zelfs bij een hele lage verwachte populatiecorrelatie \(171\) deelnemers voldoende. Het nadeel van zulke brede intervallen is dat de populatiecorrelatie dan zowel een zwak verband (want \(.25\) is lager dan \(.30\)) als een sterk verband (want \(.55\) is hoger dan \(.50\)) zou kunnen zijn. Op basis van een dergelijke studie zou de conclusie dus zijn dat het verband waarschijnlijk zwak, middelsterk of sterk is. Het liefst trekken onderzoekers natuurlijk accurater conclusies. De prijs hiervoor is grotere steekproeven.
Hieronder is in de tabellen te zien hoeveel deelnemers nodig zijn bij een bepaalde correlatie en betrouwbaarheidsinterval.
0.05 | 0.1 | 0.15 | 0.2 | 0.25 | 0.3 | 0.35 | 0.4 | 0.45 | 0.5 | |
---|---|---|---|---|---|---|---|---|---|---|
r = 0.1 | 1507 | 378 | 168 | 95 | 61 | 43 | 32 | 25 | 20 | 16 |
r = 0.2 | 1417 | 355 | 159 | 90 | 58 | 41 | 30 | 24 | 19 | 16 |
r = 0.3 | 1274 | 320 | 143 | 81 | 53 | 37 | 28 | 22 | 18 | 15 |
r = 0.4 | 1086 | 273 | 123 | 70 | 46 | 32 | 24 | 19 | 16 | 13 |
r = 0.5 | 867 | 219 | 99 | 57 | 37 | 27 | 20 | 16 | 13 | 11 |
r = 0.6 | 633 | 161 | 74 | 43 | 29 | 21 | 16 | 13 | 11 | 10 |
r = 0.7 | 404 | 105 | 49 | 30 | 21 | 15 | 12 | 10 | 9 | 8 |
r = 0.8 | 205 | 56 | 28 | 18 | 14 | 11 | 9 | 8 | 7 | 7 |
r = 0.9 | 63 | 21 | 13 | 11 | 9 | 8 | 7 | 7 | 6 | 6 |
0.05 | 0.1 | 0.15 | 0.2 | 0.25 | 0.3 | 0.35 | 0.4 | 0.45 | 0.5 | |
---|---|---|---|---|---|---|---|---|---|---|
r = 0.1 | 2600 | 650 | 288 | 162 | 103 | 72 | 53 | 40 | 32 | 26 |
r = 0.2 | 2446 | 611 | 271 | 153 | 98 | 68 | 50 | 38 | 30 | 25 |
r = 0.3 | 2198 | 550 | 245 | 138 | 88 | 61 | 45 | 35 | 28 | 23 |
r = 0.4 | 1874 | 469 | 209 | 118 | 76 | 53 | 40 | 31 | 24 | 20 |
r = 0.5 | 1495 | 376 | 168 | 96 | 62 | 44 | 33 | 26 | 21 | 17 |
r = 0.6 | 1091 | 276 | 125 | 72 | 47 | 34 | 26 | 20 | 17 | 14 |
r = 0.7 | 696 | 178 | 82 | 48 | 33 | 24 | 19 | 16 | 13 | 11 |
r = 0.8 | 352 | 94 | 46 | 29 | 21 | 16 | 13 | 12 | 10 | 9 |
r = 0.9 | 106 | 34 | 21 | 17 | 14 | 12 | 11 | 9 | 8 | 7 |
24.2 Nulhypothese-significantietoetsing
In de tabel hieronder staat het aantal deelnemers dat nodig is om een power van \(80\%\), \(90\%\), \(95\%\) en \(99\%\) te bereiken voor populatiecorrelaties van \(.10\) tot \(.90\), uitgaande van een alpha van \(.05\).
80% | 90% | 95% | 99% | |
---|---|---|---|---|
0.1 | 1564 | 2092 | 2586 | 3656 |
0.15 | 692 | 926 | 1142 | 1614 |
0.2 | 388 | 516 | 638 | 900 |
0.25 | 246 | 328 | 404 | 568 |
0.3 | 170 | 224 | 276 | 388 |
0.35 | 122 | 162 | 200 | 280 |
0.4 | 92 | 122 | 150 | 210 |
0.45 | 72 | 94 | 116 | 162 |
0.5 | 58 | 76 | 92 | 128 |
0.55 | 46 | 60 | 74 | 102 |
0.6 | 38 | 50 | 60 | 82 |
0.65 | 32 | 40 | 48 | 66 |
0.7 | 26 | 34 | 40 | 54 |
0.75 | 22 | 28 | 34 | 44 |
0.8 | 18 | 24 | 28 | 36 |
0.85 | 16 | 20 | 22 | 30 |
0.9 | 14 | 16 | 18 | 24 |
In onderstaande tabel staat het aantal deelnemers dat nodig is om een power van \(80%\) te bereiken voor populatiecorrelaties van \(.10\) tot \(.90\), als er in een studie meerdere p-waarden berekend worden. Hierbij wordt ervan uitgegaan dat de onderzoeker de kans op een type 1-fout bij alle correlaties tezamen op \(5\%\) wil houden. De alpha wordt daarom ingesteld op \(5\%\) gedeeld door het aantal correlaties, of eigenlijk \(p\)-waarden, dat berekend wordt.
aantal | alpha | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 |
---|---|---|---|---|---|---|---|---|---|---|
1 | 0.0500 | 1564 | 388 | 170 | 92 | 58 | 38 | 26 | 18 | 14 |
2 | 0.0253 | 1888 | 466 | 204 | 112 | 68 | 46 | 32 | 22 | 16 |
3 | 0.0170 | 2078 | 514 | 224 | 122 | 76 | 50 | 34 | 24 | 16 |
4 | 0.0127 | 2212 | 546 | 238 | 130 | 80 | 52 | 36 | 24 | 16 |
6 | 0.0085 | 2402 | 592 | 258 | 140 | 86 | 56 | 38 | 26 | 18 |
10 | 0.0051 | 2640 | 652 | 284 | 154 | 94 | 62 | 42 | 28 | 20 |
20 | 0.0026 | 2962 | 730 | 318 | 172 | 106 | 68 | 46 | 32 | 22 |
Hieronder staat dezelfde tabel, maar nu voor een power van \(95\%\).
aantal | alpha | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 |
---|---|---|---|---|---|---|---|---|---|---|
1 | 0.0500 | 2586 | 638 | 276 | 150 | 92 | 60 | 40 | 28 | 18 |
2 | 0.0253 | 2998 | 738 | 320 | 174 | 106 | 68 | 46 | 32 | 20 |
3 | 0.0170 | 3236 | 796 | 346 | 186 | 114 | 74 | 50 | 34 | 22 |
4 | 0.0127 | 3404 | 838 | 362 | 196 | 120 | 78 | 52 | 34 | 22 |
6 | 0.0085 | 3638 | 896 | 388 | 210 | 128 | 82 | 54 | 36 | 24 |
10 | 0.0051 | 3930 | 968 | 418 | 226 | 138 | 88 | 58 | 40 | 26 |
20 | 0.0026 | 4322 | 1064 | 460 | 248 | 150 | 98 | 64 | 42 | 28 |
Het is zeldzaam dat er op basis van een dataset slechts één \(p\)-waarde wordt uitgerekend, bijvoorbeeld slechts één correlatie en verder niets. Het aantal \(p\)-waarden ligt in de praktijk meestal in de tientallen. Om de kans op een type 1-fout acceptabel te houden, is het dus bijna altijd nodig om te corrigeren voor multiple testing. In de praktijk gebeurt dit niet altijd voldoende, zelfs niet in gepubliceerd onderzoek. De noodzaak om te corrigeren voor multiple testing resulteert in een lagere power. Dit moet gecompenseerd worden met grotere steekproeven om de kans op type 2-fouten acceptabel te houden. In de praktijk zijn er dus vaak honderden deelnemers nodig om de kans op het trekken van verkeerde conclusies een beetje binnen de perken te houden.