Hoofdstuk 31 Power voor correlaties
- steekproef omvang en power bij correlaties.
- Onderzoekspracticum inleiding onderzoek PB0212
- Onderzoekspracticum cross-sectioneel onderzoek PB0812
31.1 Correlaties schatten
Voordat een studie wordt uitgevoerd, is het vaak nodig om te berekenen hoeveel deelnemers er nodig zijn. Vaak willen onderzoekers effectgroottes zoals de correlatiecoëfficiënt berekenen en willen deze met een bepaalde accuraatheid kunnen schatten. In andere woorden, onderzoekers willen een betrouwbaarheidsinterval met een gegeven maximale breedte verkrijgen rondom hun schatting van een correlatie.
Een betrouwbaarheidsinterval van \(.10\) breed is bijvoorbeeld een interval dat loopt van \(.35\) tot \(.45\) bij een puntschatting van de correlatie van \(.40\). De helft van het betrouwbaarheidsinterval, dat is de afstand van de puntschatting tot de rand van het interval, wordt ook wel de foutenmarge genoemd. Bij een betrouwbaarheidsinterval van \(.10\) varieert de benodigde steekproef van ruim \(1500\) deelnemers, als een hele lage correlatie wordt verwacht, tot ruim \(60\) deelnemers, als een correlatie van bijna \(1\) wordt verwacht.
Natuurlijk kunnen onderzoekers ook genoegen nemen met bredere intervallen. Bij een steekproefcorrelatie van \(.40\) zou een betrouwbaarheidsinterval van \(.30\) breed alle correlaties van \(.25\) tot \(.55\) bevatten. Als een betrouwbaarheidsinterval van \(.30\) volstaat, zijn zelfs bij een hele lage verwachte populatiecorrelatie \(171\) deelnemers voldoende. Het nadeel van zulke brede intervallen is dat de populatiecorrelatie dan zowel een zwak verband (want \(.25\) is lager dan \(.30\)) als een sterk verband (want \(.55\) is hoger dan \(.50\)) zou kunnen zijn. Op basis van een dergelijke studie zou de conclusie dus zijn dat het verband waarschijnlijk zwak, middelsterk of sterk is. Het liefst trekken onderzoekers natuurlijk accurater conclusies. De prijs hiervoor is grotere steekproeven.
Hieronder is in de tabellen te zien hoeveel deelnemers nodig zijn bij een bepaalde correlatie en betrouwbaarheidsinterval.
0.05 | 0.1 | 0.15 | 0.2 | 0.25 | 0.3 | 0.35 | 0.4 | 0.45 | 0.5 | |
---|---|---|---|---|---|---|---|---|---|---|
r = 0.1 | 1507 | 378 | 168 | 95 | 61 | 43 | 32 | 25 | 20 | 16 |
r = 0.2 | 1417 | 355 | 159 | 90 | 58 | 41 | 30 | 24 | 19 | 16 |
r = 0.3 | 1274 | 320 | 143 | 81 | 53 | 37 | 28 | 22 | 18 | 15 |
r = 0.4 | 1086 | 273 | 123 | 70 | 46 | 32 | 24 | 19 | 16 | 13 |
r = 0.5 | 867 | 219 | 99 | 57 | 37 | 27 | 20 | 16 | 13 | 11 |
r = 0.6 | 633 | 161 | 74 | 43 | 29 | 21 | 16 | 13 | 11 | 10 |
r = 0.7 | 404 | 105 | 49 | 30 | 21 | 15 | 12 | 10 | 9 | 8 |
r = 0.8 | 205 | 56 | 28 | 18 | 14 | 11 | 9 | 8 | 7 | 7 |
r = 0.9 | 63 | 21 | 13 | 11 | 9 | 8 | 7 | 7 | 6 | 6 |
0.05 | 0.1 | 0.15 | 0.2 | 0.25 | 0.3 | 0.35 | 0.4 | 0.45 | 0.5 | |
---|---|---|---|---|---|---|---|---|---|---|
r = 0.1 | 2600 | 650 | 288 | 162 | 103 | 72 | 53 | 40 | 32 | 26 |
r = 0.2 | 2446 | 611 | 271 | 153 | 98 | 68 | 50 | 38 | 30 | 25 |
r = 0.3 | 2198 | 550 | 245 | 138 | 88 | 61 | 45 | 35 | 28 | 23 |
r = 0.4 | 1874 | 469 | 209 | 118 | 76 | 53 | 40 | 31 | 24 | 20 |
r = 0.5 | 1495 | 376 | 168 | 96 | 62 | 44 | 33 | 26 | 21 | 17 |
r = 0.6 | 1091 | 276 | 125 | 72 | 47 | 34 | 26 | 20 | 17 | 14 |
r = 0.7 | 696 | 178 | 82 | 48 | 33 | 24 | 19 | 16 | 13 | 11 |
r = 0.8 | 352 | 94 | 46 | 29 | 21 | 16 | 13 | 12 | 10 | 9 |
r = 0.9 | 106 | 34 | 21 | 17 | 14 | 12 | 11 | 9 | 8 | 7 |
In Figuur 31.1 is de steekproefgrootte getoond als functie van de foutenmarge voor drie correlaties.
In Tabel 31.1 staat vergelijkbare informatie. De figuur laat onder andere zien dat je op basis van enkele personen, bijvoorbeeld \(10\), wel een correlatie kan schatten, maar dat deze dan zeer onnauwkeurig zal zijn (grote foutenmarge). Marges kleiner dan \(0.1\) kunnen alleen bij hele grote steekproeven worden bereikt.

Figuur 31.1: Steekproefomvang bij power van 95%, voor diverse foutenmarges en correlaties 0.2, 0.4 en 0.6.
31.2 Nulhypothese-significantietoetsing
In de tabellen 31.1 en 31.2 staan de vereiste steekproeven, gegeven een bepaalde nauwkeurigheid van de schatting van de correlatie. Bij nulhypothese-significantietoetsing gaat het erom te toetsen of de correlatie van \(0\) afwijkt, de nulhypothese zegt namelijk dat \(r = 0\). Ook bij nulhypothese-significantietoetsing is er sprake van power en is de vereiste steekproef afhankelijk van de gewenste power.
In Tabel 31.3 staat het aantal deelnemers dat nodig is om een power van \(80\%\), \(90\%\), \(95\%\) en \(99\%\) te bereiken voor populatiecorrelaties van \(.10\) tot \(.90\), uitgaande van een alpha van \(.05\).
80% | 90% | 95% | 99% | |
---|---|---|---|---|
0.1 | 782 | 1046 | 1293 | 1828 |
0.15 | 346 | 463 | 571 | 807 |
0.2 | 194 | 258 | 319 | 450 |
0.25 | 123 | 164 | 202 | 284 |
0.3 | 85 | 112 | 138 | 194 |
0.35 | 61 | 81 | 100 | 140 |
0.4 | 46 | 61 | 75 | 105 |
0.45 | 36 | 47 | 58 | 81 |
0.5 | 29 | 38 | 46 | 64 |
0.55 | 23 | 30 | 37 | 51 |
0.6 | 19 | 25 | 30 | 41 |
0.65 | 16 | 20 | 24 | 33 |
0.7 | 13 | 17 | 20 | 27 |
0.75 | 11 | 14 | 17 | 22 |
0.8 | 9 | 12 | 14 | 18 |
0.85 | 8 | 10 | 11 | 15 |
0.9 | 7 | 8 | 9 | 12 |
In Figuur 31.2 is de voor nulhypothesetoetsing vereiste steekproefomvang getoond als functie van de correlatie en bij een power van \(80\%\), \(90\%\) en \(99\%\). De figuur is afgekapt bij \(n=400\), maar het is duidelijk dat de steekproef heel groot moet zijn om lage correlaties te toetsen tegen de nulhypothese.

Figuur 31.2: Steekproefomvang voor power van 80%, 90% en 99%, voor diverse populatiewaarden van de correlatie.
31.2.1 Meerdere correlaties tegelijk schatten
Het is zeldzaam dat er op basis van een dataset slechts één \(p\)-waarde wordt uitgerekend. Het aantal \(p\)-waarden ligt in de praktijk meestal hoger. Om de kans op een type 1-fout acceptabel te houden, is het dus bijna altijd nodig om te corrigeren voor multiple testing (kanskapitalisatie). Dit gebeurt meestal via de Bonferroni of Sidak correctie, die het phenomeen van kanskapitalisatie tegengaan (lees meer over kanskapitalisatie in het hoofstuk over variantieanalyse). In de praktijk gebeurt dit niet altijd voldoende, zelfs niet in gepubliceerd onderzoek. De noodzaak om te corrigeren voor multiple testing resulteert in een lagere power. Dit moet gecompenseerd worden met grotere steekproeven om de kans op type 2-fouten acceptabel te houden.
In Tabel 31.4 staat het aantal deelnemers dat nodig is om een power van \(80\%\) te bereiken voor populatiecorrelaties van \(.10\) tot \(.90\), als er in een studie meerdere p-waarden berekend worden. Hierbij wordt ervan uitgegaan dat de onderzoeker de kans op een type 1-fout bij alle correlaties tezamen op \(5\%\) wil houden. De aangepaste alpha per toets wordt daarom naar beneden bijgesteld (alpha_adj genoemd in Tabel 31.4), en wel zodanig dat de type 1-fout op \(5\%\) blijft.
aantal | alpha_adj | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 |
---|---|---|---|---|---|---|---|---|---|---|
1 | 0.0500 | 1564 | 388 | 170 | 92 | 58 | 38 | 26 | 18 | 14 |
2 | 0.0253 | 1888 | 466 | 204 | 112 | 68 | 46 | 32 | 22 | 16 |
3 | 0.0170 | 2078 | 514 | 224 | 122 | 76 | 50 | 34 | 24 | 16 |
4 | 0.0127 | 2212 | 546 | 238 | 130 | 80 | 52 | 36 | 24 | 16 |
6 | 0.0085 | 2402 | 592 | 258 | 140 | 86 | 56 | 38 | 26 | 18 |
10 | 0.0051 | 2640 | 652 | 284 | 154 | 94 | 62 | 42 | 28 | 20 |
20 | 0.0026 | 2962 | 730 | 318 | 172 | 106 | 68 | 46 | 32 | 22 |
Tabel 31.5 is dezelfde tabel, maar nu voor een power van \(95\%\).
aantal | alpha_adj | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 |
---|---|---|---|---|---|---|---|---|---|---|
1 | 0.0500 | 2586 | 638 | 276 | 150 | 92 | 60 | 40 | 28 | 18 |
2 | 0.0253 | 2998 | 738 | 320 | 174 | 106 | 68 | 46 | 32 | 20 |
3 | 0.0170 | 3236 | 796 | 346 | 186 | 114 | 74 | 50 | 34 | 22 |
4 | 0.0127 | 3404 | 838 | 362 | 196 | 120 | 78 | 52 | 34 | 22 |
6 | 0.0085 | 3638 | 896 | 388 | 210 | 128 | 82 | 54 | 36 | 24 |
10 | 0.0051 | 3930 | 968 | 418 | 226 | 138 | 88 | 58 | 40 | 26 |
20 | 0.0026 | 4322 | 1064 | 460 | 248 | 150 | 98 | 64 | 42 | 28 |