Hoofdstuk 31 Power voor t-toetsen
- power voor onafhankelijke t-toetsen
- power voor afhankelijke t-toetsen.
- Onderzoekspracticum inleiding onderzoek PB0212
- Onderzoekspracticum experimenteel onderzoek PB0422
- T-toetsen en Cohen’s d
31.1 Power van de onafhankelijke t-toets
Net als bij correlaties wordt bij \(t\)-toetsen ook gesproken over power. In deze tabel (Tabel 31.1 ) staat het aantal deelnemers dat nodig is om een power van \(80\%\), \(90\%\), \(95\%\), en \(99\%\) te bereiken uitgaande van waarden van Cohen’s \(d\) in de populatie van \(.1\) tot \(1.3\).
80% | 90% | 95% | 99% | |
---|---|---|---|---|
0.1 | 3142 | 4206 | 5200 | 7352 |
0.15 | 1398 | 1870 | 2314 | 3270 |
0.2 | 788 | 1054 | 1302 | 1840 |
0.25 | 506 | 676 | 834 | 1178 |
0.3 | 352 | 470 | 580 | 820 |
0.35 | 260 | 346 | 428 | 602 |
0.4 | 200 | 266 | 328 | 462 |
0.45 | 158 | 210 | 260 | 366 |
0.5 | 128 | 172 | 210 | 296 |
0.6 | 90 | 120 | 148 | 208 |
0.7 | 68 | 88 | 110 | 152 |
0.8 | 52 | 68 | 84 | 118 |
In de volgende figuur staat de algemene relatie grafisch weergegeven tussen de effectgrootte en de benodigde steekproefomvang bij een bepaalde gewenste power.
Vroeger werd er, als niet bekend was hoe sterk een verband is, meestal vanuit gegaan dat het een middelsterk verband was (Cohen’s \(d = 0.5\)). Inmiddels blijkt dat dit aan de hoge kant is: effectgroottes in de psychologie liggen vaker net iets boven een klein effect (Cohen’s \(d = 0.2\) tot Cohen’s \(d = 0.3\)).
In al het onderzoek geldt dat hoe meer \(p\)-waarden er worden berekend, hoe groter de kans wordt op type 1-fouten. De powertabel hierboven is alleen bruikbaar als in een studie slechts één \(p\)-waarde wordt berekend. Hieronder de tabel (Tabel 31.2) voor een power van \(80\%\) en berekening van \(1\) tot \(100\) \(p\)-waarden.
aantal | alpha | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 | 1.1 | 1.3 |
---|---|---|---|---|---|---|---|---|
1 | 0.05 | 3142 | 352 | 128 | 68 | 42 | 30 | 22 |
2 | 0.03 | 3794 | 424 | 156 | 80 | 50 | 34 | 26 |
3 | 0.02 | 4176 | 468 | 170 | 90 | 56 | 38 | 28 |
4 | 0.01 | 4446 | 498 | 182 | 94 | 60 | 40 | 30 |
6 | 0.01 | 4828 | 540 | 198 | 102 | 64 | 44 | 34 |
10 | 0.01 | 5308 | 594 | 218 | 114 | 70 | 48 | 36 |
20 | 0.00 | 5958 | 666 | 244 | 128 | 80 | 54 | 40 |
En hier voor een power van \(95\%\) (Tabel 31.3):
aantal | alpha | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 | 1.1 | 1.3 |
---|---|---|---|---|---|---|---|---|
1 | 0.05 | 5200 | 580 | 210 | 110 | 68 | 46 | 34 |
2 | 0.03 | 6030 | 674 | 244 | 126 | 78 | 54 | 40 |
3 | 0.02 | 6508 | 726 | 264 | 136 | 84 | 58 | 42 |
4 | 0.01 | 6846 | 764 | 278 | 144 | 88 | 60 | 44 |
6 | 0.01 | 7318 | 818 | 298 | 154 | 94 | 66 | 48 |
10 | 0.01 | 7906 | 882 | 320 | 166 | 102 | 70 | 52 |
20 | 0.00 | 8694 | 972 | 354 | 182 | 112 | 78 | 58 |
Het is niet nodig om al deze getallen uit het hoofd te kennen. Het is wel belangrijk om te beseffen dat degelijk onderzoek vaak honderden deelnemers vereist. Zelfs als wat optimistisch wordt uitgegaan van een verschil tussen gemiddelden van \(d = .5\) zijn met slechts \(80%\) power al \(128\) deelnemers nodig (\(64\) per groep). Als bovendien meerdere \(p\)-waarden worden berekend, neemt het aantal deelnemers al snel verder toe. In studies waarin meerdere \(p\)-waarden worden berekend met minder dan 100 deelnemers zullen veel ‘significante’ uitkomsten dus type 1-fouten representeren. Houdt dit in het achterhoofd bij het bestuderen van wetenschappelijke artikelen en tekstboeken.
31.2 Power voor gepaarde t-toetsen
Hier staat de gebruikelijke powertabel (Tabel 31.4), maar deze keer voor gepaarde \(t\)-toetsen.
80% | 90% | 95% | 99% | |
---|---|---|---|---|
0.1 | 787 | 1053 | 1302 | 1840 |
0.4 | 52 | 68 | 84 | 117 |
0.7 | 19 | 24 | 29 | 40 |
1 | 10 | 13 | 16 | 21 |
1.3 | 7 | 9 | 10 | 13 |
Vergelijking met de tabel voor de onafhankelijke \(t\)-toets maakt duidelijk hoe groot het voordeel van afhankelijke (gepaarde) \(t\)-toetsen is: er zijn veel minder deelnemers nodig. Deze deelnemers moeten natuurlijk wel allemaal tweemaal worden gemeten; elke deelnemer levert immers twee datapunten bij de gepaarde \(t\)-toets. Desalniettemin, zelfs als deze waarden worden verdubbeld zijn ze nog fors lager dan de waarden in de powertabel voor onafhankelijke \(t\)-toetsen.
In de volgende figuur staat de algemene relatie grafisch weergegeven tussen de effectgrootte en de benodigde steekproefomvang bij een bepaalde gewenste power.
Ook bij gepaarde \(t\)-toetsen speelt multiple testing een rol. Om hier inzicht in te krijgen, hier de powertabel (Tabel 31.5) voor \(80\%\) power en 1 tot 100 p-waarden.
aantal | alpha | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 | 1.1 | 1.3 |
---|---|---|---|---|---|---|---|---|
1 | 0.05 | 787 | 90 | 34 | 19 | 12 | 9 | 7 |
2 | 0.03 | 950 | 108 | 41 | 22 | 15 | 11 | 9 |
3 | 0.02 | 1046 | 119 | 45 | 25 | 16 | 12 | 10 |
4 | 0.01 | 1114 | 127 | 48 | 26 | 17 | 13 | 10 |
6 | 0.01 | 1210 | 138 | 52 | 29 | 19 | 14 | 11 |
10 | 0.01 | 1330 | 152 | 57 | 32 | 21 | 15 | 12 |
20 | 0.00 | 1493 | 170 | 65 | 35 | 23 | 17 | 14 |
En hier voor een power van \(95\%\) (Tabel 31.6):
aantal | alpha | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 | 1.1 | 1.3 |
---|---|---|---|---|---|---|---|---|
1 | 0.05 | 1302 | 147 | 54 | 29 | 19 | 13 | 10 |
2 | 0.03 | 1509 | 170 | 63 | 34 | 22 | 16 | 12 |
3 | 0.02 | 1630 | 184 | 68 | 37 | 24 | 17 | 13 |
4 | 0.01 | 1714 | 194 | 72 | 39 | 25 | 18 | 14 |
6 | 0.01 | 1832 | 207 | 77 | 41 | 27 | 19 | 15 |
10 | 0.01 | 1980 | 224 | 83 | 45 | 29 | 21 | 16 |
20 | 0.00 | 2177 | 246 | 92 | 49 | 32 | 23 | 18 |
Of je mensen vaker meet of verschillende groepen onderzoekt, heeft dus verregaande consequenties voor je analyses. Er zijn minder deelnemers nodig bij herhaalde metingen, maar dit heeft ook nadelen, in het bijzonder de zogenaamde volgorde-effecten.