Hoofdstuk 42 Power voor t-toetsen

In dit hoofdstuk wordt besproken:
  • Power voor onafhankelijke t-toetsen
  • Power voor afhankelijke t-toetsen
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek (PB0212)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Twee groepen vergelijken

42.1 Power van de onafhankelijke t-toets

Net als bij correlaties wordt bij \(t\)-toetsen ook gesproken over power. In deze tabel (Tabel 42.1 ) staat het aantal deelnemers dat nodig is om een power van \(80\%\), \(90\%\), \(95\%\), en \(99\%\) te bereiken uitgaande van waarden van Cohen’s \(d\) in de populatie van \(.1\) tot \(1.3\).

Tabel 42.1: Powertabel voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen’s d van 0.1 tot 0.8.
80% 90% 95% 99%
0.1 3142 4206 5200 7352
0.15 1398 1870 2314 3270
0.2 788 1054 1302 1840
0.25 506 676 834 1178
0.3 352 470 580 820
0.35 260 346 428 602
0.4 200 266 328 462
0.45 158 210 260 366
0.5 128 172 210 296
0.6 90 120 148 208
0.7 68 88 110 152
0.8 52 68 84 118

In de volgende figuur staat de algemene relatie grafisch weergegeven tussen de effectgrootte en de benodigde steekproefomvang bij een bepaalde gewenste power.

Steekproefomvang voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen's d van 0.1 tot 0.3.

Figuur 42.1: Steekproefomvang voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen’s d van 0.1 tot 0.3.

Vroeger werd er, als niet bekend was hoe sterk een verband is, meestal vanuit gegaan dat het een middelsterk verband was (Cohen’s \(d = 0.5\)). Inmiddels blijkt dat dit aan de hoge kant is: effectgroottes in de psychologie liggen vaker net iets boven een klein effect (Cohen’s \(d = 0.2\) tot Cohen’s \(d = 0.3\)) (Gignac & Szodorai, 2016; Lovakov & Agadullina, 2017; Richard et al., 2003; shafer_meaningfulness_2017?).

In al het onderzoek geldt dat hoe meer \(p\)-waarden er worden berekend, hoe groter de kans wordt op type 1-fouten. De powertabel hierboven is alleen bruikbaar als in een studie slechts één \(p\)-waarde wordt berekend. Hieronder de tabel (Tabel 42.2) voor een power van \(80\%\) en berekening van \(1\) tot \(100\) \(p\)-waarden.

Tabel 42.2: Powertabel voor power van 80% met in de kolommen populatiewaarden van Cohen’s \(d\) van .1 tot 1.3 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20
aantal alpha 0.1 0.3 0.5 0.7 0.9 1.1 1.3
1 0.0500 3142 352 128 68 42 30 22
2 0.0253 3794 424 156 80 50 34 26
3 0.0170 4176 468 170 90 56 38 28
4 0.0127 4446 498 182 94 60 40 30
6 0.0085 4828 540 198 102 64 44 34
10 0.0051 5308 594 218 114 70 48 36
20 0.0026 5958 666 244 128 80 54 40

En hier voor een power van \(95\%\) (Tabel 42.3):

Tabel 42.3: Powertabel voor power van 95% met in de kolommen populatiewaarden van Cohen’s \(d\) van .1 tot 1.3 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20.
aantal alpha 0.1 0.3 0.5 0.7 0.9 1.1 1.3
1 0.0500 5200 580 210 110 68 46 34
2 0.0253 6030 674 244 126 78 54 40
3 0.0170 6508 726 264 136 84 58 42
4 0.0127 6846 764 278 144 88 60 44
6 0.0085 7318 818 298 154 94 66 48
10 0.0051 7906 882 320 166 102 70 52
20 0.0026 8694 972 354 182 112 78 58

Het is niet nodig om al deze getallen uit het hoofd te kennen. Het is wel belangrijk om te beseffen dat degelijk onderzoek vaak honderden deelnemers vereist. Zelfs als wat optimistisch wordt uitgegaan van een verschil tussen gemiddelden van \(d\) = .5 zijn met slechts 80% power al 128 deelnemers nodig (64 per groep). Als bovendien meerdere \(p\)-waarden worden berekend, neemt het aantal deelnemers al snel verder toe. In studies waarin meerdere \(p\)-waarden worden berekend met minder dan 100 deelnemers zullen veel ‘significante’ uitkomsten dus type 1-fouten representeren. Houdt dit in het achterhoofd bij het bestuderen van wetenschappelijke artikelen en tekstboeken.

42.2 Power voor gepaarde t-toetsen

Hier staat de gebruikelijke powertabel (Tabel 42.4), maar deze keer voor gepaarde \(t\)-toetsen.

Tabel 42.4: Powertabel voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen’s \(d\) van .1 tot 1.3.
80% 90% 95% 99%
0.1 787 1053 1302 1840
0.4 52 68 84 117
0.7 19 24 29 40
1 10 13 16 21
1.3 7 9 10 13

Vergelijking met de tabel voor de onafhankelijke \(t\)-toets maakt duidelijk hoe groot het voordeel van afhankelijke (gepaarde) \(t\)-toetsen is: er zijn veel minder deelnemers nodig. Deze deelnemers moeten natuurlijk wel allemaal tweemaal worden gemeten; elke deelnemer levert immers twee datapunten bij de gepaarde \(t\)-toets. Desalniettemin, zelfs als deze waarden worden verdubbeld zijn ze nog fors lager dan de waarden in de powertabel voor onafhankelijke \(t\)-toetsen.

In de volgende figuur staat de algemene relatie grafisch weergegeven tussen de effectgrootte en de benodigde steekproefomvang bij een bepaalde gewenste power.

Steekproefomvang voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen's d van .1 tot 1.3.

Figuur 42.2: Steekproefomvang voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen’s d van .1 tot 1.3.

Ook bij gepaarde \(t\)-toetsen speelt multiple testing een rol. Om hier inzicht in te krijgen, hier de powertabel (Tabel 42.5) voor \(80\%\) power en 1 tot 100 p-waarden.

Tabel 42.5: Powertabel gepaarde t-test voor power van 80% met in de kolommen populatiewaarden van Cohen’s \(d\) van .1 tot 1.3 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20
aantal alpha 0.1 0.3 0.5 0.7 0.9 1.1 1.3
1 0.0500 787 90 34 19 12 9 7
2 0.0253 950 108 41 22 15 11 9
3 0.0170 1046 119 45 25 16 12 10
4 0.0127 1114 127 48 26 17 13 10
6 0.0085 1210 138 52 29 19 14 11
10 0.0051 1330 152 57 32 21 15 12
20 0.0026 1493 170 65 35 23 17 14

En hier voor een power van \(95\%\) (Tabel 42.6):

Tabel 42.6: Powertabel voor power van 95% met in de kolommen populatiewaarden van Cohen’s \(d\) van .1 tot 1.3 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20.
aantal alpha 0.1 0.3 0.5 0.7 0.9 1.1 1.3
1 0.0500 1302 147 54 29 19 13 10
2 0.0253 1509 170 63 34 22 16 12
3 0.0170 1630 184 68 37 24 17 13
4 0.0127 1714 194 72 39 25 18 14
6 0.0085 1832 207 77 41 27 19 15
10 0.0051 1980 224 83 45 29 21 16
20 0.0026 2177 246 92 49 32 23 18

Of je mensen vaker meet of verschillende groepen onderzoekt, heeft dus verregaande consequenties voor je analyses. Er zijn minder deelnemers nodig bij herhaalde metingen, maar dit heeft ook nadelen, in het bijzonder de zogenaamde volgorde-effecten.

Referenties

Gignac, G. E., & Szodorai, E. T. (2016). Effect size guidelines for individual differences researchers. Personality and Individual Differences, 102, 74–78. https://doi.org/10.1016/j.paid.2016.06.069
Lovakov, A., & Agadullina, E. (2017). Empirically derived guidelines for interpreting effect size in social psychology. PsyArXiv. https://doi.org/10.17605/osf.io/2epc4
Richard, F. D., Bond, C. F., & Stokes-Zoota, J. J. (2003). One hundred years of social psychology quantitatively described. Review of General Psychology, 7(4), 331–363. https://doi.org/10.1037/1089-2680.7.4.331