Hoofdstuk 31 Power voor t-toetsen

In dit hoofdstuk wordt besproken:
  • power voor onafhankelijke t-toetsen
  • power voor afhankelijke t-toetsen.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek PB0212
  • Onderzoekspracticum experimenteel onderzoek PB0422
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • T-toetsen en Cohen’s d

31.1 Power van de onafhankelijke t-toets

Net als bij correlaties wordt bij \(t\)-toetsen ook gesproken over power. In deze tabel (Tabel 31.1 ) staat het aantal deelnemers dat nodig is om een power van \(80\%\), \(90\%\), \(95\%\), en \(99\%\) te bereiken uitgaande van waarden van Cohen’s \(d\) in de populatie van \(.1\) tot \(1.3\).

Tabel 31.1: Powertabel voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen’s d van 0.1 tot 0.8.
80% 90% 95% 99%
0.1 3142 4206 5200 7352
0.15 1398 1870 2314 3270
0.2 788 1054 1302 1840
0.25 506 676 834 1178
0.3 352 470 580 820
0.35 260 346 428 602
0.4 200 266 328 462
0.45 158 210 260 366
0.5 128 172 210 296
0.6 90 120 148 208
0.7 68 88 110 152
0.8 52 68 84 118

In de volgende figuur staat de algemene relatie grafisch weergegeven tussen de effectgrootte en de benodigde steekproefomvang bij een bepaalde gewenste power.

Steekproefomvang voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen's d van 0.1 tot 0.3.

Figuur 31.1: Steekproefomvang voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen’s d van 0.1 tot 0.3.

Vroeger werd er, als niet bekend was hoe sterk een verband is, meestal vanuit gegaan dat het een middelsterk verband was (Cohen’s \(d = 0.5\)). Inmiddels blijkt dat dit aan de hoge kant is: effectgroottes in de psychologie liggen vaker net iets boven een klein effect (Cohen’s \(d = 0.2\) tot Cohen’s \(d = 0.3\)).

In al het onderzoek geldt dat hoe meer \(p\)-waarden er worden berekend, hoe groter de kans wordt op type 1-fouten. De powertabel hierboven is alleen bruikbaar als in een studie slechts één \(p\)-waarde wordt berekend. Hieronder de tabel (Tabel 31.2) voor een power van \(80\%\) en berekening van \(1\) tot \(100\) \(p\)-waarden.

Tabel 31.2: Powertabel voor power van 80% met in de kolommen populatiewaarden van Cohen’s \(d\) van .1 tot 1.3 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20
aantal alpha 0.1 0.3 0.5 0.7 0.9 1.1 1.3
1 0.05 3142 352 128 68 42 30 22
2 0.03 3794 424 156 80 50 34 26
3 0.02 4176 468 170 90 56 38 28
4 0.01 4446 498 182 94 60 40 30
6 0.01 4828 540 198 102 64 44 34
10 0.01 5308 594 218 114 70 48 36
20 0.00 5958 666 244 128 80 54 40

En hier voor een power van \(95\%\) (Tabel 31.3):

Tabel 31.3: Powertabel voor power van 95% met in de kolommen populatiewaarden van Cohen’s \(d\) van .1 tot 1.3 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20.
aantal alpha 0.1 0.3 0.5 0.7 0.9 1.1 1.3
1 0.05 5200 580 210 110 68 46 34
2 0.03 6030 674 244 126 78 54 40
3 0.02 6508 726 264 136 84 58 42
4 0.01 6846 764 278 144 88 60 44
6 0.01 7318 818 298 154 94 66 48
10 0.01 7906 882 320 166 102 70 52
20 0.00 8694 972 354 182 112 78 58

Het is niet nodig om al deze getallen uit het hoofd te kennen. Het is wel belangrijk om te beseffen dat degelijk onderzoek vaak honderden deelnemers vereist. Zelfs als wat optimistisch wordt uitgegaan van een verschil tussen gemiddelden van \(d = .5\) zijn met slechts \(80%\) power al \(128\) deelnemers nodig (\(64\) per groep). Als bovendien meerdere \(p\)-waarden worden berekend, neemt het aantal deelnemers al snel verder toe. In studies waarin meerdere \(p\)-waarden worden berekend met minder dan 100 deelnemers zullen veel ‘significante’ uitkomsten dus type 1-fouten representeren. Houdt dit in het achterhoofd bij het bestuderen van wetenschappelijke artikelen en tekstboeken.

31.2 Power voor gepaarde t-toetsen

Hier staat de gebruikelijke powertabel (Tabel 31.4), maar deze keer voor gepaarde \(t\)-toetsen.

Tabel 31.4: Powertabel voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen’s \(d\) van .1 tot 1.3.
80% 90% 95% 99%
0.1 787 1053 1302 1840
0.4 52 68 84 117
0.7 19 24 29 40
1 10 13 16 21
1.3 7 9 10 13

Vergelijking met de tabel voor de onafhankelijke \(t\)-toets maakt duidelijk hoe groot het voordeel van afhankelijke (gepaarde) \(t\)-toetsen is: er zijn veel minder deelnemers nodig. Deze deelnemers moeten natuurlijk wel allemaal tweemaal worden gemeten; elke deelnemer levert immers twee datapunten bij de gepaarde \(t\)-toets. Desalniettemin, zelfs als deze waarden worden verdubbeld zijn ze nog fors lager dan de waarden in de powertabel voor onafhankelijke \(t\)-toetsen.

In de volgende figuur staat de algemene relatie grafisch weergegeven tussen de effectgrootte en de benodigde steekproefomvang bij een bepaalde gewenste power.

Steekproefomvang voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen's d van .1 tot 1.3.

Figuur 31.2: Steekproefomvang voor power van 80%, 90%, 95% en 99%, voor populatiewaarden van Cohen’s d van .1 tot 1.3.

Ook bij gepaarde \(t\)-toetsen speelt multiple testing een rol. Om hier inzicht in te krijgen, hier de powertabel (Tabel 31.5) voor \(80\%\) power en 1 tot 100 p-waarden.

Tabel 31.5: Powertabel gepaarde t-test voor power van 80% met in de kolommen populatiewaarden van Cohen’s \(d\) van .1 tot 1.3 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20
aantal alpha 0.1 0.3 0.5 0.7 0.9 1.1 1.3
1 0.05 787 90 34 19 12 9 7
2 0.03 950 108 41 22 15 11 9
3 0.02 1046 119 45 25 16 12 10
4 0.01 1114 127 48 26 17 13 10
6 0.01 1210 138 52 29 19 14 11
10 0.01 1330 152 57 32 21 15 12
20 0.00 1493 170 65 35 23 17 14

En hier voor een power van \(95\%\) (Tabel 31.6):

Tabel 31.6: Powertabel voor power van 95% met in de kolommen populatiewaarden van Cohen’s \(d\) van .1 tot 1.3 en in de rijen het aantal \(p\)-waarden in een studie, variërend van 1 tot 20.
aantal alpha 0.1 0.3 0.5 0.7 0.9 1.1 1.3
1 0.05 1302 147 54 29 19 13 10
2 0.03 1509 170 63 34 22 16 12
3 0.02 1630 184 68 37 24 17 13
4 0.01 1714 194 72 39 25 18 14
6 0.01 1832 207 77 41 27 19 15
10 0.01 1980 224 83 45 29 21 16
20 0.00 2177 246 92 49 32 23 18

Of je mensen vaker meet of verschillende groepen onderzoekt, heeft dus verregaande consequenties voor je analyses. Er zijn minder deelnemers nodig bij herhaalde metingen, maar dit heeft ook nadelen, in het bijzonder de zogenaamde volgorde-effecten.