Hoofdstuk 19 Nulhypothese-significantietoetsing

In dit hoofdstuk wordt besproken:
  • Nulhypothese-significantietoetsing
  • P-waarden
  • Power
  • Multiple testing
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek (PB0212)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Datasets
  • Verdelingen
  • Steekproevenverdelingen
  • Betrouwbaarheidsintervallen
  • Samenhang in data
  • Correlaties

19.1 Inleiding

Dit hoofdstuk bouwt voort op de eerdere hoofdstukken in dit deel van het boek, maar ook op het hoofdstuk Correlaties (hoofdstuk 28 in deze versie van het boek). Dat hoofdstuk komt pas verderop aan bod. Zoals in het begin aangegeven, is dit geen lineair opgezet boek, maar is het meer bedoeld als referentiewerk. Kort samengevat: de correlatiecoëfficiënt of simpelweg correlatie of Pearson’s \(r\) drukt uit hoe sterk twee continue variabelen (dus minimaal intervalniveau) met elkaar samenhangen. De correlatie kan alleen een waarde tussen \(-1\) en \(1\) aannemen.

In dit hoofdstuk gebruiken we de Palmer Penguins dataset ter illustratie. Deze dataset bevat informatie over drie pinguïnsoorten. Meer informatie is beschikbaar op https://allisonhorst.github.io/palmerpenguins. In dit hoofdstuk gebruiken we data van \(20\) pinguïns uit deze dataset.

Omdat het meestal niet mogelijk is om de gehele populatie te onderzoeken, nemen wetenschappers steekproeven. Op het moment dat een steekproef wordt genomen, wordt de rol van toeval geïntroduceerd. Dit toevalsmes snijdt aan twee kanten. Enerzijds is het mogelijk, onder de aanname dat een steekproef willekeurig getrokken is uit een populatie, om uitspraken te doen over de populatie op basis van die steekproef. Anderzijds is van de patronen die je observeert in een gegeven steekproef nooit bekend of je nu naar toeval (ruis, zoals meetfout of steekproeftoeval) zit te kijken, of naar patronen die iets zeggen over de populatie.

De oplossing voor dit tweezijdig zwaard wordt vaak gezocht in de steekproevenverdeling. Hoewel elke waarde die uit een steekproef berekend kan worden, zoals een gemiddelde, een standaarddeviatie of een correlatie, als puntschatting weinig informatief is, weten we altijd zeker dat die waarde uit een steekproevenverdeling komt. Door deze te gebruiken kunnen we betrouwbaarheidsintervallen opstellen, waarmee we een indruk kunnen krijgen van hoe ver onze puntschattingen mogelijk van de populatiewaarde afliggen.

Het komen tot betrouwbaarheidsintervallen vereist wel vaak complexe berekeningen. Bij het gemiddelde is dat nog wel te doen met de hand, maar bij de correlatie is op zijn minst een rekenmachine nodig, en dan moet je al heel goed weten wat je doet. Vroeger was dit dus vaak niet haalbaar. In plaats daarvan werd een andere, meer handzame, methode ontwikkeld om een inschatting te kunnen maken over de accuraatheid van de puntschatting.

19.2 De nulhypothese

Om niet steeds de steekproevenverdeling voor een gegeven steekproefomvang en puntschatting op te hoeven stellen, moest een manier gevonden worden om toch conclusies te kunnen trekken over plausibele populatiewaarden.

De oplossing lag in het concept van de “nulhypothese”. Het concept van de nulhypothese komt voort uit het gegeven dat wetenschappers in fundamenteel onderzoek vaak op basis van heel veel observaties theorieën formuleren, waaruit vervolgens voorspellingen afgeleid kunnen worden. Als vervolgens data verzameld worden die informatie geven over of die voorspelling uitkomt, kan worden bepaald of de opgestelde theorie klopt. De nulhypothese is precies het omgekeerde: deze drukt uit wat je verwacht te vinden als de theoretische voorspelling niet klopt.

In veel onderzoek betreft een theoretische voorspelling een verband tussen twee (of meer) variabelen. De nulhypothese beschrijft dan juist een situatie waarin er geen verband bestaat. De “nul” in het woord “nulhypothese” staat echter niet voor \(0\). In het Engels is nulhypothese dan ook niet “zero hypothesis” maar “null hypothesis.” De “nul” staat voor “zonder theoretische voorspelling”, oftewel, in een “lege situatie”, afgeleid uit het Latijnse woord “nullus” dat “geen” betekent.

Deze nulhypothese is natuurlijk in veel onderzoek hetzelfde. Als correlaties worden onderzocht, is de nulhypothese meestal, maar niet altijd \(r = 0\), oftewel de twee variabelen hangen niet met elkaar samen. Eigenlijk is de nulhypothese \(\rho = 0\), want er worden Griekse in plaats van Latijnse letters gebruikt als het over de populatie gaat en \(\rho\) is de populatiewaarde van de correlatie.

Als een van beide variabelen dichotoom is, wordt de hypothesestelling meestal benaderd als het verschil tussen twee groepen (oftewel de twee waarden van de dichotome variabele). In dat geval is de nulhypothese meestal, maar niet altijd, \(\overline{x_1} = \overline{x_2}\) (of eigenlijk \(\mu_1 = \mu_2\), omdat \(\mu\) het populatiegemiddelde is).

Voor deze veel voorkomende nulhypothesen zijn steekproevenverdelingen opgesteld door middel van situaties die deze nulhypothesen representeerden. Daarmee was het mogelijk om voor een gegeven puntschatting uit een steekproef op te zoeken hoe groot de kans ongeveer was dat je die puntschatting zou vinden als hij afkomstig zou zijn geweest uit zo’n nulhypothesesteekproevenverdeling. Deze kans heet de \(p\)-waarde. De \(p\)-waarde wordt nu eerst uitgelegd, voordat ingegaan wordt op wat je daar aan hebt.

19.3 De p-waarde

De \(p\)-waarde is de kans op een gegeven puntschatting (of een extremere waarde) als die uit een gegeven steekproevenverdeling afkomstig zou zijn. In de praktijk is die steekproevenverdeling bijna altijd de steekproevenverdeling die zou gelden als de nulhypothese waar zou zijn, en de puntschatting de puntschatting uit de eigen steekproef.

Zoals gezegd is de \(p\)-waarde meestal de kans op een gegeven puntschatting of een extremere waarde. Met een extremere waarde wordt hier een waarde bedoeld die verder van de nulhypothesewaarde afligt. Bij een nulhypothesewaarde van \(0\) is dat dus een hogere waarde voor een positieve puntschatting en een lagere waarde voor een negatieve puntschatting. Als een waarde bovendien zowel positief als negatief kan zijn, zoals het geval is bij correlaties, dan betekent “extremer” niet alleen hoger of lager, maar ook verder van \(0\) af in de andere richting. Bij een puntschatting van \(r = .30\) zijn de extremere waarden dus alle correlaties van \(r > .30\) én alle correlaties van \(r < -.30\).

Als de nulhypothese waar is en je berekent de \(p\)-waarde altijd onder de aanname dat dat zo is, dan zijn alle afwijkingen van \(r = 0\) namelijk altijd het gevolg van toeval. Toeval kan net zo goed tot positieve als tot negatieve correlaties leiden.

Laten we naar een praktijkvoorbeeld kijken. Van onze \(20\) pinguïns zijn flipperlengte, lichaamsgewicht, snavellengte en snavelhoogte gemeten. We zijn geïnteresseerd in het verband tussen die eerste twee (flipperlengte en lichaamsgewicht) en tussen de laatste twee (snavellengte en snavelhoogte). Deze verbanden zijn geïllustreerd in twee scatterplots in figuur 19.1.

Herhaling van de twee scatterplots voor het verband tussen flipperlengte en gewicht en tussen snavellengte en snavelhoogte

Figuur 19.1: Herhaling van de twee scatterplots voor het verband tussen flipperlengte en gewicht en tussen snavellengte en snavelhoogte

Het verband tussen flipperlengte en lichaamsgewicht lijkt positief, en het verband tussen snavellengte en snavelhoogte lijkt negatief. We kunnen deze verbanden uitdrukken in de bijbehorende correlatiecoëfficiënten zoals berekend in vergelijkingen (19.1) en (19.2).

\[\begin{equation} r = \frac{\text{covariantie}_{xy}}{sd_x sd_y} = \frac{ 4227.11 }{ 11.71 \times 509.09 } = 0.71 \tag{19.1} \end{equation}\]

\[\begin{equation} r = \frac{\text{covariantie}_{xy}}{sd_x sd_y} = \frac{ -2.72 }{ 5.62 \times 2.15 } = -0.23 \tag{19.2} \end{equation}\]

We weten niet uit welke steekproevenverdelingen deze twee correlaties komen. Als deze namelijk bekend zouden zijn geweest, hadden we de populatiewaarden van deze correlaties gekend en hadden we deze niet uit onze steekproef hoeven te berekenen.

De \(p\)-waarde kunnen we alleen uitrekenen onder de aanname dat de nulhypothese waar is. De populatiewaarde van de correlatie is dan gelijk aan de waarde van de correlatie volgens de nulhypothese: \(r = 0\). Daarvoor kunnen we de steekproevenverdeling wel opstellen. In ons geval met twintig deelnemers (pinguïns) is deze weergegeven in figuur 19.2.

Steekproevenverdeling voor een populatiecorrelatie van $r = 0$ en een steekproefomvang van $20$

Figuur 19.2: Steekproevenverdeling voor een populatiecorrelatie van \(r = 0\) en een steekproefomvang van \(20\)

Deze steekproevenverdeling bevat alle mogelijke steekproefwaarden voor de correlatie, onder de aanname dat de nulhypothese waar is en de correlatie in de populatie dus gelijk is aan \(r = 0\). Daarom correspondeert het percentage van de verdeling dat bijvoorbeeld hoger is dan \(r = .50\) met de kans dat we in een gegeven steekproef een correlatie vinden van \(r ≥. 50\). Voor de twee correlaties die we in onze steekproef gevonden hebben, staan de kansen weergegeven in figuur 19.3.

Steekproevenverdeling voor een populatiecorrelatie van $r = 0$ en een steekproefomvang van $20$ met onze twee correlaties gemarkeerd en ingekleurd

Figuur 19.3: Steekproevenverdeling voor een populatiecorrelatie van \(r = 0\) en een steekproefomvang van \(20\) met onze twee correlaties gemarkeerd en ingekleurd

Hier is duidelijk te zien dat, onder de aanname dat de nulhypothese waar is, de kans op een correlatie van \(r = -.23\) aanzienlijk hoger is dan de kans op een correlatie van \(r = .71\). Deze kansen zijn respectievelijk \(16.9869\%\) en \(0.0177\%\). Deze kansen zijn de \(p\)-waarden en worden normaal gesproken uitgedrukt als proporties in plaats van als percentages. We delen ze dus door \(100\). Hele kleine \(p\)-waarden worden meestal niet in veel decimalen gerapporteerd. Deze twee \(p\)-waarden zouden we dus rapporteren als respectievelijk \(p = .17\) en \(p < .001\).

Deze \(p\)-waarden moeten we wel nog verdubbelen. We kunnen de \(p\)-waarden namelijk alleen berekenen onder aanname dat de nulhypothese klopt, en onder die aanname zijn alle afwijkingen van \(r = 0\) het gevolg van toeval. Door toeval kunnen we even goed een lage correlatie vinden als een hoge correlatie. De \(p\)-waarden die we net berekend hebben representeren alleen de kans op lagere respectievelijk hogere correlaties. Na verdubbeling zijn de \(p\)-waarden \(p = .34\) en \(p < .001\). Dit maakt dus weinig uit voor de tweede \(p\)-waarde, maar wel voor de eerste.

Vroeger werden deze \(p\)-waarden niet berekend, maar opgezocht in tabellen. Met de \(p\)-waarde is het laatste ingrediënt beschikbaar en kan de laatste stap in de nulhypothese-significantietoetsingsprocedure toegepast worden: de significantietoetsing.

19.4 Significantietoetsing

De nulhypothese-significantietoetsingsprocedure houdt in dat de gevonden \(p\)-waarde vergeleken wordt met een vooraf bepaalde grenswaarde. Deze grenswaarde wordt alpha (\(\alpha\)), de kritische \(p\)-waarde, of het significantieniveau genoemd. De logica is nu als volgt: als de \(p\)-waarde van de puntschatting uit de steekproef erg klein is (\(p<\alpha\)), dan zou het wel héél erg toevallig zijn dat deze puntschatting gevonden wordt onder de aannames op basis waarvan de nulhypothese-steekproevenverdeling is geconstrueerd. Zo toevallig dat het waarschijnlijker is dat minimaal één van de aannames niet klopt.

De steekproevenverdeling waarbinnen de \(p\)-waarde wordt uitgerekend, is geconstrueerd op basis van drie aannames. De eerste aanname betreft de waarde van de correlatie in de populatie. Volgens de nulhypothese is \(r = 0\). De tweede aanname betreft de breedte en de vorm van de verdeling. In het geval van de correlatie weten we dat deze twee noodzakelijkerwijs volgen uit twee getallen: de correlatie in de populatie (waarvan dus wordt aangenomen dat die \(r = 0\) is) en de steekproefomvang (\(n\)). Op basis van die twee getallen is de steekproevenverdeling opgesteld en die is vervolgens gecentreerd op basis van de nulhypothese (‘\(r = 0\)’).

De vorm en breedte van de steekproevenverdeling, gegeven \(r\) en \(n\), betreffen wiskundige wetmatigheden. Omdat we n weten, is dus de enige aanname die fout kan zijn, die van de waarde van de correlatie in de populatie. Die moet dus wel groter of kleiner zijn dan \(r = 0\), is de redenering. De meest waarschijnlijke fout is dus de aanname die we maakten over de populatiewaarde: de nulhypothese. Die verwerpen we vervolgens. We concluderen dat de correlatie in de populatie waarschijnlijk niet gelijk is aan \(r = 0\) (eigenlijk \(\rho=0\)).

De gekozen \(\alpha\)-waarde – dus de waarde waaronder de gevonden \(p\)-waarde moet liggen om de nulhypothese te verwerpen – staat in deze procedure centraal. Wanneer \(p < \alpha\), noemen we de uitkomsten statistisch significant. Met een hoge alpha verwerp je heel makkelijk de nulhypothese. Vroeger was een \(\alpha\)-waarde van \(.05\) gangbaar, maar sinds een pleidooi om \(\alpha = .005\) te hanteren (Benjamin et al., 2018) is er meer variatie, waarbij het erg belangrijk is om je keuze goed te rechtvaardigen (Lakens et al., 2017). Het is ook belangrijk te beseffen dat deze grenswaarde van \(5\%\) een zelfgekozen (min of meer arbitraire) grens is. De conventie had evengoed \(1\%\) of \(25\%\) kunnen zijn.

Hoe hoger alpha is, hoe eerder de uitkomsten statistisch significant zijn. Bij een alpha van \(50\%\) leiden alle \(p\)-waarden onder de \(.50\) tot verwerping van de nulhypothese. Bij een alpha van \(95\%\) leiden alle \(p\)-waarden onder de \(.95\) tot verwerping van de nulhypothese. Onder aanname van de nulhypothese en een alpha van \(50\%\), zal je in \(50\%\) van de studies een correlatie vinden die je te toevallig acht. Je zal dus in \(50\%\) van de studies de nulhypothese verwerpen, terwijl deze in werkelijkheid wel waar is. Bij een alpha van \(5\%\) zal je dus in \(5\%\) van de studies de nulhypothese verwerpen, terwijl deze in werkelijkheid wel waar is. Het is dus onvermijdelijk om af en toe de verkeerde conclusie te trekken. Dit heet een type 1-fout, en hier gaan we nu op in.

19.4.1 Type 1-fouten

Een type 1-fout wordt gemaakt als de nulhypothese onterecht wordt verworpen, dus als er wordt geconcludeerd dat er in de populatie een verband bestaat terwijl dit eigenlijk niet zo is. Bij een alpha van \(.25\) gebeurt dit in \(25\%\) van de getrokken steekproeven uit een populatie waar het betreffende verband niet bestaat.

In figuur 19.4 is een steekproevenverdeling voor de nulhypothese te zien bij \(50\) deelnemers. Hierin staan dus alle mogelijke correlaties die gevonden kunnen worden wanneer aangenomen wordt dat de correlatie in de populatie \(r = 0\) is. De \(12,5\%\) laagste en de \(12,5\%\) hoogste correlaties zijn paars gemaakt.

Steekproevenverdeling voor een populatiecorrelatie van $r = 0$ en een steekproefomvang van $n = 50$ met de $25%$ meest extreme correlaties aangegeven in paars

Figuur 19.4: Steekproevenverdeling voor een populatiecorrelatie van \(r = 0\) en een steekproefomvang van \(n = 50\) met de \(25%\) meest extreme correlaties aangegeven in paars

Het is belangrijk om de kans op een type 1-fout zo laag mogelijk te houden. Een alpha van \(.25\) waarbij dus in \(1\) op de \(4\) steekproeven onterecht wordt geconcludeerd dat twee variabelen samenhangen, is uiteraard veel te hoog. De kans op een type 1-fout kan alleen worden verlaagd door een lagere alpha te kiezen. Bij een alpha van \(.05\) – de conventie in de psychologie en de onderwijswetenschappen – wordt in \(5\%\) van de gevallen waarin een p-waarde wordt gebruikt om conclusies te trekken over een populatie, een type 1-fout gemaakt. Dit is dus in \(1\) op de \(20\) gevallen.

Stel je voor dat we in een steekproef van \(50\) deelnemers een middelsterke correlatie vinden van \(r = .30\). In plaats van een betrouwbaarheidsinterval uit te rekenen om een indruk te krijgen van hoe accuraat deze schatting is, gebruiken we nulhypothese-significantietoetsing (NHST) om de nulhypothese (\(r = 0\)) te toetsen.

Dan gebruiken we dus de steekproevenverdeling van r = 0 voor n = 50, zoals te zien in figuur 19.5.

Steekproevenverdeling voor een populatiecorrelatie van r = 0 en een steekproefomvang van n = 50 met een steekproefcorrelatie van r = .30 aangegeven met een vertikale lijn

Figuur 19.5: Steekproevenverdeling voor een populatiecorrelatie van r = 0 en een steekproefomvang van n = 50 met een steekproefcorrelatie van r = .30 aangegeven met een vertikale lijn

Vervolgens kunnen we berekenen hoe waarschijnlijk het is dat we een verband van \(r = .30\) in onze steekproef vinden, terwijl de populatiecorrelatie \(r = 0\) is. Oftewel, we kunnen berekenen wat de \(p\)-waarde is. Die \(p\)-waarde vergelijken we met de alpha. Als we een alpha van \(.05\) kiezen, verwerpen we de nulhypothese (\(r = 0\)) als onze steekproefcorrelatie in de laagste \(2,5\%\) of in de hoogste \(2,5\%\) valt. In figuur 19.6 zijn deze gebieden blauw gemaakt.

Steekproevenverdeling voor een populatiecorrelatie van $r = 0$ en een steekproefomvang van $n = 50$ met een steekproefcorrelatie van $r = .30$ aangegeven met een vertikale lijn en de kritieke gebieden bij een alpha van $.05$ aangegeven in blauw

Figuur 19.6: Steekproevenverdeling voor een populatiecorrelatie van \(r = 0\) en een steekproefomvang van \(n = 50\) met een steekproefcorrelatie van \(r = .30\) aangegeven met een vertikale lijn en de kritieke gebieden bij een alpha van \(.05\) aangegeven in blauw

In dit geval zouden we dus de nulhypothese verwerpen en concluderen dat er een verband bestaat in de populatie.

In \(5\%\) van de steekproeven vinden we een correlatie die in de blauwe gebieden (de meeste extreme \(5\%\)) ligt. Als we de nulhypothese verwerpen, zal dit dus in \(5\%\) van de gevallen onterecht zijn.

Stel dat we de kans op een type 1-fout verder willen verlagen. We kunnen dan een alpha van \(.01\) hanteren. Dit is te zien in figuur 19.7. De zwarte delen van de steekproevenverdeling hieronder corresponderen met de meest extreme \(1\%\) van alle mogelijke correlaties in de steekproevenverdeling.

Dezelfde steekproevenverdeling als hierboven, waarbij ook de kritieke gebieden voor een alpha van $.01$ zijn aangegeven in zwart

Figuur 19.7: Dezelfde steekproevenverdeling als hierboven, waarbij ook de kritieke gebieden voor een alpha van \(.01\) zijn aangegeven in zwart

Zoals te zien is, valt onze steekproefcorrelatie van \(.30\) wel in het kritieke gebied dat hoort bij een alpha van \(5\%\), maar niet bij een alpha van \(1\%\). Als we een alpha van \(1\%\) zouden hanteren en de nulhypothese dus pas verwerpen bij een \(p\)-waarde onder de \(.01\), dan zouden we bij een steekproefcorrelatie van \(r = .30\) in een steekproef met \(50\) deelnemers de nulhypothese dus niet verwerpen. In dat geval kan er ook geen type 1-fout gemaakt worden. Als de nulhypothese niet wordt verworpen, kan deze ook niet ten onrechte worden verworpen.

Een steekproefcorrelatie van \(r = .30\) is echter niet verwaarloosbaar klein. Misschien is deze juist wel indicatief voor een verband. Misschien komt deze steekproefcorrelatie niet uit deze steekproevenverdeling. Deze steekproevenverdeling is namelijk opgesteld onder de aanname dat de populatiecorrelatie \(r = 0\) is. Stel nu dat die aanname niet klopt, maar dat de populatiecorrelatie \(r = .40\) is. In dat geval komt onze steekproefcorrelatie uit een andere steekproevenverdeling die in figuur 19.8 in grijs is toegevoegd.

Dezelfde steekproevenverdeling als hierboven voor een populatiecorrelatie van $r = 0$ met daarnaast de steekproevenverdeling voor een populatiecorrelatie van $r = .40$ aangegeven in grijs

Figuur 19.8: Dezelfde steekproevenverdeling als hierboven voor een populatiecorrelatie van \(r = 0\) met daarnaast de steekproevenverdeling voor een populatiecorrelatie van \(r = .40\) aangegeven in grijs

Binnen die steekproevenverdeling voor \(r = .40\) en \(n = 50\) ligt onze steekproefcorrelatie van \(r = .30\) opeens een heel stuk dichter bij het midden van de verdeling. Laten we even aannemen dat de echte populatiecorrelatie inderdaad \(r = .40\) is en dat onze steekproefcorrelatie dus uit deze grijze steekproevenverdeling komt. In het echt weten we dat natuurlijk niet en als we nulhypothese-significantietoetsing zouden toepassen, zouden we dus nog steeds binnen de nulhypothese-steekproevenverdeling aan de linkerkant werken.

Als we de conventie van een alpha van .05 volgen, valt onze steekproefcorrelatie van \(r = .30\) in het blauwe kritieke gebied. We zouden dan de nulhypothese verwerpen en concluderen dat er in de populatie een verband is, dat wil zeggen dat de correlatie in de populatie niet \(r = 0\) is. Als de populatiecorrelatie inderdaad \(r = .40\) is, zou deze conclusie correct zijn.

19.4.2 Type 2-fouten

Stel nu dat we onze alpha naar beneden hadden aangepast om de kans op een type 1-fout te verlagen. In dat geval zouden we niet met de blauwe kritieke gebieden van \(\alpha = .05\) werken, maar met de zwarte gebieden die overeenkomen met \(\alpha = .01\). Onze steekproefcorrelatie van \(r = .30\) zou daar niet in vallen: de corresponderende \(p\)-waarde zou dus groter zijn dan \(.01\) en we zouden de nulhypothese dus niet verwerpen. In dit geval maken we geen type 1-fout, maar een zogenaamde type 2-fout: ten onrechte de nulhypothese aanhouden.

Dit is een nadelig gevolg van de mechaniek van NHST: als de alpha lager is, wordt de kans op een type 1-fout kleiner, maar de kans op een type 2-fout wordt groter. Gelukkig is hier een oplossing voor: de steekproefomvang vergroten. Stel dat we een steekproef van \(n = 500\) deelnemers gebruiken. De steekproevenverdeling waarbinnen we de nulhypothese toetsen, is dan een stuk smaller. Dit is te zien in figuur 19.9.

Dezelfde steekproevenverdelingen als in de eerdere figuur met daarnaast de steekproevenverdeling voor een populatiecorrelatie van $r = 0$ en een steekproefomvang van $n = 500$ toegevoegd, waarin het kritieke gebied voor alpha = $.05$ roze is en het kritieke gebied voor alpha = $.01$ geel.

Figuur 19.9: Dezelfde steekproevenverdelingen als in de eerdere figuur met daarnaast de steekproevenverdeling voor een populatiecorrelatie van \(r = 0\) en een steekproefomvang van \(n = 500\) toegevoegd, waarin het kritieke gebied voor alpha = \(.05\) roze is en het kritieke gebied voor alpha = \(.01\) geel.

Een steekproefomvang van \(n = 500\) maakt het dus mogelijk om de kans op een type 1-fout te beperken tot \(1\%\), terwijl de kans op een type 2-fout ook beperkt blijft. Sterker nog, door de steekproefomvang te vergroten is de kans dat we een relatief lage correlatie in onze steekproef vinden kleiner geworden, als de populatiecorrelatie inderdaad \(r = .40\) is. De steekproevenverdeling waar onze steekproefcorrelatie eigenlijk uitkomt is met \(n = 500\) namelijk ook een stuk smaller. Deze steekproevenverdeling is in donkergrijs aangegeven in figuur 19.10.

Dezelfde figuur als hierboven met daarnaast de steekproevenverdeling voor een populatiecorrelatie van $r = .40$ en een steekproefomvang van $n = 500$ toegevoegd in donkergrijs

Figuur 19.10: Dezelfde figuur als hierboven met daarnaast de steekproevenverdeling voor een populatiecorrelatie van \(r = .40\) en een steekproefomvang van \(n = 500\) toegevoegd in donkergrijs

Met de aanname dat de werkelijke populatiecorrelatie \(r = .40\) is, kunnen we zelfs uitrekenen hoe groot de kans op een type 2-fout is bij \(n = 50\) en \(n = 500\) en voor alpha’s van \(.05\) en \(.01.\) In figuur 19.11 is de steekproevenverdeling waaronder we toetsen bij NHST (\(r = 0\), \(n = 50\)) te zien. De kritieke gebieden voor \(\alpha = .05\) zijn aangegeven in blauw. Rechts van deze verdeling staat in grijs de steekproevenverdeling waar de steekproefcorrelatie daadwerkelijk uitkomt als de populatiecorrelatie gelijk is aan \(r = .40\). In deze steekproevenverdeling is het deel van die steekproevenverdeling dat buiten de kritieke grenzen van de nulhypothese-steekproevenverdeling valt groen gemaakt.

Twee steekproevenverdelingen voor steekproeven van $n = 50$ en populatiecorrelaties van $r = 0$ en $r = .40$, waarbij de kritieke gebieden voor een alpha van $.05$ binnen de nulhypotheseverdeling zijn aangegeven in blauw. In de steekproevenverdeling voor $r = .40$ is het deel van de verdeling met correlaties die niet in die kritieke gebieden van de nulhypotheseverdeling vallen, grijs gemaakt, en het deel met de correlaties die wel in de kritieke gebieden vallen, groen gemaakt. Als in een steekproef een correlatie uit het grijze deel wordt gevonden, wordt de nulhypothese niet verworpen. Als een correlatie in het groene (of blauwe) deel wordt gevonden, wordt de nulhypothese wel verworpen.

Figuur 19.11: Twee steekproevenverdelingen voor steekproeven van \(n = 50\) en populatiecorrelaties van \(r = 0\) en \(r = .40\), waarbij de kritieke gebieden voor een alpha van \(.05\) binnen de nulhypotheseverdeling zijn aangegeven in blauw. In de steekproevenverdeling voor \(r = .40\) is het deel van de verdeling met correlaties die niet in die kritieke gebieden van de nulhypotheseverdeling vallen, grijs gemaakt, en het deel met de correlaties die wel in de kritieke gebieden vallen, groen gemaakt. Als in een steekproef een correlatie uit het grijze deel wordt gevonden, wordt de nulhypothese niet verworpen. Als een correlatie in het groene (of blauwe) deel wordt gevonden, wordt de nulhypothese wel verworpen.

Een aanzienlijk deel van de steekproevenverdeling voor \(r = .40\) is groen! Om precies te zijn is het \(83.54\%\). De kans dat we met een alpha van \(.05\) en een steekproef van \(n = 50\) de nulhypothese verwerpen terwijl de populatiecorrelatie in werkelijkheid \(r = .40\) is, is dus \(83.54\%\). De kans op een type 2-fout is dus het omgekeerde: \(16.46\). Dat is nog een stuk meer dan de kans op een type 1-fout (deze is met een alpha van \(.05\) namelijk \(5\%\)), maar niet dramatisch hoog.

Dit groene deel van de steekproevenverdeling van de populatiecorrelatie van \(r = .40\) heet de power van onze nulhypothesetoets: de kans dat we een verband van een bepaalde omvang kunnen detecteren, aangenomen dat deze echt bestaat. Uitgaande van een werkelijke populatiecorrelatie van \(r = .40\), is de power dus \(83.54\%\).

Als de daadwerkelijke populatiecorrelatie groter is, wordt de power natuurlijk ook groter. De steekproevenverdeling waar onze steekproefcorrelatie uitkomt, schuift dan naar rechts en wordt voor een groter deel groen. Omgekeerd wordt de power lager als de daadwerkelijke steekproefcorrelatie dichter in de buurt van onze nulhypothesecorrelatie (\(r = 0\)) ligt. Zie als voorbeeld in figuur 19.12 de steekproevenverdeling bij een populatiecorrelatie van \(r = .70\).

Steekproevenverdeling voor een nulhypothesecorrelatie van $r = 0$ met de kritieke gebieden in blauw, en voor een populatiecorrelatie van $r = .70$ (grotendeels in groen)

Figuur 19.12: Steekproevenverdeling voor een nulhypothesecorrelatie van \(r = 0\) met de kritieke gebieden in blauw, en voor een populatiecorrelatie van \(r = .70\) (grotendeels in groen)

Bijna de hele ‘daadwerkelijke populatiecorrelatie-steekproevenverdeling’ is groen. De kans dat er in een steekproef een correlatie wordt gevonden die zo klein is dat de nulhypothese niet wordt verworpen, is heel klein. Zelfs met een uitermate kleine steekproef van slechts \(50\) deelnemers leidt een correlatie van \(r = .70\) in \(99.9962\%\) van de gevallen tot verwerping van de nulhypothese. Jammer genoeg zijn de verbanden tussen de variabelen die psychologen en onderwijswetenschappers onderzoeken meestal niet zo sterk. Een correlatie van \(r = .20\) komt vaker voor en toont een heel ander plaatje, zoals te zien in figuur 19.13.

Steekproevenverdeling voor een nulhypothesecorrelatie van $r = 0$ en $n = 50$ met de kritieke gebieden in blauw, en voor een populatiecorrelatie van $r = .20$ (in grijs)

Figuur 19.13: Steekproevenverdeling voor een nulhypothesecorrelatie van \(r = 0\) en \(n = 50\) met de kritieke gebieden in blauw, en voor een populatiecorrelatie van \(r = .20\) (in grijs)

Nu wordt slechts in \(28.8\%\) van de steekproeven een correlatie gevonden die voldoende groot is om te leiden tot verwerping van de nulhypothese. De grijze ’daadwerkelijke populatiecorrelatie steekproevenverdeling’ ligt zelfs zo dichtbij de nulhypothese-steekproevenverdeling dat van alle mogelijke negatieve correlaties, \(0.04\%\) in het onderste kritieke gebied ligt. Dit is te zien in figuur 19.14 als we inzoomen op het stukje van de plot tussen een correlatie van \(r = -.40\) en \(r = -.20\).

Fragment van de vorige figuur, waar zichtbaar is dat het onderste stukje van de staart van de daadwerkelijke populatiecorrelatie-steekproevenverdeling ook negatieve correlaties bevat die tot verwerping van de nulhypothese kunnen leiden

Figuur 19.14: Fragment van de vorige figuur, waar zichtbaar is dat het onderste stukje van de staart van de daadwerkelijke populatiecorrelatie-steekproevenverdeling ook negatieve correlaties bevat die tot verwerping van de nulhypothese kunnen leiden

De kans op een type 2-fout bij deze lage daadwerkelijke populatiecorrelatie van \(r = .20\) met 50 deelnemers is \(71.2\%\). Om deze hoge kans te verlagen, is het nodig om de steekproef aanzienlijk te vergroten. Bij een steekproef van 500 deelnemers zouden de steekproevenverdelingen er uitzien zoals in figuur 19.15.

Twee steekproevenverdelingen voor een correlatie van $r = 0$ en $r = .20$ bij een steekproefomvang van $n = 500$

Figuur 19.15: Twee steekproevenverdelingen voor een correlatie van \(r = 0\) en \(r = .20\) bij een steekproefomvang van \(n = 500\)

De kans op een type 2-fout zou nu nog maar \(18.79\%\) zijn en de power dus \(81.21\%\). Dat is al een stuk acceptabeler.

19.4.3 Samenvatting Nulhypothese-significantietoetsing

Nulhypothese-significantietoetsing (NHST) is een procedure die bestaat uit de volgende stappen:

  1. Stel alpha vast (bijvoorbeeld op \(.05\)).
  2. Neem een steekproef van een gegeven omvang (\(n\)), meet de betreffende variabelen en bereken de correlatie.
  3. Construeer op basis van de nulhypothese (“in de populatie geldt: \(r = 0\)”) en de steekproefomvang (\(n\)) de steekproevenverdeling van Pearson’s \(r\) volgens die nulhypothese.
  4. Bereken de \(p\)-waarde, oftewel de proportie van de steekproevenverdeling die correlaties betreft die even extreem of extremer zijn dan de correlatie die in de steekproef in stap 1 is gevonden.
  5. Vergelijk deze \(p\)-waarde met de gekozen waarde van alpha, oftewel het significantieniveau. Conventioneel is deze \(5\%\).
    • Als de gevonden \(p\)-waarde lager is dan alpha, verwerp dan de nulhypothese. Dit betekent dat er wordt geconcludeerd dat de twee variabelen samenhangen.
    • Als de gevonden \(p\)-waarde hoger is dan alpha, behoud dan de nulhypothese. Dit betekent dat er wordt geconcludeerd dat de twee variabelen niet samenhangen.

Bij deze conclusie kunnen twee soorten fouten gemaakt worden. Als de nulhypothese daadwerkelijk waar is, kan een type 1-fout gemaakt worden: de nulhypothese kan ten onrechte worden verworpen. De kans hierop is exact gelijk aan de gekozen alpha. Als de nulhypothese daadwerkelijk onwaar is, kan een type 2-fout gemaakt worden: de nulhypothese kan ten onrechte worden behouden. Hoe groot de kans op zo’n type 2-fout is, hangt af van de daadwerkelijke correlatie (die altijd onbekend is) en de steekproefomvang. Het omgekeerde van de kans op een type 2-fout heet de power van een toets en die komt hieronder aan bod. De mogelijke situaties en de soorten fouten die gemaakt kunnen worden als NHST wordt toegepast, staan schematisch weergegeven in tabel 19.1.

Tabel 19.1: Overzicht van de mogelijke situaties als NHST wordt toegepast
p > .05 p < .05
Geen verband in de populatie terecht concluderen dat er in de populatie geen verband is type 1-fout: ten onrechte concluderen dat er in de populatie wel een verband is
Wel een verband in de populatie type 2-fout: ten onrechte concluderen dat er in de populatie geen verband is terecht concluderen dat er in de populatie wel een verband is

19.5 Power

Voordat wetenschappers data gaan verzamelen, moeten ze eerst berekenen hoe groot de steekproef moet zijn. Als er nulhypothese-significantietoetsing wordt gebruikt, wordt dit gedaan met zogenaamde powerberekeningen. Hiervoor is wel een aanname nodig, namelijk die van de daadwerkelijke populatiecorrelatie. In de praktijk betekent dit dat onderzoekers van tevoren goed moeten nadenken over hoe sterk het verband is dat ze hopen aan te tonen. Vervolgens moet worden besloten hoe groot de gewenste kans op succes is.

Als onderzoekers bijvoorbeeld vermoeden dat de daadwerkelijke populatiecorrelatie \(r = .30\) is (een middelsterk verband), dan is een steekproef van \(85\) deelnemers voldoende om \(80\%\) kans te hebben de nulhypothese te verwerpen. Er zijn \(112\) deelnemers nodig zijn om \(90\%\) kans te hebben om de nulhypothese te verwerpen en dan is er nog steeds \(10\%\) kans op een type 2-fout. Om de kans op een type 2-fout gelijk te maken aan de kans op een type 1-fout (\(5\%\)) zijn \(138\) deelnemers nodig.

Ethische toetsingscommissies zoals de cETO vereisen zulke poweranalyses van onderzoekers. Het is namelijk niet ethisch om een studie te doen met zó weinig deelnemers dat de meeste verbanden, zelfs als ze bestaan, niet gevonden kunnen worden. Tegelijkertijd is het ook niet ethisch om meer deelnemers dan nodig te werven om de verwachte correlatie te detecteren. Deelnemers zijn een schaars goed waar zuinig mee omgegaan moet worden. Deelname aan onderzoek kost namelijk tijd en energie.

Studies met te weinig deelnemers zijn underpowered. Maar naast dat de kans in deze studies klein is om de nulhypothese te kunnen verwerpen bij een daadwerkelijk verband in de populatie, herbergen deze studies nog een extra gevaar dat in eerste instantie niet duidelijk is. Naarmate de daadwerkelijke populatiecorrelatie groter is, is de power van een studie met een gegeven steekproefomvang hoger. De correlatie die in een steekproef wordt gevonden, komt dan namelijk uit een populatie-steekproevenverdeling die steeds verder van de nulhypothese-steekproevenverdeling af ligt. Om een sterk verband aan te tonen, volstaat bij zulke sterke correlaties dus een relatief kleine steekproef.

Als in een underpowered studie een grote correlatie wordt gevonden, wordt daarom vaak gedacht dat de kleine steekproef klaarblijkelijk geen probleem was. Als er van tevoren poweranalyses waren gedaan op basis van die grote correlatie, was daar namelijk uitgekomen dat er maar weinig deelnemers nodig zijn om een fatsoenlijke power te bereiken. Deze redenering is echter fout, omdat steekproevenverdelingen bij kleine steekproeven heel breed zijn. Kijk bijvoorbeeld nog eens naar de steekproevenverdeling voor een correlatie van \(r = 0\) en een steekproef van \(20\) deelnemers, getoond in figuur 19.16.

Steekproevenverdeling voor een populatiecorrelatie van $r = 0$ en een steekproefomvang van $n = 20$

Figuur 19.16: Steekproevenverdeling voor een populatiecorrelatie van \(r = 0\) en een steekproefomvang van \(n = 20\)

De kans op een correlatie die als middelsterk verband wordt gekwalificeerd (lager dan \(-.30\) of hoger dan \(.30\)) is \(20\%\). Dit is dus in één op de vijf steekproeven! Bij underpowered studies is de kans dus redelijk groot dat er in een steekproef een relatief sterk verband wordt gevonden, terwijl er in de populatie helemaal geen verband is.

19.6 Multiple testing

In studies worden vaak meerdere verbanden tegelijk onderzocht. Dat betekent dat in één steekproef bijvoorbeeld vier variabelen worden gemeten, waarna een zogenaamde correlatiematrix wordt berekend waar alle correlaties tussen die variabelen in staan. Als voorbeeld nemen we twintig nieuwe pinguïns uit onze pinguïnstudie. De correlatiematrix voor de vier variabelen waar we tot nu toe steeds in geïnteresseerd waren, staat in tabel 19.2.

Tabel 19.2: Correlatiematrix in een steekproef van \(n = 20\) met de betrouwbaarheidsintervallen voor de correlaties tussen de vier pinguïnvariabelen en op de onderliggende regel de puntschatting en de \(p\)-waarde voor dat verband
Flipperlengte Lichaamsgewicht Snavellengte Snavelhoogte
Flipperlengte
Lichaamsgewicht r=[0.52; 0.91]
r=0.78, p<.001
Snavellengte r=[0.38; 0.87] r=[0.05; 0.76]
r=0.7, p=.001 r=0.48, p=.031
Snavelhoogte r=[-0.76; -0.05] r=[-0.62; 0.22] r=[-0.54; 0.33]
r=-0.48, p=.03 r=-0.24, p=.3 r=-0.13, p=.579

In deze correlatiematrix staan de betrouwbaarheidsintervallen tussen rechte haken en op de regel eronder staan de puntschattingen en de p-waarden voor de zes correlaties. Elke \(p\)-waarde drukt de kans uit dat de bijbehorende (of een extremere) steekproefcorrelatie wordt gevonden, ervan uitgaande dat die steekproefcorrelatie uit een steekproevenverdeling komt voor een daadwerkelijke populatiecorrelatie van \(r = 0\) en een steekproefomvang van \(20\) deelnemers.

De cel linksboven heeft betrekking op de correlatie tussen flipperlengte en lichaamsgewicht. Deze correlatie is \(r = .78\) en de bijbehorende p < .001. Dit betekent dat in de steekproevenverdeling voor een steekproef van \(n = 20\) en een populatiecorrelatie van \(r = 0\) (oftewel, de nulhypothese-steekproevenverdeling), minder dan \(0\%\) van de correlaties hoger is dan \(.78\) of lager dan \(-.78\).

Als we diagonaal een cel verplaatsen zitten we in de cel voor de correlatie tussen lichaamsgewicht en snavellengte. Hier is te zien dat \(3.1\%\) van de correlaties in die nulhypothese-steekproevenverdeling hoger is dan \(.48\) of lager dan \(-.48\). Nog een cel verder langs de diagonaal, helemaal rechtsonderin, staat de correlatie tussen snavellengte en snavelhoogte. Daar is te zien dat onder de nulhypothese \(57.9\%\) van de correlaties lager is dan \(-.13\) of hoger dan \(.13\).

Binnen nulhypothese-significantietoetsing wordt de \(p\)-waarde vergeleken met de gekozen alpha (vaak \(5\%\)) om te besluiten of het waarschijnlijk is dat de bijbehorende variabelen in de populatie samenhangen. Voor elke \(p\)-waarde is de kans dat een type 1-fout wordt gemaakt dus gelijk aan \(5\%\). Dit is dus één op de \(20\) correlaties.

Als we een alpha van \(.05\) aanhouden, zouden we op basis van de bovenstaande correlatiematrix van \(4\) van de \(6\) \(p\)-waarden concluderen dat ze significant zijn. We kunnen uitrekenen hoe groot de kans is dat we bij minstens \(1\) van de \(6\) \(p\)-waarden een type 1-fout maken. Om te beginnen kijken we dan naar de vier mogelijke scenario’s zoals zichtbaar in Tabel 19.3.

Tabel 19.3: De vier mogelijke uitkomsten als er twee p-waarden berekend worden
Eerste p-waarde Tweede p-waarde
< .05 < .05
< .05 > .05
> .05 < .05
> .05 > .05

Door de kansen op de beide \(p\)-waarden te vermenigvuldigen, kunnen we voor elk van deze mogelijkheden berekenen hoe groot de kans is dat die combinatie aan \(p\)-waarden optreedt. Dit is uitgewerkt in Tabel 19.4.

Tabel 19.4: De vier mogelijke uitkomsten als er twee p-waarden berekend worden met daarbij de kans op elke uitkomst.
Eerste p-waarde Tweede p-waarde Kansberekening Kans op deze uitkomst
< .05 < .05 .05 .05 .0025
< .05 > .05 .05 x .95 .0475
< .05 < .05 .95 x .05 .0475
> .05 > .05 .95 x .95 .9025

In de onderste rij kan geen type 1-fout gemaakt worden, in de bovenste drie rijen wel. De kans op minstens één type 1-fout is dus \(1 − .9025 = .0975 = 9.75\%\). In bijna \(1\) op de \(10\) studies maken we dus \(1\) of \(2\) type 1-fouten.

De kansberekening in de onderste rij van de tabel kunnen we algemener opschrijven.

\[ \text{Kans dat er geen type 1-fout wordt gemaakt (bij α = .05)} = .95^{\text{Aantal } p \text{-waarden}} \]

Voor drie correlaties is de kans dat we géén type 1-fout maken dus

\[.95^3 = .95 \times .95 \times .95 =0.86\]

En voor de zes correlaties die we hierboven berekenden

\[.95^6 = 0.74\]

De kans dat we minimaal één type 1-fout maken is dus

\[ 1 - .95^6 = 1 - 0.74 = 0.26\]

Dat is nogal wat anders dan de \(5\%\) die we voor ogen hebben! Bij correlatiematrices van meer dan vier variabelen wordt dit probleem natuurlijk nog groter. Gelukkig kunnen de p-waarden gecorrigeerd worden. Als we de \(p\)-waarden uit de correlatiematrix corrigeren volgens een methode die de Bonferroni-correctie heet, krijgen we de \(p\)-waarden zoals in tabel 19.5.

Tabel 19.5: Dezelfde correlatiematrix, maar dan met \(p\)-waarden die gecorrigeerd zijn zodat de kans op een type 1-fout voor de gehele tabel nog steeds maar \(5\) procent is in plaats van de \(26\) procent zonder correctie
Flipperlengte Lichaamsgewicht Snavellengte Snavelhoogte
Flipperlengte
Lichaamsgewicht r=[0.52; 0.91]
r=0.78, p<.001
Snavellengte r=[0.38; 0.87] r=[0.05; 0.76]
r=0.7, p=.003 r=0.48, p=.188
Snavelhoogte r=[-0.76; -0.05] r=[-0.62; 0.22] r=[-0.54; 0.33]
r=-0.48, p=.181 r=-0.24, p=1 r=-0.13, p=1

De \(p\)-waarden zijn hier een stuk hoger. Binnen het kader van NHST zouden nu slechts twee van de \(p\)-waarden reden zijn om de nulhypothese, dat er geen verband is, te verwerpen. Het verkleinen van de kans op een type 1-fout betekent dat de kans op het maken van een type 2-fout toeneemt. De correctie van onze \(p\)-waarden door middel van de Bonferroni-correctie heeft onze power dus verlaagd, waardoor onze toets niet goed in staat is om populatiecorrelaties die afwijken van \(0\) te detecteren. Op basis van deze steekproef met \(20\) deelnemers zouden we dus niets kunnen concluderen over de populatie. Dit geldt in alle kleine steekproeven: ze hebben te weinig power om de meeste verbanden aan te kunnen tonen.

Bij de powerberekeningen die voorafgaande aan een studie worden uitgevoerd om te berekenen hoeveel deelnemers nodig zijn om een gegeven power te bereiken, moet dus ook rekening gehouden worden met het aantal verbanden dat wordt onderzocht. Elke extra \(p\)-waarde die een onderzoeker uitrekent, verhoogt namelijk de kans op een type 1-fout, of, als de onderzoeker hiervoor corrigeert, de kans op een type 2-fout. De enige oplossing is meer deelnemers te onderzoeken. Dan worden de steekproevenverdelingen smaller, waardoor de kans op een type 2-fout daalt en de power dus acceptabel blijft terwijl correctie van de p-waarden de kans op een type 1-fout beperkt.

Er bestaan meerdere methoden om te corrigeren voor multiple testing. De Bonferroni-methode is de eenvoudigste: elke \(p\)-waarde wordt vermenigvuldigd met het aantal \(p\)-waarden dat in totaal wordt berekend (in ons geval dus met \(6\)). Andere methoden zijn complexer maar leiden tot minder conservatieve correcties. Een voorbeeld is de ‘False Detection Rate control’ methode. Als we deze zouden toepassen, krijgen we de resultaten zoals in tabel 19.6.

Tabel 19.6: Dezelfde correlatiematrix, maar dan met p-waarden die zijn gecorrigeerd volgens de False Detection Rate methode
Flipperlengte Lichaamsgewicht Snavellengte Snavelhoogte
Flipperlengte
Lichaamsgewicht r=[0.52; 0.91]
r=0.78, p<.001
Snavellengte r=[0.38; 0.87] r=[0.05; 0.76]
r=0.7, p=.002 r=0.48, p=.047
Snavelhoogte r=[-0.76; -0.05] r=[-0.62; 0.22] r=[-0.54; 0.33]
r=-0.48, p=.047 r=-0.24, p=.36 r=-0.13, p=.579

19.7 Problemen van NHST

Dit lijkt terecht een beetje een vreemde en omslachtige werkwijze. Zelfs als het aannemelijk is dat twee variabelen samenhangen, zal een vervolgvraag uiteindelijk altijd zijn hoe sterk die samenhang dan is, waarvoor dan alsnog betrouwbaarheidsintervallen nodig zijn. Bovendien geldt, zoals hierboven is uitgelegd, dat de \(p\)-waarde lager wordt als de steekproefomvang stijgt. Met voldoende grote steekproeven zijn triviale en verwaarloosbare verbanden ‘significant’. Verder bleek dat deze labeling van sommige resultaten als ‘significant’ zorgde dat onderzoeken zonder significante uitkomsten minder werden gewaardeerd. Wetenschappelijke tijdschriften waren minder bereid degelijke uitkomsten te publiceren, waardoor veel onderzoek niet wereldkundig werd gemaakt (deze belanden dan in de zogenaamde file drawer). Als er eenmaal een artikel was gepubliceerd waarin een gegeven verband is aangetoond was het veel moeilijker om vervolgstudies, waarin dat verband niet werd gevonden, te publiceren.

Deze samenloop van omstandigheden heeft bijgedragen aan wat wel de replicatiecrisis van psychologie wordt genoemd. Toen deze patronen eenmaal zichtbaar werden zijn er een aantal grootschalige projecten gestart, waarin klassieke psychologiestudies werden gerepliceerd. Een replicatie is een accurate herhaling van een studie, waar dus normaliter dezelfde uitkomst gevonden zou moeten worden. Een recente studie concludeerde dat de resultaten van slechts 39% van de replicaties in de psychologie werden beschouwd als replicaties van de oorspronkelijke effecten (Open Science Collaboration, 2015). De implicatie van deze replicatiecrisis is dat een groot deel van onze kennis over de menselijke psychologie mogelijk incorrect is.

Het moge duidelijk zijn dat er inmiddels veel kritiek is gekomen op het gebruiken van \(p\)-waarden om dichotome besluiten te nemen, waarbij ‘of een verband bestaat’ de belangrijkste uitkomst lijkt. Het eerste journal heeft \(p\)-waarden zelfs al helemaal afgeschaft (Trafimow & Marks, 2015). Toch worden ze nog steeds veel toegepast.

Tot slot nog een wat positievere ontwikkeling. Door de replicatiecrisis groeit onder wetenschappers in de psychologie en de onderwijswetenschappen het besef dat het grootschalige gebruik van p-waarden en NHST schadelijk is geweest. Hiermee samenhangend groeit de bewustwording van nog twee belangrijke gegevens. De eerste is dat beduidend grotere steekproeven nodig zijn dan vroeger werd gedacht, met honderden in plaats van tientallen deelnemers. De tweede is dat de uitkomsten van een enkele studie, zelfs met een grotere steekproef, relatief weinig zeggen, en dat er dus meta-analyses nodig zijn om echt inzichten te verwerven. Kortom, de kwaliteit van wetenschappelijk onderzoek in de psychologie is dus snel aan het stijgen.

Hoewel dit nu verandert, is NHST lange tijd een standaardprocedure geweest. Het is dus de moeite waard om deze te kennen.

19.8 Eenzijdige toetsing

Vroeger werden hypothesen soms getoetst met zogenaamde eenzijdige toetsing. In die gevallen werd de \(p\)-waarde niet verdubbeld (in tegenstelling tot bij wat dan tweezijdige toetsing wordt genoemd). De rationale hiervoor was dat de onderzoekers een hypothese hadden geformuleerd die stelde dat een verband een bepaalde richting zou hebben.

Een onderzoeker die een hypothese had opgesteld dat er een positieve correlatie zou zijn, berekende als \(p\)-waarde dan alleen de kans dat er onder de nulhypothese-steekproevenverdeling een grotere correlatie zou worden gevonden dan de steekproefcorrelatie. Deze kans werd dan als \(p\)-waarde gezien. Deze redenering klopt niet: de onderzoeker veronderstelt dan in het toetsproces dat de eigen hypothese waar is, en dat er door toeval dus alleen een positief verband gevonden kan worden.

Nulhypothese-significantietoetsing vereist echter dat er wordt getoetst onder aanname van de nulhypothese. Het is dan niet mogelijk om al aannames te maken over welke richting een bepaald verband heeft, en dus is een zogenaamde gerichte hypothese geen rechtvaardiging om eenzijdig te toetsen. Een situatie waarin door toeval uitsluitend positieve verbanden gevonden kunnen worden zou dat wel zijn, maar in de psychologie en onderwijswetenschappen komt dat praktisch niet voor: het is eigenlijk nooit mogelijk om op basis van theorie uit te sluiten dat een ander verband wordt gevonden dan verwacht.

Referenties

Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., Bollen, K. A., Brembs, B., Brown, L., Camerer, C., Cesarini, D., Chambers, C. D., Clyde, M., Cook, T. D., De Boeck, P., Dienes, Z., Dreber, A., Easwaran, K., Efferson, C., … Johnson, V. E. (2018). Redefine statistical significance. Nature Human Behaviour, 2(1), 6–10. https://doi.org/10.1038/s41562-017-0189-z
Lakens, D., Adolfi, F. G., Albers, C. J., Anvari, F., Apps, M. A. J., Argamon, S. E., Assen, M. A. L. M. van, Baguley, T., Becker, R. B., Benning, S. D., Bradford, D. E., Buchanan, E. M., Caldwell, A., Calster, B. van, Carlsson, R., Chen, S.-C., Chung, B., Colling, L. J., Collins, G., … Zwaan, R. A. (2017). Justify Your Alpha [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/9s3y6
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716–aac4716. https://doi.org/68c
Trafimow, D., & Marks, M. (2015). Editorial. Basic and Applied Social Psychology, 37(February), 1–2. https://doi.org/4z8