Hoofdstuk 23 t-toetsen en Cohen’s d
- een verschil tussen twee gemiddelden
- de steekproevenverdeling en het betrouwbaarheidsinterval voor het verschil tussen gemiddelden
- cohen’s d
- de onafhankelijke t-toets
- de gepaarde t-toets
- Levene’s toets.
- Onderzoekspracticum inleiding onderzoek (PB0212)
- Onderzoekspracticum experimenteel onderzoek (PB0412)
23.1 Een verschil tussen twee gemiddelden
In dit hoofdstuk bespreken we alles dat komt kijken bij het vergelijken van twee gemiddelden. Er is dan meestal sprake van een dichotome variabele (bijvoorbeeld experimentele en controle groep) en een continue variabele waarop de groepen verschillen (de afhankelijke variabele). Als het gemiddelde van de ene groep hoger is dan het gemiddelde van de andere groep, kunnen we iemands score op de afhankelijke variabele beter voorspellen als we weten tot welke groep iemand behoort, dan als we dat niet weten. Als de gemiddelden van twee groepen aan elkaar gelijk zijn, is het niet mogelijk om op basis van de groep waartoe iemand behoort beter te voorspellen welke score deze persoon zal hebben.
In dit hoofdstuk gebruiken we weer de Palmer Penguins dataset ter illustratie. Deze dataset bevat informatie over drie pinguïnsoorten. Er is meer informatie beschikbaar op https://allisonhorst.github.io/palmerpenguins.
Figuur 23.1 toont de gemiddelde snavellengte van de pinguïns.
Als we weten tot welke groep iemand behoort, kunnen we een betere voorspelling voor de snavellengte doen. In Figuur 23.2 is snavellengte gesplitst naar mannelijke en vrouwelijke pinguïns.
Kortom, als twee groepsgemiddelden verschillen, hangt de dichotome variabele –waarvan de twee meetwaarden zich manifesteren als twee groepen – samen met de continue variabele.
Dit verschil tussen de twee groepsgemiddelden heeft ook een standaardfout. Het verschil tussen gemiddelden komt namelijk uit een steekproevenverdeling met alle mogelijke verschillen die we hadden kunnen vinden.
23.2 De steekproevenverdeling en het betrouwbaarheidsinterval voor het verschil tussen gemiddelden
De steekproevenverdeling van het verschil tussen gemiddelden is verdeeld volgens de \(t\)-verdeling met een aantal vrijheidsgraden gelijk aan de steekproefomvang minus twee. Elke keer dat een steekproef getrokken wordt, is het verschil tussen de gemiddelden dus afkomstig uit deze steekproevenverdeling. Net als voor andere steekproefwaarden geldt voor het verschil tussen gemiddelden dat de puntschatting hiervan uit een gegeven steekproef niet informatief is. We willen iets kunnen zeggen over de populatie. Dit kunnen we doen met behulp van een betrouwbaarheidsinterval.
De \(t\)-verdeling kan gebruikt worden om het betrouwbaarheidsinterval voor het verschil tussen gemiddelden op te stellen. Dit betrouwbaarheidsinterval kunnen we berekenen met de volgende standaardformule.
\[\begin{equation} \text{betrouwbaarheidsinterval} = \text{steekproefwaarde} \pm \text{breedte-index} \times \text{standaardfout} \tag{23.1} \end{equation}\]
Laten we als voorbeeld het betrouwbaarheidsinterval berekenen voor het verschil in snavellengte voor vrouwelijke (\(42.1\)) en mannelijke (\(45.85\)) pinguïns. De steekproefwaarde is het verschil tussen de gemiddelden.
\[\begin{equation} 45.85 - 42.1 = 3.76 \tag{23.2} \end{equation}\]
De standaardfout kunnen we met de hand berekenen, maar dit doen we in de praktijk nooit omdat deze door software wordt gegeven. In dit geval is de standaardfout \(0.56\).
We kunnen de formule voor het betrouwbaarheidsinterval dus al deels invullen.
\[\begin{equation} \text{betrouwbaarheidsinterval} = 3.76 \pm \text{breedte-index} \times 0.56 \tag{23.3} \end{equation}\]
De breedte-index komt in dit geval uit de \(t\)-verdeling en heet ook wel de kritieke \(t\)-waarde. Deze kritieke \(t\)-waarden kunnen in een tabel worden opgezocht, hoewel ze tegenwoordig in de praktijk met software worden berekend.
Onze steekproef bevat \(333\) pinguïns. Om te bepalen volgens welke \(t\)-verdeling het verschil tussen de gemiddelden verdeeld is, moeten we weten hoeveel vrijheidsgraden er zijn. Het aantal vrijheidsgraden van de \(t\)-verdeling is de steekproefomvang minus \(2\), in dit geval dus \(333 − 2 = 331\).
De kritieke \(t\)-waarde die we moeten gebruiken om het betrouwbaarheidsinterval te berekenen, kunnen we opzoeken in een tabel met kritieke \(t\)-waarden. Zo’n tabel bevat een aantal kolommen die de kritieke \(t\)-waarden tonen die corresponderen met een bepaald betrouwbaarheidsinterval. In dit geval willen we het \(95\%\)-betrouwbaarheidsinterval \((1 - .95 = .05)\) gebruiken. In de regel verschillen de kritieke \(t\)-waardes tot aan \(100\) vrijheidsgraden. Daarboven is de kritieke \(t\)-waarde altijd gelijk aan \(1.96\). Dit getal is dus de breedte-index voor de formule voor het betrouwbaarheidsinterval.
Nu kunnen we het betrouwbaarheidsinterval opstellen.
\[\begin{equation} \text{betrouwbaarheidsinterval} = 3.76 \pm 1.96 \times 0.56 \tag{23.4} \end{equation}\]
Het betrouwbaarheidsinterval loopt in dit geval dus van \(2.65\) tot \(4.86\). Kortom, op basis van deze steekproef is het verschil in snavellengte klein en positief. Dat houdt in dat mannetjes net iets langere snavels hebben dan vrouwtjes. Op basis van dit betrouwbaarheidsinterval lijkt het dus waarschijnlijk dat de gemiddelden tussen mannetjes en vrouwtjes in de populatie verschillen. Ook bij een negatief betrouwbaarheidsinterval – een interval met negatieve waarden aan beide uiteinden – is de conclusie dat in de populatie de gemiddelden waarschijnlijk verschillen. Als het betrouwbaarheidsinterval aan één uiteinde negatief is, maar aan het andere uiteinde positief (bijvoorbeeld \(-2.04\); \(4.04\)), kunnen we concluderen dat het niet plausibel is dat de gemiddelden in de populatie verschillen.
Stel dat we snavellengte niet in mm hadden gemeten, maar in cm. In dat geval waren alle waarden \(10\) keer zo klein geweest. Het betrouwbaarheidsinterval had er dan zo uitgezien:
\[\begin{equation} \text{betrouwbaarheidsinterval} = 0.38 \pm 1.96 \times 0.06 \tag{23.5} \end{equation}\]
Dit interval had dan van \(0.27\) tot \(0.49\) gelopen. Dat is nogal een verschil. Het feit dat dit verschil tussen de gemiddelden – en dus het bijbehorende betrouwbaarheidsinterval – afhankelijk is van de schaal waarop we de continue variabele gemeten hebben, heeft zowel voor- als nadelen. Een voordeel is dat het verschil in groepsgemiddelden wordt uitgedrukt in een concrete eenheid, in dit geval mm (of cm). Dat is voor veel mensen vrij gemakkelijk te interpreteren.
Een nadeel is dat het moeilijk te bepalen is hoe relevant dit verschil is. Hoeveel moeten de gemiddelden uit elkaar liggen voordat het zinvol is om te concluderen dat ze ook echt anders zijn? Een ander nadeel is dat de sterkte van dit verband niet te vergelijken is met verschillen uit andere studies, tenzij in die andere studies exact dezelfde meetinstrumenten gebruikt zijn. We willen dus eigenlijk een maat voor het verschil tussen deze gemiddelden die onafhankelijk is van de schaal van de continue variabele. Deze maat bestaat en heet Cohen’s \(d\).
23.3 Cohen’s \(d\)
Cohen’s \(d\) is het verschil tussen twee groepen, gecorrigeerd voor de standaarddeviatie. De standaarddeviatie is een maat voor de meetschaal van de betreffende variabele. Door het verschil tussen de gemiddelden hierdoor te delen krijgen we een schaalonafhankelijke maat voor het verschil tussen de groepen.
Zoals je je misschien nog herinnert, is dit bijna precies hetzelfde als we doen om een \(z\)-waarde te berekenen.
\[\begin{equation} z = \frac{x_i - \overline{x}}{sd_x} \tag{23.6} \end{equation}\]
Oftewel, de \(z\)-waarde die correspondeert met elk datapunt is gelijk aan het verschil tussen dat datapunt en het gemiddelde, gedeeld door de standaarddeviatie. In dit geval kijken we nu niet naar het verschil van een enkel datapunt ten opzichte van het gemiddelde (\(x_i - \overline{x}\)), maar naar het verschil tussen twee gemiddelden.
\[\begin{equation} \text{Cohen's } d = \frac{\overline{y}_1 - \overline{y}_2}{sd_y} \tag{23.7} \end{equation}\]
In deze formule wordt \(y\) gebruikt in plaats van \(x\) omdat het conventie is om de afhankelijke variabele met \(y\) aan te duiden en de onafhankelijke variabele met \(x\).
Wanneer we naar het verschil tussen gemiddelden kijken, is de variabele waarvan we het gemiddelde berekenen meestal de afhankelijke variabele (\(y\)) en de variabele waarvan de meetwaarden de groepen bepalen, de onafhankelijke variabele (\(x\)).
Cohen’s \(d\) is dus het verschil tussen de gemiddelden, uitgedrukt in standaarddeviaties. Een Cohen’s \(d\) van \(.50\) betekent dat de twee gemiddelden een halve standaarddeviatie uit elkaar liggen; een Cohen’s \(d\) van \(.80\) betekent dat ze acht tiende standaarddeviaties uit elkaar liggen.
23.3.1 Steekproevenverdeling van Cohen’s \(d\)
Ook de Cohen’s \(d\) heeft een bekende steekproevenverdeling en een bekende formule voor de standaardfout. In Figuur 23.3 zijn vier steekproevenverdelingen van Cohen’s \(d\) te zien.
Omdat elke waarde van Cohen’s \(d\) die in een steekproef gevonden kan worden afkomstig is uit zo’n steekproevenverdeling, is ook hier de puntschatting weinig informatief en is het belangrijk om het bijbehorende betrouwbaarheidsinterval te berekenen.
23.3.2 Betrouwbaarheidsintervallen voor Cohen’s \(d\)
In de praktijk wordt het betrouwbaarheidsinterval voor Cohen’s \(d\) altijd berekend met statistische software. In ons voorbeeld over het verschil in snavellengte tussen mannelijke en vrouwelijke pinguïns is de puntschatting van Cohen’s \(d\) \(-0.73\). Het betrouwbaarheidsinterval is \([-0.95; -0.51]\). Het is dus aannemelijk dat de waarde van Cohen’s \(d\) in de populatie negatief is.
Of Cohen’s \(d\) positief of negatief is, ligt er maar net aan of het gemiddelde van de tweede groep groter of kleiner in dat van de eerste groep. Het gemiddelde van snavellengte van vrouwelijke pinguïns minus het gemiddelde van snavellengte van mannelijke pinguïns resulteert in een negatief verschil. Hadden we het gemiddelde van vrouwelijke pinguïns afgetrokken van dat van mannelijke pinguïns, was het verschil positief geweest.
In de praktijk vind je vaak een veel kleinere Cohen’s \(d\) dan in deze steekproef, maar in het pinguïnvoorbeeld is er een duidelijk verschil tussen mannetjes en vrouwtjes. In veel sociaalwetenschappelijk onderzoek zijn de verschillen tussen groepen meer subtiel. Het gevonden betrouwbaarheidsinterval is relatief smal, omdat er redelijk wat pinguïns in deze studie zitten. Hoe meer deelnemers, hoe smaller en hoe accurater het betrouwbaarheidsinterval.
23.3.3 Interpretatie Cohen’s \(d\): mogelijke waarden en richtlijnen
De correlatiecoëfficiënt, Pearson’s \(r\), heeft mogelijke waardes van \(-1\) tot \(1\). Cohen’s \(d\), ook wel de ‘standardized mean difference’ (SMD) genoemd, is niet beperkt en kan in theorie oneindig klein en oneindig groot worden.
Omdat Cohen’s \(d\) onafhankelijk is van de schaal waarop variabelen zijn gemeten, is het mogelijk om net als bij correlatiecoëfficiënten voorzichtige richtlijnen te formuleren om te bepalen of een verband zwak, middelsterk of sterk is. Cohen stelde zelf een aantal richtlijnen voor, deze zijn te zien in Tabel 23.1.
Cohen’s d | Samenhang |
---|---|
kleiner dan -1.30 | zeer sterk negatief |
tussen -.1.30 en -0.80 | sterk negatief |
tussen -0.80 en -0.50 | middelsterk negatief |
tussen -0.50 en -0.20 | zwak negatief |
tussen -0.20 en 0.20 | triviaal |
tussen 0.20 en 0.50 | zwak positief |
tussen 0.50 en 0.80 | middelsterk positief |
tussen 0.80 en 1.30 | sterk positief |
groter dan 1.30 | zeer sterk positief |
In de praktijk worden in de psychologie zelden verbanden gevonden die sterker zijn dan Cohen’s \(d = 1\) (Lipsey & Wilson, 1993) en zelfs zulke sterke verbanden zijn al zeldzaam: verbanden rond de \(d = 0.2\) zijn vaak gangbaarder. Het is inmiddels dus gebleken dat de kwalificatie van een verband van \(d = 0.2\) als “zwak” en een verband van \(d = 0.5\) als “middelsterk” wat misleidend is. Dit suggereert dat als je geen idee hebt hoe sterk een verband gaat zijn, \(d = 0.5\) wel een redelijk uitgangspunt is, terwijl het waarschijnlijk een forse overschatting is.
23.4 De onafhankelijke \(t\)-toets
Net als bij correlaties en regressiecoëfficiënten is het ook voor het verschil tussen twee gemiddelden mogelijk om een \(p\)-waarde te berekenen. Deze \(p\)-waarde is de \(p\)-waarde voor het ruwe verschil tussen de gemiddelden (in de oorspronkelijke meeteenheid) en ook de \(p\)-waarde van de bijbehorende Cohen’s \(d\). De methode om deze \(p\)-waarde te berekenen heet de onafhankelijke \(t\)-toets. Deze ‘\(t\)’ komt van de \(t\)-verdeling die hierbij gebruikt wordt. Het woord ‘toets’ wordt gebruikt omdat binnen de nulhypothese-significantietoetsing (NHST) de \(p\)-waarde wordt gezien als een middel om de nulhypothese te ‘toetsen.’ De nulhypothese is de hypothese dat de variabelen niet samenhangen, wat in dit geval betekent dat het verschil tussen de gemiddelden nul is.
De \(t\)-toets bestaat uit twee stappen. Eerst wordt de \(t\)-waarde berekend; daarna wordt met behulp van de \(t\)-verdeling de bijbehorende \(p\)-waarde bepaald. Net als bij de berekening voor Cohen’s \(d\) is de berekening voor de \(t\)-waarde bijna hetzelfde als die voor de \(z\)-waarde. De formule voor de \(t\)-waarde is
\[\begin{equation} t = \frac{\overline{y}_1 - \overline{y}_2}{se_\text{verschil}} \tag{23.8} \end{equation}\]
Om de \(t\)-waarde te verkrijgen, wordt het verschil tussen beide gemiddelden dus gedeeld door de standaardfout van dat verschil. De standaardfout is de naam voor de standaarddeviatie in een steekproevenverdeling. Een \(t\)-verdeling is zo’n steekproevenverdeling.
Voor \(z\)-scores geldt dat een \(z\)-score van bijvoorbeeld \(3\) betekent dat dat datapunt drie standaarddeviaties boven het gemiddelde ligt. Bij \(t\)-waarden geldt hetzelfde: een \(t\)-waarde van \(-4\) betekent dat de twee gemiddelden vier standaardfouten van elkaar af liggen.
De gemiddelde snavellengte voor mannelijke en vrouwelijke pinguïns waren respectievelijk \(45.85\) en \(42.1\) en de standaardfout voor het verschil tussen die twee was \(0.56\). Deze waardes kunnen we invullen in de formule voor de t-waarde.
\[\begin{equation} t = \frac{ 45.85 - 42.1 }{ 0.56 } = \frac{ 3.76 }{ 0.56 } = 6.67 \tag{23.9} \end{equation}\]
Als een \(t\)-waarde berekend is, kan de bijbehorende \(p\)-waarde worden opgezocht. Laten we, als opfrisser, weer even naar de steekproevenverdeling kijken waaruit \(p\)-waarden berekend worden. Binnen NHST nemen we aan dat er in de populatie geen verband bestaat tussen de twee variabelen. In dit geval nemen we dus aan dat het verschil tussen de gemiddelden in de populatie nul is. We weten de standaardfout van onze \(t\)-verdeling (0.56) en we weten het aantal vrijheidsgraden (\(333 - 2 = 331\)). We kunnen deze nulhypothese-steekproevenverdeling nu dus tekenen (zie Figuur 23.4).
Binnen deze nulhypothese-steekproevenverdeling kunnen we vervolgens de \(t\)-waarde opzoeken (zie Figuur 23.5).
De volgende stap is om deze verdeling te gebruiken om te bepalen wat de kans is, onder aanname van de nulhypothese, op een verschil in snavellengte voor mannelijke en vrouwelijke pinguïns dat minstens zo extreem is als het verschil dat wij gevonden hebben. In Figuur 23.6 is deze kans te zien als de oppervlakte onder de curve aan de rechterkant van de \(t\)-waarde.
Om de \(p\)-waarde te bepalen, moeten we ook het oppervlak aan de andere kant van de verdeling meenemen. Een even grote negatieve \(t\)-waarde geeft namelijk hetzelfde extreme verschil aan als die wij gevonden hebben. Deze negatieve waarden moeten dus ook meegenomen worden (zie Figuur 23.7).
Het percentage van de hele \(t\)-verdeling dat roodgekleurd is, is de \(p\)-waarde. Deze wordt berekend met statistische software. Vroeger werd deze opgezocht in tabellen. Per \(t\)-verdeling met een gegeven aantal vrijheidsgraden, kon voor een gegeven \(t\)-waarde worden opgezocht welke proportie van de verdeling lager (of hoger) lag dan die \(t\)-waarde.
In dit geval is de \(p\)-waarde gelijk aan \(p < .001\). Onder NHST wordt deze vervolgens vergeleken met het vooraf bepaalde significantieniveau, meestal \(5\%\) oftewel \(\alpha =.05\). De redenering is dat als de nulhypothese klopt, het wel héél toevallig zou zijn als net in deze ene steekproef zo’n extreem verschil gevonden wordt dat in minder dan \(5\%\) van de steekproeven voorkomt. Als dat toch gebeurt en de \(p\)-waarde dus lager is dan \(.05\), dan is de redenering dat de steekproevenverdeling die gebruikt is om die \(p\)-waarde te berekenen, waarschijnlijk niet zal kloppen. De verdeling waar de gevonden \(t\)-waarde uitkomt, heeft dus waarschijnlijk een andere vorm of een andere standaardfout of is verkeerd gecentreerd.
In de praktijk wordt altijd geconcludeerd dat de fout ligt bij dat laatste: de steekproevenverdeling zal in de populatie wel niet gecentreerd zijn rondom \(0\). Dit heet het ‘verwerpen’ van de nulhypothese. De conclusie is dan dat beide variabelen samenhangen, oftewel, dat de gemiddelden verschillen. In dit geval kan deze conclusie ook getrokken worden, omdat de kans op een \(t\)-waarde die je in minder dan \(0.1\%\) van de steekproeven vindt, zo klein is dat de aanname van de nulhypothese verworpen kan worden.
Om rekening te houden met mogelijk verschillende varianties tussen de twee groepen, bestaat er een correctie voor deze \(t\)-toets. Inmiddels is de conventie om altijd deze correctie, die ook wel Welch’s \(t\)-toets wordt genoemd, te gebruiken (zie Delacre et al. (2017); Ruxton (2006)). Die correctie kan niet eenvoudig met de hand berekend worden, maar statistische software kan dit wel.
Of varianties tussen twee groepen gelijk zijn, kan gecontroleerd worden met een Levene’s toets.
23.5 Levene’s toets voor gelijkheid van varianties
23.5.1 Wat is de Levene’s toets
Om te toetsen of k steekproeven gelijke varianties hebben (homoscedastisch zijn) stelde Levene (1960) een robuuste F-toets voor die bekend is komen te staan als de Levene’s toets voor de gelijkheid van varianties, of simpelweg de Levene’s toets. In statistische toetsen waar groepen vergeleken worden, én de assumptie geldt dat de varianties van de vergeleken groepen hetzelfde zijn, kan de Levene’s toets worden gebruikt om deze assumptie te toetsen.
Het kan handig zijn om te weten dat de Levene’s toets niet de enige toets is waarmee gelijkheid van varianties kan worden getoets, maar de Levene’s toets staat bekend als een van de krachtigste (robuuste) toetsen. Een bekend alternatief is bijvoorbeeld de Bartlett test, die in bijzondere situaties de voorkeur geniet, zoals wanneer er vrijwel geen twijfel is dat de populatieverdeling normaal verdeeld is. De Levene’s test heeft haar populariteit eraan te danken dat onderzoekers zelden echt zeker zijn over de populatieverdeling, en dat toetsen zoals de Bartlett-toets niet zoveel sterker zijn dan de Levene’s toets wanneer men die zekerheid wel heeft. Om deze reden is het zeldzaam om statistische software te vinden waar een andere toets dan de Levene’s toets de standaard of zelfs enige out-of-the-box optie is.
23.5.2 Drie soorten Levene’s toetsen
In het originele paper geschreven door Levene werd een toets voorgesteld waar de gemiddelden eerst berekend werden om daar vervolgens varianties vanaf te leiden. In sommige statistische software worden ook andere soorten Levene’s toetsen gegeven. Het kan zijn dat software naast de ‘standaard’ Levene’s toets op basis van het gemiddelde ook toetsen geeft gebaseerd op mediaan of trimmed means, dus gemiddelden waar in dit geval de hoogste en laagste \(10\%\) van de data buiten beschouwing zijn gelaten.
Deze varianten van de Levene’s toets zijn voorgesteld door Brown en Forsythe (1974). Volgens hen is de Levene’s toets op basis van de mediaan een goede algemene keuze, omdat deze tegen scheef-verdeelde data opgewassen is. Het gemiddelde stellen zij is vooral een goed uitgangspunt als de data goed symmetrisch (dus normaal verdeeld) is. De Levene’s toets op basis van de trimmed mean zou vooral krachtig zijn bij zeer extreme scheefheid.
De meeste software zal enkel een Levene’s toets op basis van het gemiddelde weergeven, tenzij anders vermeld.
23.5.2.1 Verdieping: wat betekent ‘op basis van gemiddelde’?
Voor diegenen die reeds bekend zijn met de one-way ANOVA, of deze tekst teruglezen na het leren over de one-way ANOVA, is het misschien duidelijker om de formules van de Levene’s toetsen kort te bespreken. De Levene’s toets is namelijk eigenlijk een one-way ANOVA waarbij de afhankelijke variabele het (absolute) verschil is tussen een observatie en het centrum (bijvoorbeeld gemiddelde) van de groep waar deze observatie toe behoort.
Voor de ‘standaard’ Levene’s toets op basis van het gemiddelde is de formule:
\[\begin{equation} W = \frac{(N-k)} {(k-1)} \frac{\sum_{i=1}^{k}N_{i}(\bar{Z}_{i.}-\bar{Z}_{..})^{2} } {\sum_{i=1}^{k}\sum_{j=1}^{N_i}(Z_{ij}-\bar{Z}_{i.})^{2} } \tag{23.10} \end{equation}\]
Wanneer het gemiddelde gebruikt wordt als uitgangspunt dan betekent \(Z_{ij}\):
\[\begin{equation} Z_{ij} = |Y_{ij} - \bar{Y}_{i.}| \tag{23.11} \end{equation}\]
- \(N\) is de steekproefgrootte en \(N_{i}\) is de steekproefgrootte van de i-de groep.
- \(k\) zijn het aantal groepen
- \(\bar{Y}_{i.}\) is het groepsgemiddelde van de i-de groep
- \(\bar{Z}_{i.}\) zijn de groepsgemiddelden van \(Z_{ij}\)
- \(\bar{Z}_{..}\) is het algemene gemiddelde van \(Z_{ij}\)
- \(Y_{ij}\) zijn de individuele observaties
Om de formule samen te vatten: boven de deelstreep wordt het absolute verschil per groep afgetrokken van het absolute verschil over alle groepen heen. Als de varianties van groepen identiek zijn dan zou er boven de deelstreep nul opgeteld (gekwadrateerd) verschil moeten zijn.
23.5.3 Hoe de Levene’s toets te gebruiken?
Tegenwoordig wordt het gebruik van de Levene’s toets meer als een formaliteit beschouwd. Het is inmiddels de norm geworden dat altijd van ongelijke varianties uitgegaan wordt (bijvoorbeeld Delacre et al. (2017)). Desondanks is het goed gebruik om de Levene’s toets wel weer te geven in onderzoeksverslagen, of te begrijpen wat de Levene’s toets is als je dit in een onderzoeksverslag tegenkomt.
De Levene’s toets is F-verdeeld en heeft als nulhypothese:
\(H_0: \sigma^2_1 = \sigma^2_2 = \dots = \sigma^2_k\)
Kort gezegd: de nulhypothese is dat alle varianties hetzelfde zijn.
Als de Levene’s test een significante F-waarde heeft (\(p < \alpha\), meestal kiest men \(p < .05\)), dan verwerpt men de nulhypothese dat alle varianties hetzelfde zijn. Het wordt dan aangenomen dat de variantie van minstens één groep afwijkt van de variantie van minstens één andere groep. Uiterst kort-door-de-bocht samengevat: Levene’s test significant betekent dat de assumptie van gelijke varianties geschonden is.
23.6 Aannames van de t-toets
De onafhankelijke t-toets heeft de volgende assumpties:
De observaties zijn onafhankelijk. Dit betekent dat er twee groepen vergeleken worden die los staan van elkaar. Dit is een aanname die je niet kunt toetsen, maar die je moet beredeneren. Bijvoorbeeld als je een onderzoek doet waarbij je twee condities vergelijkt, een experimentele groep en een controle groep, dan zijn die observaties onafhankelijk van elkaar. Als dezelfde groep mensen zowel experimentele groep als controle groep is, dus eerst geen interventie krijgen en dan wel, dan zijn de observaties wel afhankelijk van elkaar.
De residuen zijn normaal verdeeld. Dit betekent dat het verschil tussen de geobserveerde en de werkelijke waardes overal gelijk zijn (en dus niet groter of kleiner worden) en dit wordt meestal getoetst met een test voor normaliteit, zoals de Shapiro-Wilk test.
De varianties tussen groepen zijn gelijk (homoscedastiteit). Deze assumptie is hierboven in het stuk over de Levene test al uitgebreid besproken.
23.7 De gepaarde t-toets
Bij het bespreken van correlatie- en regressieanalyse, werden beide continue variabelen bij dezelfde personen gemeten. Bij de onafhankelijke \(t\)-toets wordt de continue variabele gemeten bij verschillende personen, namelijk bij de twee te vergelijken groepen. Maar wat als je dezelfde variabele twee keer meet bij dezelfde personen?
Je kunt bijvoorbeeld deelnemers de toegankelijk van twee folders voor de Open Universiteit laten beoordelen. Ook nu kun je weer twee gemiddelden berekenen, maar er is een belangrijk verschil ten opzichte van de situatie waarin je twee verschillende groepen mensen zou vragen om elk één folder te beoordelen. De oordelen op de twee folders hangen nu namelijk samen. Mensen die negatief zijn ingesteld of kritisch zijn, beoordelen beide folders waarschijnlijk lager dan mensen die positief zijn ingesteld. Als je iemands beoordeling van de ene folder kent, kun je dus al een beetje de beoordeling van de andere folder voorspellen. Met andere woorden: de correlatie tussen de twee oordelen is groter dan \(0\).
Als er twee groepen van verschillende mensen zijn, zou je niet eens een correlatie kunnen berekenen; er is namelijk geen manier om de datapunten (beoordelingen) uit de ene groep te koppelen aan die van de andere groep. Als je bij dezelfde mensen twee keer een meeting doet, is er wel een verband tussen die twee metingen - het zijn geen onafhankelijke, maar afhankelijke of gepaarde metingen.
Een ander voorbeeld van afhankelijke metingen is een voor- en nameting, bijvoorbeeld in een experimenteel onderzoek. Je doet eerst bij iedereen een voormeting, dan vindt de manipulatie plaats - bijvoorbeeld de helft krijgt een interventie en de andere helft niet - en dan doe je een nameting. Een andere vorm van afhankelijke metingen is als twee personen oordelen over dezelfde persoon. Stel, jij beoordeelt hoe hoog cijfer je denkt te halen op een tentamen en je docent doet dat ook over jou. Ook dat zijn afhankelijke metingen, omdat deze over dezelfde persoon gaan.
23.7.1 Voordelen van gepaarde \(t\)-toetsen
Door op individueel niveau verschilscores uit te rekenen, elimineer je de individuele verschillen in een beoordeling. Als twee verschillende groepen mensen de toegankelijkheid van een folder beoordelen, bestaat een deel van de spreiding (variantie) tussen de meetwaarden uit individuele verschillen. Iemand die altijd lage oordelen geeft, geeft ook hier een laag oordeel; en iemand die altijd hoge oordelen geeft, geeft hier ook een hoog oordeel.
Omdat je maar één meting per persoon hebt, weet je niet of de lage en hoge meetwaarden die bij de beoordeling van een folder horen, komen doordat ze beoordeeld zijn door mensen die nu eenmaal lage of hoge oordelen geven (dus vanwege persoonlijkheidskenmerken) of dat deze spreiding in scores door steekproef- of meetfout komt. Die variantie door persoonlijke verschillen manifesteert zich in zo’n zogenaamd between-subjects design dus als meetfout en resulteert in een grotere standaarddeviatie.
Bij gepaarde meetwaarden elimineer je die persoonlijkheidskenmerken: je vergelijkt de score van elke persoon namelijk met een andere score van diezelfde persoon. Als dezelfde personen vaker gemeten worden, spreken we van een within-subjects design.
23.7.2 Verschillende berekeningen bij gepaarde \(t\)-toetsen
Het berekenen van de \(t\)-waarde bij de gepaarde \(t\)-toets (of afhankelijke \(t\)-toets) is makkelijker dan bij de ongepaarde \(t\)-toets (of onafhankelijke \(t\)-toets). Dit komt omdat je nu per deelnemer het verschil tussen de twee datapunten kunt berekenen, waarna nog maar één datareeks met de verschilscore per deelnemer overblijft. Deze datareeks heeft een gemiddelde, standaarddeviatie en standaardfout, net als alle andere datareeksen, die we op de gebruikelijke manier kunnen berekenen. De \(t\)-waarde bij de gepaarde \(t\)-toets is het gemiddelde gedeeld door de standaardfout.
\[\begin{equation} t = \frac {\overline{y}_\text{verschil}} {se} \tag{23.12} \end{equation}\]
De berekening voor Cohen’s \(d\) is vergelijkbaar. In plaats van het verschil tussen de gemiddelden, wordt het gemiddelde van de verschilscores gedeeld door de standaarddeviatie.
\[\begin{equation} \text{Cohen's } d = \frac {\overline{y}_\text{verschil}} {sd} \tag{23.13} \end{equation}\]