Hoofdstuk 9 Betrouwbaarheid

In dit hoofdstuk wordt besproken:
  • Betrouwbaarheid
  • Test-hertest betrouwbaarheid
  • Interne consistentie
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspractium cross-sectioneel onderzoek (PB0812)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Constructen
  • Constructen Meten

De wereld zit vol met ruis. Onze zintuigen zijn geëvolueerd om die ruis zoveel mogelijk uit te filteren, maar als we een meetinstrument toepassen hebben we er opeens weer last van. Die ruis manifesteert zich dan als meetfout, en die meetfout verlaagt de betrouwbaarheid van een meetinstrument. Het complement van meetfout is de betrouwbaarheid, en dit hoofdstuk bespreekt die.

9.1 Betrouwbaarheid

Een perfect betrouwbaar meetinstrument bestaat niet: er is altijd iets dat een meting kan verstoren. Als dat niet zou kunnen zou een perfect meetinstrument altijd precies, op oneindig veel decimalen, de juiste waarde aangeven. Als een meetinstrument perfect lijkt, zoals bijvoorbeeld het geval kan zijn voor een personenweegschaal, dan komt dat omdat de gemeten waarden worden afgerond.9

Een perfect onbetrouwbaar meetinstrument bestaat wel: een zuivere dobbelsteen is bijvoorbeeld een perfect onbetrouwbaar meetinstrument. Wat je er ook mee wil meten, de meting die de dobbelsteen “aangeeft” zal altijd volkomen willekeurig zijn.

En dat is precies de definitie van meetfout: dat deel van een meetscore dat puur door toeval komt. In de klassieke testtheorie (een verzameling psychometrisch onderzoek met haar wortels in het begin van de 20ste eeuw) wordt gesteld dat elke geobserveerde score (“\(X\)”) op een meetinstrument (of dat nu een weegschaal is of een IQ-test) bestaat uit twee delen: de “ware score” (“\(T\)”) die eigenlijk gemeten moet worden, plus “error” (“\(E\)”) oftewel meetfout:

\[X = T + E\]

Die error wordt meestal gedefinieerd als gemiddeld \(0\) (nul) en normaal verdeeld (zie hoofdstuk Verdelingen). Hieruit volgt dat naarmate je meer metingen middelt, de error in dat gemiddelde steeds kleiner wordt. Omdat die immers symmetrisch is verdeeld rondom een gemiddelde van nul is die error (of meetfout) soms positief en soms negatief. Als je oneindig veel metingen met elkaar combineert valt de meetfout dus tegen elkaar weg.

Het probleem is dat je nooit die ware scores kent. Je hebt alleen de geobserveerde scores. Tegelijkertijd is het belangrijk om de betrouwbaarheid van meetinstrumenten te kennen. Als een meetinstrument erg onbetrouwbaar is, zullen de uitkomsten die je vindt voor een groot deel bestaan uit ruis. In zo’n geval wil je dus de betrouwbaarheid van het meetinstrument verhogen.

In de klassieke testtheorie wordt betrouwbaarheid gedefinieerd als de proportie van de variantie in de (geobserveerde) testscores die door de “ware scores” worden veroorzaakt:

\[\rho^2_{XT} = \frac{\sigma^2_T}{\sigma^2_X}\]

Omdat die variantie in de geobserveerde scores (\(\sigma^2_X\)) gelijk is aan de optelsom van de varianties door de ware scores en de error, kun je dit ook zo schrijven:

\[\rho^2_{XT} = \frac{\sigma^2_T}{\sigma^2_T+\sigma^2_E}\]

De wortel van die betrouwbaarheid is gelijk aan de correlatie tussen de ware scores en de geobserveerde scores. Die correlatie wordt \(\rho_{XT}\) genoemd:

\[\rho_{XT} = \sqrt{\rho^2_{XT}}\]

Uit dit gegeven volgt dat als je twee meetinstrumenten hebt die zogenaamde “parallelle tests” zijn, wat betekent dat ze hetzelfde meten en evenveel meetfout hebben, dat de correlatie tussen de scores van die meetinstrumenten dan de de wortel van de betrouwbaarheid is. Dit gegeven, dat betrouwbaarheid kan worden gezien als het kwadraat van de correlatie tussen twee parallelle meetinstrumenten, wordt vaak gebruikt als basis om betrouwbaarheid te schatten.

Met betrouwbaarheid wordt meestal bedoeld dat als je iets twee keer meet, dat je beide keren dezelfde uitkomst vindt. Als je bijvoorbeeld op de thermometer kijkt, en het is 26 graden Celcius, en je kijkt een minuut later weer, en het is opeens 18 graden, dan zou dat reden zijn om te twijfelen aan de betrouwbaarheid van de thermometer. En als je ’s ochtends tweee keer achter elkaar op de weegschaal gaat staan, en de tweede keer ben je opeens een kilo lichter of zwaarder, dan is het misschien tijd voor een nieuwe weegschaal.

9.2 Test-hertest betrouwbaarheid

Dit twee keer meten is de meest intuitieve manier om betrouwbaarheid te schatten. Dit heet de test-hertest betrouwbaarheid: de betrouwbaarheid van een test, gebaseerd op twee afnames. Dit is handig natuurlijk: je gebruikt dan gewoon een tweede toepassing van het meetinstrument als een parallelle versie van zichzelf. Het is vaak redelijk om aan te nemen dat je voldoet aan de eisen die je stelt aan parallelle tests (dezelfde ware score voor een gegeven individu (\(T\)) en evenveel meetfout (\(E\))), wat een groot voordeel is van test-hertest betrouwbaarheid. Tegelijkertijd zijn er een aantal specifieke uitdagingen waardoor dit niet zo eenvoudig is als het lijkt.

9.2.1 Mensen veranderen continu

Ten eerste verandert de psychologie van een individu voortdurend. Sommige dingen heel snel (humeur kan van minuut tot minuut veranderen), en sommige dingen heel langzaam (intelligentie en persoonlijkheid veranderen juist op een schaal van jaren, niet minuten), maar alles verandert de hele tijd. Je moet daarom niet te lang wachten met de hertest. De hertest is alleen een parallelle meting van de eerste afname (de “test” in “test-hertest”) als de ware scores die worden gemeten hetzelfde zijn. Hoe langer je wacht, hoe meer de test-hertest betrouwbaarheid een onderschatting zal zijn van de echte betrouwbaarheid.

9.2.2 Mensen herinneren zich dingen

Maar, dan komen we bij het tweede probleem: mensen hebben een geheugen. Als je een vragenlijst met tien vragen invult, en vijf minuten later nog een keer, weet je waarchijnlijk nog wel wat je de eerste keer had ingevuld. De toepassingen van het meetinstrument zijn dan niet onafhankelijk van elkaar.

9.2.3 Transient error

Bovendien zijn op zo’n korte periode niet alle bronnen van zogenaamde transient error, de meetfout die veroorzaakt wordt door tijdsafhankelijke factoren, gedekt. Neem bijvoorbeeld humeur als bron van meetfout. Humeur kan interpretatie en attributie beïnvloeden, waardoor ruis ontstaat in het responsmodel. Omdat personen soms in een goede bui zijn, en soms in een slechte bui, middelt die ruis uit als het meetinstrument vaker wordt afgenomen (als er tenminste voldoende tijd tussen de afnames zit); en als er metingen worden gemiddeld over meerdere personen zullen sommige mensen in een goede bui zijn geweest, en andere mensen in een slechte bui, waardoor ook dan deze “humeur-meetfout” vermindert. Maar als we de meetfout goed willen schatten, dus inclusief die transient error, dan moet er voldoende tijd tussen de toepassingen van het meetinstrument zitten.

9.2.4 Termijn tussen metingen

Bij het berekenen van test-hertest betrouwbaarheid is het dus belangrijk om goed na te denken over de termijn tussen beide metingen. Dat is niet altijd eenvoudig, want soms is er te weinig bekend over het responsmodel van een meetinstrument, waardoor er geen duidelijke verwachtingen zijn over hoe snel de betreffende onderdelen van de psychologie veranderen over tijd.

9.2.5 Meetfout onderschatten

Tegelijkertijd is test-hertest betrouwbaarheid de enige manier om een goede schatting van de betrouwbaarheid van een meetinstrument te krijgen. Juist omdat betrouwbaarheid gaat over de herhaaldelijke toepassing van een meetinstrument, moet je als je de error (\(E\)) schat, wel de effecten van invloeden die over de tijd variëren daarin meenemen, anders overschat je de betrouwbaarheid. Het overschatten van betrouwbaarheid van een meetinstrument is een probleem, omdat je dan de verbanden die je met dat meetinstrument gaat proberen te bepalen niet goed kunt schatten.

9.2.6 Test-hertest betrouwbaarheid berekenen

Twee maten voor de test-hertest betrouwbaarheid zijn de Test-Hertest Alpha en de Coefficient of Equivalence and Stability. Deze worden beiden besproken in Crutzen (2014).

9.2.7 Uitdagingen bij test-hertest betrouwbaarheid

Een nadeel van de test-hertest betrouwbaarheid is dat je deelnemers twee keer moet meten, en je moet dus rekening houden met de mogelijkheid dat deelnemers uitvallen. Inschatten welke proportie van de deelnemers uitvalt is vaak al niet makkelijk, maar je moet ook nog eens op basis van die schatting de eerste keer meer deelnemers meten dan je eigenlijk nodig hebt. Tot slot kan het zijn dat de uitval van deelnemers niet willekeurig is: misschien vallen bijvoorbeeld vooral de minder gemotiveerde deelnemers uit, of de deelnemers met de drukste levens. In dat geval is je schatting van de betrouwbaarheid niet gebaseerd op een representatieve steekproef, en weet je dus niet wat de betrouwbaarheid echt is. Daarom is de “interne consistentie-benadering” van betrouwbaarheid erg populair.

9.3 Interne consistentie

Interne consistentie is de mate waarin items in een meetinstrument hetzelfde meten. Onder een aantal aannames kan dit worden gebruikt als schatting voor de betrouwbaarheid van dat meetinstrument. Daarom wordt de term interne consistentie ook wel gebruikt om te verwijzen naar alle schatters voor betrouwbaarheid op basis van een enkele afname van een meetinstrument. Zie voor een uitgebreide bespreking van deze betrouwbaarheidsschatters McNeish (2017).

9.3.1 Split-half betrouwbaarheid

De meest eenvoudige maat voor interne consistentie is de split-half betrouwbaarheid. Deze was tot de jaren vijftig van de twintigste eeuw de meest gebruikte vorm. De redenering was als volgt.

Je neemt een meetinstrument, en dat pas je toe op een steekproef aan deelnemers. Je verdeelt de items van dat meetinstrument vervolgens in twee helften. Dan bereken je per deelnemers het gemiddelde voor elke helft; en dan bereken je de correlatie tussen die twee gemiddelden voor alle deelnemers. Als die twee helften nu parallelle testen zijn, dan is het kwadraat van die correlatie dus een schatting van de betrouwbaarheid van elke helft.

Een probleem van deze benadering is dat je een meetinstrument natuurlijk op heel veel manieren in twee helften kunt verdelen. Misschien is de correlatie tussen de twee helften die jij koos, in jouw steekproef door meetfout toevallig juist heel hoog of heel laag. Idealiter zou je alle split-half betrouwbaarheden berekenen en dan een gemiddelde nemen. Gelukkig kan dat ook: dit heet Coëfficiënt Alpha.

Een ander probleem van deze benadering is dat hij aanneemt dat er geen transient error is, wat bij psychologisch onderzoek zeer onrealistisch is. Die serieuze tekortkoming geldt helaas voor alle interne consistentiematen.

9.3.2 Coëfficiënt Alpha

In 1951 introduceerde Cronbach Coëfficiënt Alpha (1951). Zoals hij aangaf is dit eigenlijk “formule 20” uit een serie formules die door Kuder and Richardson zijn voorgesteld (1937), maar omdat Cronbach verwachtte dat deze coëfficiënt veel gebruikt zou gaan worden, en “Kuder-Richardson Formule 20” bepaald niet handzaam is, stelde hij Alpha voor. Omdat Cronbach heel bekend is en veel invloed heeft gehad, en wellicht omdat “Cronbach” en “Coëfficiënt” nogal op elkaar lijken, is Coëfficiënt Alpha langzaam bekend geworden als Cronbach’s Alpha. Echter, Cronbach zelf was hier niet enthousiast over: “It is an embarrassment to me that the formula became conventionally known as “Cronbach’s \(\alpha\).”” (Cronbach & Shavelson, 2004, p. 8). Uit respect voor Cronbach hanteren wij daarom de naam die hij voorstelde: Coëfficiënt Alpha.

Coëfficiënt Alpha is een populaire maat geworden om twee redenen. Ten eerste was hij eenvoudig uit te rekenen, zelfs voordat computers gangbaar waren. De formule is als volgt:

\[{\alpha} = {\frac{k}{k-1}} \left(1 - {\frac{\sum_{i=1}^k \sigma^2_{i}}{\sigma^2_X}} \right)\]

In deze formule staat \(k\) voor het aantal items in het meetinstrument; \(\sigma^2\) staat voor de variantie van een gegeven item; de \(i\) die in subscript bij die \(\sigma^2\) staat betekent in combinatie met de \(\sum_{i=1}^k\) die ervoor staat dat de variantie van alle items bij elkaar opgeteld moeten worden; en tot slot staat \(\sigma^2_X\) voor de variatie van de som van alle items (i.e. het hele meetinstrument). De variantie van elk item en van de som van alle items zijn makkelijk uit te rekenen met de hand (zie Onderzoekspracticum inleiding data-analyse), en vervolgens hoeven die maar te worden ingevuld in de formule en voila: Coëfficiënt Alpha.

Die formule kent en gebruikt tegenwoordig nog bijna niemand: Coëfficiënt Alpha wordt meestal berekend door computers, niet door mensen. Daarmee komen we op de tweede reden dat Coëfficiënt Alpha zo populair is geworden, een reden die de oorzaak is van een hele batterij aan statistische problemen: hij is beschikbaar in SPSS. SPSS is een programma voor statistische analyses dat lange tijd de standaard software was binnen vakgebieden zoals psychologie, onderwijswetenschappen, en managementwetenschappen (de naam stond voor “Statistical Package for the Social Sciences”). Jammer genoeg gaat SPSS al decennia niet mee met de tijd, en betere schatters voor de interne consistentie zoals Coëfficiënt H en Omega kunnen er niet mee worden berekend (net als veel andere belangrijke statistische eenheden overigens). Daarom winnen tegenwoordig programma’s zoals jamovi en R snel grond. Tegelijkertijd is SPSS erg lang heel populair geweest, zozeer zelfs dat wetenschappers het vaak hielden bij analyses die in SPSS beschikbaar waren, en dat geldt dus ook voor Coëfficiënt Alpha.

Coëfficiënt Alpha is het gemiddelde van alle mogelijke split-half betrouwbaarheden, en lost daarmee een groot kritiekpunt bij de split-half betrouwbaarheid op (de transient error ontbreekt wel nog in deze schatting).

Coëfficiënt Alpha is ook de uitkomst van de toepassing van de Spearman Brown formule (zie de sectie “Betrouwbaarheid van een item” hieronder) op de gemiddelde correlatie tussen alle items.

Deze puzzelstukjes lijken allemaal mooi op elkaar aan te sluiten. Echter, naast het ontbreken van die transient error is een tweede probleem van Coëfficiënt Alpha het meetmodel dat het vereist. Coëfficiënt Alpha vereist een zogenaamd tau-equivalent meetmodel. Dit betekent dat alle items in het meetinstrument even sterk laden in een één-factor factor-analyse. Een andere manier om dit te bekijken is dat de covarianties tussen alle items hetzelfde moeten zijn. Omdat de covarianties, in tegenstelling tot de correlaties, niet gestandaardiseerd zijn, betekent dat dat tau-equivalentie in de praktijk vaak ook gelijke varianties vereist. Dit is een voorwaarde waar bijna nooit aan wordt voldaan.

Gelukkig zijn er nog meer schatters voor de interne consistentie.

9.3.3 Coëfficiënt H

Coëfficiënt H gaat juist uit van verschillende factorladingen en gebruikt die informatie om een betere schatting van de betrouwbaarheid van de schaal te geven. Net als Coëfficiënt Alpha is Coëfficiënt H relatief makkelijk uit te rekenen (Mcneish, 2017):

\[H = \sqrt{ 1 + \sqrt { \sum_{i=1}^k \frac{l^2_i}{1-l^2_i} } }\] In deze formule worden alleen de factorladingen, \(l^2_i\), gebruikt. Als je eenmaal een één-factor factor-analyse hebt uitgevoerd, is dit dus ook relatief makkelijk met de hand te berekenen.

9.3.4 Greatest Lower Bound

De Greatest Lower Bound (vaak de glb genoemd) is, zoals de naam al zegt, de grootste van een set betrouwbaarheids-schatters. Deze is niet makkelijk met de hand uit te rekenen, maar is wel beschikbaar in software.

9.3.5 Omega

Er zijn drie varianten van Omega: McDonald’s Omega, Revelle’s Omega, en de Hiërarchische Omega. Deze zijn ook niet eenvoudig met de hand uit te rekenen, want ze worden berekend uit een zogenaamd Structural Equation Model. Ze worden daarom altijd met software berekend (zie voor details Mcneish, 2017).

McDonald’s Omega (ook wel Omega Total genoemd) kun je beschouwen als een aanpassing van Coëfficiënt Alpha zodat de strenge aanname van tau-equivalentie niet langer nodig is.

Revelle’s Omega is een alternatieve manier om Omega te berekenen die een zogenaamd “bifactor model” gebruikt achter de schermen, zodat er niet alleen de algemene gedeelde factor is die de basis vormt van een één-factor model, maar ook twee of meer “kleinere factoren”. Elk item laadt dan op zowel de algemene factor, een of meer van die kleinere factoren, en op een eigen factor, die voor de error staat. Zowel de factorladingen op de algemene factor als op de “kleine factoren” worden dan gebruikt om de betrouwbaarheid te schatten. De betrouwbaarheidsschattingen zijn daarom vaak iets hoger.

De Hiërarchische Omega gebruikt datzelfde bifactor model, maar kijkt alleen naar de ladingen op de ene onderliggende factor.

9.4 Welke maat moet je gebruiken?

Welke betrouwbaarheidsmaat je moet gebruiken hangt af van je behoeften, mogelijkheden, en meetmodel. Vaak kun je niet uitsluiten dat er transient error is, en is test-hertest betrouwbaarheid daarom de beste inschattng van de betrouwbaarheid van een meetinstrument. Tegelijkertijd is het vaststellen van de test-hertest betrouwbaarheid niet altijd mogelijk. Bovendien wil je sowieso minstens een van de interne consistentiematen uitrekenen, omdat onderzoekers die het meetinstrument toepassen een referentiekader moeten hebben om te bepalen of het meetinstrument bruikbaar is in hun context en populatie. Daarvoor zal vaak maar één steekproef gebruikt kunnen worden, dus voor hen is een interne consistentiemaat heel handig als vergelijkingsmateriaal.

Welke interne consistentiemaat je moet gebruiken hangt af van je meetmodel. Als essentiele tau-equivalentie opgaat, kun je Coëfficiënt Alpha gebruiken. Als die niet opgaat, en de items in de geaggregeerde scores van een meetinstrument worden gewogen op basis van hun samenhang met het onderliggende latente construct (wat je eigenlijk altijd moet doen, zie McNeish & Wolf, 2019), ligt Coëfficiënt H voor de hand. Als je bechikking hebt over software die dat aankan, kun je bovendien Omega Total of Revelle’s Omega uitrekenen. Een overzicht van de voor- en nadelen van de verschillende interne consistentiematen staat in McNeish (2017).

9.5 Wanneer is betrouwbaarheid goed genoeg?

Er zijn geen richtlijnen te geven voor wanneer de betrouwbaarheid voor een meetinstrument goed genoeg is. Dit hangt heel sterk af van zaken als de toepassing, de breedte van het construct dat wordt gemeten, en hoe lang het duurt om het meetinstrument toe te passen. Als de toepassing bijvoorbeeld cruciaal is, is een hoge betrouwbaarheid heel belangrijk; als een construct erg breed is, kan het nodig zijn een lagere betrouwbaarheid te accepteren omdat er anders meer items nodig zouden zijn dan werkbaar is; en als een meetinstrument in twee minuten kan worden toegepast, zal een lagere betrouwbaarheid acceptabel zijn dan als iemand twee uur bezig is.

9.5.1 Tijdens de ontwikkeling van een meetinstrument

Verder geldt tijdens de ontwikkeling van een meetinstrument simpelweg dat het belangrijk is om de betrouwbaarheid zo hoog mogelijk te krijgen. Gegeven de hoeveelheid moeite, energie, tijd, en geld die nodig zijn om een meetinstrument te ontwikkelen, is het zelden acceptabel om een matige betrouwbaarheid te accepteren als die nog te verhogen is. Bovendien is het zo dat, juist omdat de ontwikkeling van een degelijk meetinstrument een dure en tijdrovende aangelegenheid is, meetinstrumenten vaak herbruikt worden. Een onnodig lage betrouwbaarheid accepteren tijdens de ontwikkeling heeft dus verregaande gevolgen voor veel toekomstig onderzoek, want hoe hoger de meetfout, hoe slechter verbanden kunnen worden geschat. Hoe lager de betrouwbaarheid van een meetinstrument, hoe breder betrouwbaarheidsintervallen (zie hoofdstuk Betrouwbaarheidsintervallen) en hoe lager de power in studies die dat meetinstrument gebruiken.

Tijdens de ontwikkeling van een meetinstrument is het doel dus altijd om de betrouwbaarheid zo hoog mogelijk te krijgen, terwijl de belasting voor de deelnemers zo laag mogelijk wordt gehouden. Zoals uit bovenstaande uitleg over betrouwbaarheid bleek (en waar in onderstaande sectie “Betrouwbaarheid van een item” een formule voor wordt gegeven) wordt de betrouwbaarheid hoger naarmate er meer items aan een meetinstrument worden toegevoegd doordat “de meetfout uitmiddelt”. Bovendien kunnen Cognitieve Interviews en Respons Proces Evaluatie worden gebruikt om de ambiguïteit van de stimuli in een meetinstrument te verlagen (zie hoofdstukken Cognitieve Interviews en Respons Proces Evaluatie). Tegelijkertijd kan de ontwikkeling van een meetinstrument niet oneindig doorgaan, dus hier moet een goed onderbouwde balans in worden gevonden. Het is daarom belangrijk om de gemaakte keuzes en onderbouwingen goed te documenteren en transparant te rapporteren (zie hoofdstukken Wetenschap is Subjectief en Wetenschappelijke Integriteit).

Het is belangrijk om bij het publiceren van een meetinstrument alle gevonden maten voor betrouwbaarheid en interne consistentie te rapporteren, met de bijbehorende betrouwbaarheidsintervallen. Andere onderzoekers hebben deze nodig als ze het meetinstrument willen gebruiken. Dit komt verder aan bod in de volgende sectie.

9.5.2 Bij het gebruik van een meetinstrument

Tijdens het onderzoeken of een meetinstrument bruikbaar gaat zijn in een studie (dus voor de bewuste context of populatie) is het vooral belangrijk dat het meetinstrument werkt zoals het moet werken. De betrouwbaarheid hoort daarbij: die moet dan vergelijkbaar zijn met de betrouwbaarheid die tijdens de ontwikkeling werd gevonden en gerapporteerd.

Onderzoekers die een meetinstrument willen gebruiken in een nieuwe doelpopulatie en/of -context moeten dus eerst verifieren of dat meetinstrument daar wel goed werkt. Toepassing van het zorgvuldigheidsprincipe uit de Gedragscode Wetenschappelijke Integriteit (zie hoofdstuk Wetenschappelijke Integriteit) betekent dat die verificatie niet altijd plaats kan vinden met de data die in een hoofdstudie worden verzameld. Als nog niet bekend is of een meetinstrument goed werkt in een gegeven doelpopulatie en/of -context, is het vaak nodig om eerst een aparte studie uit te voeren om dit vast te stellen. Het zou tenslotte niet zorgvuldig zijn om er pas achteraf achter te komen dat data niet goed bruikbaar zijn.

Deze verificatie wordt meestal uitgevoerd door voordat de echte studie wordt uitgevoerd het meetinstrument alvast toe te passen in een steekproef uit die doelpopulatie en -context. Dan worden er schattingen van de betrouwbaarheid en interne consistentie uit te rekenen, om te vergelijken met wat is gerapporteerd toen het meetinstrument werd gepubliceerd.

Daarbij is het belangrijk om te onthouden dat alles dat wordt geschat uit een steekproef deels onderhevig is aan toeval. Dit geldt voor gemiddelden en correlaties, maar ook voor schattingen voor de betrouwbaarheid en interne consistentie. De puntschattingen die software standaard leveren zullen dus van steekproef tot steekproef verschillen. Net als bij gemiddelden en correlaties geldt ook voor schattingen voor de betrouwbaarheid en interne consistentie dat zulke puntschattingen niet erg informatief zijn als je niet ook weet hoe accuraat die schattingen zijn.

Bij het vergelijken is het daarom belangrijk om ook betrouwbaarheidsintervallen te berekenen. Die geven een indruk van hoe accuraat de schattingen uit een steekproef zijn. Bij kleine steekproeven zullen de betrouwbaarheidsintervallen bijvoorbeeld erg breed zijn, wat duidelijk aangeeft dat de betrouwbaarheid eigenlijk van alles zou kunnen zijn.

9.5.3 Wat als een meetinstrument niet bruikbaar is?

Zoals aangegeven werken meetinstrumenten niet altijd. Elk meetinstrument heeft een doel en een context, en die bepalen de kaders waarbinnen het meetinstrument valide en betrouwbaar ingezet kan worden. Een personenweegschaal kan niet gebruikt kan worden om het gewicht van zeecontainers te wegen; en huis-, tuin-, en keukenthermometers kunnen niet gebruikt worden om de temperatuur op de zuidpool of in een hoogoven te meten.

Dit geldt ook voor meetinstrumenten in de sociale wetenschappen zoals de psychologie. Een meetinstrument om impulscontrole te meten in de algemene populatie werkt niet zomaar hetzelfde in specifieke populaties zoals kleuters, mensen met alzheimer, of mensen die kampen met verslavingsproblematiek. De hoeveelheid meetfout kan bijvoorbeeld zomaar groter zijn bij kleuters.

Bovendien gebruiken psychologische meetinstrumenten vaak taal, en taal is dynamisch: woorden worden anders gebruikt in verschillende regio’s, in verschillende subculturen, en over tijd. Omdat taal bovendien vaak gebruik maakt van cultuurspecifieke uitdrukkingen en impliciete kennis is vertaling van meetinstrumenten een uitdagende exercitie, en is er geen garantie dat het resulterende meetinstrument op dezelfde manier werkt. Sommige woorden krijgen er betekenissen bij over tijd, wat tot ambiguïteit kan leiden - en dat vertaalt zich dan weer in grotere meetfout.

Neem bijvoorbeeld een fictief meetinstrument dat in 1998 is ontwikkeld in de Verenigde Staten, vooral op basis van onderzoek bij eerste- en tweedejaars universiteitsstudenten, en dat in 2001 is vertaald naar Nederland. Je kunt er in 2021 niet langer zomaar vanuit gaan dat dat meetinstrument even betrouwbaar (en valide) gaat zijn in een steekproef in Nederland, helemaal niet als die steekproef niet ook bestaat uit eerste- en tweedejaars studenten.

Er is daarom altijd een kans dat een meetinstrument niet voldoende betrouwbaar is in jouw populatie en context. Dit manifesteert zich dan in lage betrouwbaarheid van het meetinstrument in je steekproef of steekproeven.

In principe moet je je ervan verzekeren dat een meetinstrument bruikbaar is in jouw populatie en context voordat je een meetinstrument gaat gebruiken. Dat kan op twee manieren. Dat kan op basis van empirische evidentie hebt uit eerder onderzoek (dat is uitgevoerd in jouw populatie en context), op basis waarvan je vertrouwen hebt dat het meetinstrument voldoende betrouwbaar inzetbaar is voor jouw studie. Het kan ook door voordat je de studie zelf uitvoert, de betrouwbaarheids van het meetinstrument te onderzoeken. Op deze manier kun je voorkomen dat je een onvoldoende betrouwbaar meetinstrument gebruikt.

Soms kom je er echter te laat achter dat je meetinstrument niet voldoende betrouwbaar is. Dat betekent dat de meetfout dus groter is dan je had verwacht. Dat betekent weer dat je meer errorvariantie hebt, waardoor je meer datapunten nodig hebt dan je had verwacht: bijvoorbeeld meer metingen per deelnemer of meer deelnemers. Soms is dat niet mogelijk, en moet je dus constateren dat je steekproefomvang te laag is.

In dat geval is je onderzoek dus deels een beetje mislukt. Dat is geen ramp: tegen de tijd dat een studie is afgerond heb je meestal sowieso allerlei dingen bedacht die je beter had kunnen doen. Het is vooral zaak om hier goed mee om te gaan (en vanuit de principes van wetenschappelijke integriteit: zorgvuldig, onafhankelijk, verantwoordelijk, eerlijk, en transparant).

Als een meetinstrument minder betrouwbaar is dan waar je op rekende toen je je studie voorbereidde, communiceer daar dan duidelijk over als je over het onderzoek rapporteert. Neem bovendien de implicaties serieus. Als je besloot om nulhypothese-significantietoetsing toe te passen in je studie, dan betekent dit dat je te weinig power hebt. Dat betekent dat je ofwel alpha moet verhogen (bijvoorbeeld van \(.05\) naar \(.10\), of van \(.001\) naar \(.008\)), ofwel de hogere kans op een Type I-fout moet rapporteren. Als je een Accuracy In Parameter Estimation (AIPE) benadering gebruikt, en dus geen \(p\)-waarden berekent maar schat hoe sterk bepaalde verbanden zijn met betrouwbaarheidsintervallen, zijn je betrouwbaarheidsintervallen te breed. Je kunt dan de betrouwbaarheid bijstellen, bijvoorbeeld van \(95\%\) naar \(90\%\), zodat je alsnog de ‘nauwheid’ bereikt die je nodig had en hebt gebruikt in de berekening van de vereiste steekproefomvang.

Dit kan wat teleurstellend zijn, maar dit hoort bij onderzoek: dat is nu eenmaal complex, en je kunt niet altijd alles voorzien. Bij wetenschappelijk onderzoek is het altijd het belangrijkst dat je goed over zaken nadenkt en consequent de principes van wetenschappelijke integriteit hanteert. Als je dus zorgvuldig, onafhankelijk, verantwoordelijk, eerlijk, en transparant handelt, is het niet erg als je conclusies wat zwakker zijn. Het is dus zaak om de verleiding, om even sterke conclusies te trekken als je van plan was toen je de studie ontwierp, te weerstaan.

9.6 Betrouwbaarheid van een item

Als alle items in een meetinstrument even betrouwbaar zijn, kan de betrouwbaarheid van het meetinstrument worden omgerekend naar de betrouwbaarheid van een item. Dit kan door de zogenaamde Spearman-Brown formule (Brown, 1910; Spearman, 1910) om te draaien.

De Spearman-Brown formule is oorspronkelijk geformuleerd om de betrouwbaarheid van een meetinstrument te kunnen schatten op basis van de betrouwbaarheid van een onderdeel van dat meetinstrument:

\[\rho_\text{schaal} = \frac{k \rho_\text{item}}{1 + ((k - 1) \rho_\text{item})}\] Deze formule kan dus ook worden omgedraaid, zodat de betrouwbaarheid van een item kan worden berekend uit als de betrouwbaarheid van de meetinstrument bekend is:

\[\rho_\text{item} = \frac{\rho_\text{schaal}}{k - ((k - 1) \rho_\text{schaal})}\]

Tot slot kan hiermee worden berekend hoeveel items nodig zijn om een gegeven betrouwbaarheid voor het meetinstrument te bereiken:

\[k = \frac{\rho_\text{gewenst} (1 - \rho_\text{item})}{\rho_\text{item} (1 - \rho_\text{gewenst})}\]

Referenties

Brown, W. (1910). Some experimental results in the correlation of mental abilities. British Journal of Psychology, 1904-1920, 3(3), 296–322. https://doi.org/10.1111/j.2044-8295.1910.tb00207.x
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334.
Cronbach, L. J., & Shavelson, R. J. (2004). My Current Thoughts on Coefficient Alpha and Successor Procedures. Educational and Psychological Measurement, 64(3), 391–418. https://doi.org/10.1177/0013164404266386
Crutzen, R. (2014). Time is a jailer: What do alpha and its alternatives tell us about reliability? The European Health Psychologist, 1(2), 70–74.
Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151–160. https://doi.org/10.1007/BF02288391
Mcneish, D. (2017). Thanks Coefficient Alpha, We’ll Take it From Here. Psychological Methods.
McNeish, D., & Wolf, M. G. (2019). Thinking Twice About Sum Scores. https://doi.org/10.31234/osf.io/3wy47
Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 1904-1920, 3(3), 271–295. https://doi.org/10.1111/j.2044-8295.1910.tb00206.x
Yorkin, M., Spaccarotella, K., Martin-Biggers, J., Quick, V., & Byrd-Bredbenner, C. (2013). Accuracy and consistency of weights provided by home bathroom scales. BMC Public Health, 13(1). https://doi.org/10.1186/1471-2458-13-1194

  1. Overigens zijn thuipersonenweegschalen vaak sowieso niet erg accuraat: een studie uit 2013 vond dat thuisweegschalen gemiddeld genomen ongeveer een halve tot een hele kilo afweken (Yorkin et al., 2013).↩︎