Hoofdstuk 8 Betrouwbaarheid

Auteur: Gjalt-Jorn Peters en Natascha de Hoog; Laatste update: 2023-08-17

In dit hoofdstuk wordt besproken:
  • meetfout en betrouwbaarheid
  • test-hertestbetrouwbaarheid
  • interne consistentie.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum cross-sectioneel onderzoek (PB0812)

8.1 Meetfout en betrouwbaarheid

De wereld zit vol ruis. Onze zintuigen zijn geëvolueerd om die ruis zoveel mogelijk eruit te filteren, zodat we makkelijk kunnen waarnemen wat echt belangrijk is. Meetinstrumenten bevatten geen standaard ruisfilter. Wanneer we een meetinstrument gebruiken, hebben we last van die ruis. Die ruis manifesteert zich als meetfout en die meetfout verlaagt de betrouwbaarheid van een meetinstrument. Het complement van meetfout is de betrouwbaarheid.

Een perfect betrouwbaar meetinstrument geeft altijd precies, op oneindig veel decimalen, de juiste waarde aan. Maar een perfect meetinstrument bestaat niet: er is altijd iets dat een meting kan verstoren. Elke meting bestaat dus ook altijd voor een deel uit meetfout. Een meetinstrument kan soms wel de indruk wekken perfect betrouwbaar te zijn, zoals bijvoorbeeld een personenweegschaal, maar dat komt omdat de gemeten waarden worden afgerond. Overigens wijkt de gemiddelde thuisweegschaal een halve tot een hele kilo af volgens een studie uit 2013 (Yorkin et al., 2013).

Een perfect onbetrouwbaar meetinstrument bestaat wel: een zuivere dobbelsteen is bijvoorbeeld een perfect onbetrouwbaar meetinstrument. Wat je er ook mee wilt meten, de meting die de dobbelsteen ‘aangeeft’, zal altijd volkomen willekeurig zijn.

En dat is precies de definitie van meetfout: het deel van een meetscore dat puur door toeval komt. In de klassieke testtheorie wordt gesteld dat elke geobserveerde score (\(X\)) op een meetinstrument (of dat nu een weegschaal is of een IQ-test) bestaat uit twee delen: de ware score (\(T\)) die je wilt meten, plus error (\(E\)), oftewel meetfout:

\[X = T + E\]

Meestal wordt aangenomen dat de error gemiddeld \(0\) (nul) is en normaal verdeeld is (zie hoofdstuk Verdelingsvormen en -maten). De error is soms positief en soms negatief en dus symmetrisch verdeeld rondom een gemiddelde van nul. Hieruit volgt dat naarmate je meer metingen middelt, de error – of meetfout – rondom dat gemiddelde steeds kleiner wordt. Als je oneindig veel metingen met elkaar combineert, vallen alle meetfouten tegen elkaar weg.

Het probleem is dat je nooit de ware scores kent. Je hebt alleen de geobserveerde scores. Daarom is het belangrijk om de betrouwbaarheid van een meetinstrument te kennen. Als een meetinstrument erg onbetrouwbaar is, zullen de gevonden meetresultaten voor een groot deel uit ruis bestaan. In zo’n geval wil je de betrouwbaarheid van het meetinstrument verhogen.

In de klassieke testtheorie wordt betrouwbaarheid gedefinieerd als de proportie van de variantie (\(\sigma^2\)) in de geobserveerde testscores (\(X\)) die door de ware scores (\(T\)) worden veroorzaakt:

\[\begin{equation} \rho^2_{XT} = \frac{\sigma^2_T}{\sigma^2_X} \tag{8.1} \end{equation}\]

Omdat de variantie in de geobserveerde scores (\(\sigma^2_X\)) gelijk is aan de optelsom van de varianties van de ware scores (\(\sigma^2_T\)) en de error (\(\sigma^2_E\)), kun je de formule voor betrouwbaarheid ook zo schrijven:

\[\begin{equation} \rho^2_{XT} = \frac{\sigma^2_T}{\sigma^2_T+\sigma^2_E} \tag{8.2} \end{equation}\]

De betrouwbaarheid is het kwadraat van de correlatie tussen de ware scores en de geobserveerde scores. Oftewel, de wortel van de betrouwbaarheid is de correlatie tussen de ware scores en de geobserveerde scores. Die correlatie wordt \(\rho_{XT}\) genoemd:

\[\begin{equation} \rho_{XT} = \sqrt{\rho^2_{XT}} \tag{8.3} \end{equation}\]

Stel nu dat je twee meetinstrumenten hebt die hetzelfde meten en evenveel meetfout hebben, zogenaamde ‘parallelle testen’. De correlatie tussen de geobserveerde scores van deze twee parallelle meetinstrumenten kun je dan zien als de correlatie tussen de ware scores en de geobserveerde scores van elk van deze twee meetinstrumenten. Dit gegeven, dat betrouwbaarheid kan worden gezien als het kwadraat van de correlatie tussen twee parallelle meetinstrumenten, wordt vaak gebruikt als basis om betrouwbaarheid te schatten.

8.2 Test-hertestbetrouwbaarheid

Vaak wordt met betrouwbaarheid bedoeld dat als je iets twee keer meet, je beide keren dezelfde uitkomst vindt. Als je bijvoorbeeld op een thermometer kijkt en het is \(26\) graden Celsius, en je kijkt een minuut later weer en dan is het \(18\) graden Celsius, dan is dat reden om te twijfelen aan de betrouwbaarheid van die thermometer. Of je gaat ’s ochtends twee keer achter elkaar op een weegschaal staan. De tweede keer ben je een kilo lichter of zwaarder dan de eerste keer. Dan is het misschien tijd voor een nieuwe weegschaal.

Dit twee keer meten is de meest intuïtieve manier om betrouwbaarheid te schatten. Deze vorm van betrouwbaarheid heet de test-hertestbetrouwbaarheid. In feite fungeren de twee metingen met hetzelfde meetinstrument als twee parallelle meetinstrumenten. Meestal is het redelijk om aan te nemen dat je voldoet aan de eisen voor parallelle testen (dezelfde ware score voor een gegeven individu (\(T\)) en evenveel meetfout (\(E\))). Dit is een groot voordeel van de test-hertestbetrouwbaarheid. Toch is het niet zo eenvoudig als het lijkt. De test-hertestbetrouwbaarheid staat voor een aantal specifieke uitdagingen die hieronder besproken worden.

De psychologie van een individu verandert voortdurend. Sommige dingen veranderen heel snel (humeur kan van minuut tot minuut veranderen) en sommige dingen veranderen heel langzaam (intelligentie en persoonlijkheid veranderen op een schaal van jaren), maar alles verandert de hele tijd. Je moet daarom niet te lang wachten met een hertest. Een hertest is alleen een parallelle meting van de eerste afname als de ware scores nog steeds hetzelfde zijn. Hoe langer je wacht, hoe meer de ware scores veranderd kunnen zijn en hoe meer de test-hertestbetrouwbaarheid dus een onderschatting zal zijn van de echte betrouwbaarheid.

Een ander probleem is dat mensen een geheugen hebben. Stel je vult een vragenlijst met tien vragen in, en vijf minuten later nog een keer. Waarschijnlijk weet je nog wat je de eerste keer had ingevuld. De twee metingen van het meetinstrument zijn dan niet onafhankelijk van elkaar. Hier geldt dus dat de tijd tussen twee metingen ook niet te kort op elkaar mag zijn.

Nog een probleem van een korte tijdsperiode is dat een zogenaamde transient error onderdeel uitmaakt van de meetfout op beide metingen. Een transient error is een meetfout die veroorzaakt wordt door tijdsafhankelijke factoren. Neem bijvoorbeeld humeur als bron van meetfout. Humeur kan interpretatie en attributie beïnvloeden, waardoor ruis ontstaat in de meting. Omdat personen soms in een goede bui zijn en soms in een slechte bui, middelt die ruis uit als het meetinstrument vaker wordt afgenomen, mits er voldoende tijd tussen de afnames zit. Als de periode tussen de metingen te kort is, heeft de persoon nog steeds hetzelfde humeur en heeft de meetfout dus twee keer dezelfde richting en wordt daardoor juist versterkt. Als we de meetfout dus goed willen schatten, inclusief die transient error, dan moet er voldoende tijd tussen de metingen met het meetinstrument zitten.

Als je de test-hertestbetrouwbaarheid wilt bepalen, is het dus belangrijk om goed na te denken over de termijn tussen beide metingen. Dat is niet altijd eenvoudig, want soms is er te weinig bekend over het responsmodel van een meetinstrument, waardoor er geen duidelijke verwachtingen zijn over hoe snel de betreffende onderdelen van de psychologie veranderen over de tijd.

De test-hertestbetrouwbaarheid is de enige manier om een goede schatting van de betrouwbaarheid van een meetinstrument te krijgen. Maar omdat betrouwbaarheid gaat over het herhaaldelijk toepassen van een meetinstrument, moet je bij het schatten van de meetfout (\(E\)) wel de effecten van tijdsafhankelijke invloeden meenemen, anders overschat je de betrouwbaarheid. Het overschatten van de betrouwbaarheid van een meetinstrument is een probleem. Wanneer je vervolgens met het instrument verbanden met andere psychologische constructen wilt bepalen, kun je deze verbanden niet goed schatten.

Twee maten voor de test-hertestbetrouwbaarheid zijn de test-hertest alpha en de coefficient of equivalence and stability. Deze worden beiden besproken in Crutzen (2014).

Omdat je voor de test-hertestbetrouwbaarheid deelnemers twee keer moet meten, moet je rekening houden met de mogelijkheid dat deelnemers uitvallen. Dit is een nadeel van de test-hertestbetrouwbaarheid. Inschatten hoeveel deelnemers zullen uitvallen is vaak niet makkelijk. Daarnaast moet je op basis van die schatting bij de eerste meting meer deelnemers meten dan je eigenlijk nodig hebt, zodat je bij de tweede meting nog genoeg deelnemers overhoudt. Een bijkomend probleem is dat de uitval van deelnemers niet willekeurig is: misschien vallen vooral de minder gemotiveerde deelnemers uit, of de deelnemers met de drukste levens. In dat geval is je schatting van de betrouwbaarheid niet gebaseerd op een representatieve steekproef en is deze schatting dus (enigszins) vertekend. Om deze redenen is de interne consistentie-benadering van betrouwbaarheid erg populair.

8.3 Interne consistentie

Interne consistentie is de mate waarin de verschillende items van een meetinstrument hetzelfde meten. Onder een aantal aannames kan dit worden gebruikt als een schatting voor de betrouwbaarheid van dat meetinstrument. Daarom wordt de term interne consistentie ook wel gebruikt om te verwijzen naar alle schatters voor betrouwbaarheid die gebaseerd zijn op een enkele afname van een meetinstrument. Een probleem van de interne consistentie-benadering is dat deze aanneemt dat er geen transient error is, wat bij psychologisch onderzoek zeer onrealistisch is. Zie voor een uitgebreide bespreking van deze betrouwbaarheidsschatters McNeish (2017).

8.3.1 Split-half-betrouwbaarheid

De meest eenvoudige maat voor interne consistentie is de split-half-betrouwbaarheid. Deze was tot de jaren vijftig van de twintigste eeuw de meest gebruikte vorm. De redenering is als volgt.

Je neemt een meetinstrument af bij deelnemers van een steekproef. Je verdeelt de items van dat meetinstrument in twee helften. Die twee helften beschouw je als parallelle testen. Per deelnemer bereken je de gemiddelde score voor elke helft en vervolgens bereken je de correlatie tussen die twee helften. Het kwadraat van die correlatie is dan een schatting van de betrouwbaarheid van elke helft.

Een probleem van deze benadering is dat je een meetinstrument natuurlijk op heel veel manieren in twee helften kunt verdelen. Misschien is de correlatie tussen de twee helften die jij koos, in jouw steekproef door meetfout toevallig juist heel hoog of heel laag. Ideaal gezien zou je alle split-half-betrouwbaarheden berekenen en dan een gemiddelde nemen. Gelukkig kan dat ook: dit heet de coëfficiënt alpha.

8.3.2 Coëfficiënt alpha

In 1951 introduceerde Cronbach de coëfficiënt alpha (1951), ook wel bekend als Cronbach’s alpha. Coëfficiënt alpha is dus het gemiddelde van alle mogelijke split-half-betrouwbaarheden en lost daarmee een groot kritiekpunt bij de split-half-betrouwbaarheid op. De coëfficiënt alpha is een populaire maat geworden om twee redenen. Ten eerste is deze maat eenvoudig uit te rekenen, zelfs voordat computers gangbaar waren. De formule is als volgt:

\[\begin{equation} {\alpha} = {\frac{k}{k-1}} \left(1 - {\frac{\sum_{i=1}^k \sigma^2_{i}}{\sigma^2_X}} \right) \tag{8.4} \end{equation}\]

In deze formule staat \(k\) voor het aantal items in het meetinstrument; \(\sigma^2\) staat voor de variantie van een gegeven item \(i\); \(\sum_{i=1}^k\) dat hiervoor staat betekent dat de variantie van alle items bij elkaar opgeteld moeten worden; tot slot staat \(\sigma^2_X\) voor de variantie van het meetinstrument (dus van de som van alle items). De varianties van elk item en van de som van alle items zijn gemakkelijk met de hand uit te rekenen (zie Onderzoekspracticum inleiding onderzoek). Vervolgens vul je deze in de formule in en je hebt de coëfficiënt alpha.

Deze formule kent en gebruikt tegenwoordig bijna niemand meer. De coëfficiënt alpha wordt meestal berekend door computers. Daarmee komen we op de tweede reden waarom de coëfficiënt alpha zo populair is: de coëfficiënt alpha is beschikbaar in SPSS. SPSS staat voor Statistical Package for the Social Sciences en is een softwareprogramma voor statistische analyses dat lange tijd de standaard software was binnen vakgebieden zoals de psychologie, onderwijswetenschappen en managementwetenschappen. SPSS gaat al heel lang niet mee met de tijd, en betere schatters voor de interne consistentie zoals coëfficiënt H en omega kunnen er niet mee berekend worden. Daarom winnen tegenwoordig programma’s zoals jamovi en R snel terrein.

Een probleem van de coëfficiënt alpha (naast het ontbreken van de transient error) is dat het een zogenaamd tau-equivalent meetmodel vereist. Dit betekent dat alle items in het meetinstrument even sterk op een factor moeten laden in een één-factor factoranalyse. Anders gezegd betekent dit dat de covarianties tussen alle items hetzelfde moeten zijn. Omdat de covarianties, in tegenstelling tot de correlaties, niet gestandaardiseerd zijn, betekent dit in de praktijk vaak dat tau-equivalentie ook gelijke varianties vereist. Aan deze voorwaarde kan bijna nooit worden voldaan.

Gelukkig zijn er nog meer schatters voor de interne consistentie.

8.3.3 Coëfficiënt H

Coëfficiënt H gaat juist uit van verschillende factorladingen en gebruikt die informatie om een betere schatting van de betrouwbaarheid van de schaal te geven. Net als coëfficiënt alpha is coëfficiënt H relatief gemakkelijk uit te rekenen (Mcneish, 2017):

\[\begin{equation} H = \sqrt{ 1 + \sqrt { \sum_{i=1}^k \frac{l^2_i}{1-l^2_i} } } \tag{8.5} \end{equation}\]

Voor deze formule heb je alleen de factorladingen (\(l^2_i\)) nodig. Als je eenmaal een één-factor factoranalyse hebt uitgevoerd, is de coëfficiënt H dus relatief makkelijk met de hand te berekenen.

8.3.4 Greatest lower bound

De greatest lower bound, vaak glb genoemd, is niet makkelijk met de hand uit te rekenen, maar is wel beschikbaar in software.

8.3.5 Omega

Er bestaan drie varianten van omega: McDonald’s omega, Revelle’s omega en de hiërarchische omega. Ook deze zijn niet eenvoudig met de hand uit te rekenen omdat ze uit een zogenaamd structural equation model worden berekend. Omega wordt daarom altijd met software berekend (zie voor details Mcneish, 2017).

McDonald’s omega (ook wel omega total genoemd) kun je beschouwen als een aanpassing van de coëfficiënt alpha zodat de strenge aanname van tau-equivalentie niet langer nodig is.

Revelle’s omega is een alternatieve manier om omega te berekenen die achter de schermen een zogenaamd bifactor model gebruikt. Deze maat is niet alleen gebaseerd op de algemeen gedeelde factor van een één-factor model, maar ook op twee of meer kleinere factoren. Elk item laadt zowel op de algemene factor en een of meer van die kleinere factoren, maar ook op een eigen factor die voor de error staat. Zowel de factorladingen op de algemene factor als op de kleine factoren worden gebruikt om de betrouwbaarheid te schatten. De betrouwbaarheidsschattingen zijn daarom vaak iets hoger.

De hiërarchische omega gebruikt datzelfde bifactor model, maar neemt in de berekening van de betrouwbaarheid vervolgens alleen de ladingen van die ene onderliggende factor mee.

8.4 Welke maat moet je gebruiken?

Welke betrouwbaarheidsmaat je het beste kunt gebruiken hangt af van je behoeften, mogelijkheden en meetmodel. Vaak kun je niet uitsluiten dat er transient error is en is de test-hertestbetrouwbaarheid daarom de beste inschatting van de betrouwbaarheid van een meetinstrument. Tegelijkertijd is het vaststellen van de test-hertestbetrouwbaarheid niet altijd mogelijk. Bovendien wil je sowieso minstens een van de interne consistentiematen uitrekenen als referentiekader voor onderzoekers die het meetinstrument gaan gebruiken. Omdat zij daarvoor vaak maar één steekproef gebruiken, kunnen ze daarin dezelfde betrouwbaarheidsmaat berekenen om te bepalen of het meetinstrument bruikbaar is in hun context en populatie.

Welke interne consistentiemaat je het beste kunt gebruiken, hangt af van je meetmodel. Als tau-equivalentie opgaat, kun je coëfficiënt alpha gebruiken. Als dit niet opgaat, ligt coëfficiënt H voor de hand, mits in de geaggregeerde score van een meetinstrument de items worden gewogen op basis van hun samenhang met het onderliggende latente construct (eigenlijk moet je dit altijd doen, zie McNeish & Wolf (2019)]). Als je beschikking hebt over software die dat aankan, kun je bovendien omega total of Revelle’s omega uitrekenen. Een overzicht van de voor- en nadelen van de verschillende interne consistentiematen staat in McNeish (2017).

8.5 Wanneer is betrouwbaarheid goed genoeg?

Er zijn geen richtlijnen te geven voor wanneer de betrouwbaarheid van een meetinstrument goed genoeg is. Dit hangt heel sterk af van zaken als de toepassing, de breedte van het construct dat wordt gemeten, en hoe lang het duurt om het meetinstrument toe te passen. Als op basis van de toepassing van het meetinstrument cruciale beslissingen worden genomen, is een hoge betrouwbaarheid heel belangrijk. Als een construct erg breed is, kan het nodig zijn om een lagere betrouwbaarheid te accepteren, omdat er anders meer items nodig zouden zijn dan werkbaar is. En als een meetinstrument in twee minuten kan worden afgenomen, zal een lagere betrouwbaarheid eerder acceptabel zijn dan wanneer de meting twee uur duurt.

8.5.1 Tijdens de ontwikkeling van een meetinstrument

Tijdens de ontwikkeling van een meetinstrument geldt simpelweg dat het belangrijk is om de betrouwbaarheid zo hoog mogelijk te krijgen. Gegeven de hoeveelheid moeite, energie, tijd en geld die het kost om een meetinstrument te ontwikkelen, is het zelden acceptabel om een matige betrouwbaarheid te accepteren als deze nog te verhogen is. En juist omdat de ontwikkeling van een meetinstrument een dure en tijdrovende aangelegenheid is, worden meetinstrumenten vaak hergebruikt. Een onnodig lage betrouwbaarheid accepteren tijdens de ontwikkeling heeft dus ook verregaande gevolgen voor toekomstig onderzoek. Hoe lager de betrouwbaarheid van een meetinstrument, hoe groter de meetfout, hoe breder de betrouwbaarheidsintervallen (zie het hoofdstuk Steekproevenverdelingen en betrouwbaarheidsintervallen) en hoe lager de power in studies die dat meetinstrument gebruiken.

Tijdens de ontwikkeling van een meetinstrument is het doel altijd om de betrouwbaarheid zo hoog mogelijk te krijgen, terwijl de belasting voor de deelnemers zo laag mogelijk wordt gehouden. De betrouwbaarheid wordt hoger door meer items aan een meetinstrument toe te voegen, omdat hierdoor de meetfout uitmiddelt. Door middel van cognitieve interviews en responsproces-evaluatie kan de ambiguïteit van de stimuli in een meetinstrument worden verlaagd, wat de betrouwbaarheid ten goede komt. Tegelijkertijd kan de ontwikkeling van een meetinstrument niet oneindig doorgaan. Hier moet dus een goed onderbouwde balans in worden gevonden. Het is belangrijk om de gemaakte keuzes en onderbouwingen goed te documenteren en transparant te rapporteren (zie hoofdstuk Wetenschappelijke Integriteit).

Het is belangrijk om bij het publiceren over de ontwikkeling van een meetinstrument alle berekende maten voor betrouwbaarheid en interne consistentie te rapporteren, met de bijbehorende betrouwbaarheidsintervallen. Andere onderzoekers hebben deze nodig als ze het meetinstrument willen gebruiken. Dit komt aan bod in de volgende sectie.

8.5.2 Bij het gebruik van een meetinstrument

Onderzoekers die een meetinstrument willen gebruiken in een andere doelpopulatie en/of context moeten eerst verifiëren of dat meetinstrument daar wel goed bruikbaar is. De betrouwbaarheid hoort daarbij: die moet vergelijkbaar zijn met de betrouwbaarheid die tijdens de ontwikkeling werd gevonden en gerapporteerd. Toepassing van het zorgvuldigheidsprincipe uit de gedragscode wetenschappelijke integriteit (zie hoofdstuk Wetenschappelijke Integriteit) leidt ertoe dat die verificatie niet altijd plaats kan vinden met de gegevens die in een hoofdstudie worden verzameld. Als nog niet bekend is of een meetinstrument goed bruikbaar is in een gegeven doelpopulatie en/of context, is het vaak nodig om eerst een aparte studie uit te voeren in een steekproef uit die doelpopulatie en context om dit vast te stellen. Het zou tenslotte niet zorgvuldig zijn om er pas achteraf achter te komen dat gegevens niet goed bruikbaar zijn.

Daarbij is het belangrijk om te onthouden dat alles dat uit een steekproef wordt geschat deels onderhevig is aan toeval. Dit geldt voor gemiddelden en correlaties, maar ook voor schattingen van de betrouwbaarheid en interne consistentie. De puntschattingen die software standaard leveren, zullen dus van steekproef tot steekproef verschillen. Zulke puntschattingen zijn niet erg informatief als je niet ook weet hoe accuraat die schattingen zijn. Daarom is het belangrijk om betrouwbaarheidsintervallen te berekenen. Bij kleine steekproeven zullen de betrouwbaarheidsintervallen erg breed zijn, wat duidelijk aangeeft dat de betrouwbaarheid eigenlijk van alles zou kunnen zijn.

8.5.3 Wat als een meetinstrument niet bruikbaar is?

Een meetinstrument is niet altijd binnen elke populatie en context bruikbaar. Elk meetinstrument heeft een doel en een context en die bepalen de kaders waarbinnen het meetinstrument valide en betrouwbaar ingezet kan worden. Een personenweegschaal kan niet gebruikt worden om het gewicht van zeecontainers te wegen; en huis-, tuin- en keukenthermometers kunnen niet gebruikt worden om de temperatuur op de zuidpool of in een hoogoven te meten.

Dit geldt ook voor meetinstrumenten in de sociale wetenschappen zoals de psychologie. Een meetinstrument om impulscontrole te meten in de algemene populatie is niet zondermeer toepasbaar in specifieke populaties zoals kleuters, mensen met alzheimer of mensen die kampen met verslavingsproblematiek. De hoeveelheid meetfout kan bijvoorbeeld groter zijn bij kleuters.

Bovendien gebruiken psychologische meetinstrumenten vaak taal en taal is dynamisch: woorden worden anders gebruikt in verschillende regio’s, in verschillende subculturen en over de tijd. Sommige woorden krijgen er betekenissen bij over de tijd, wat tot ambiguïteit kan leiden - en dat vertaalt zich weer in grotere meetfout. Omdat taal bovendien vaak gebruikmaakt van cultuurspecifieke uitdrukkingen en impliciete kennis, is de vertaling van meetinstrumenten een uitdagende exercitie en is er geen garantie dat het resulterende meetinstrument op dezelfde manier werkt.

Neem als voorbeeld een fictief meetinstrument dat in 1998 is ontwikkeld in de Verenigde Staten op basis van onderzoek bij eerste- en tweedejaars universiteitsstudenten en dat in 2001 naar het Nederlands is vertaald. In 2022 kun je er niet langer zomaar vanuit gaan dat dit meetinstrument (nog steeds) even betrouwbaar (en valide) is binnen een Nederlandse steekproef. Helemaal niet als die steekproef niet ook uit eerste- en tweedejaars studenten bestaat. Er is dus altijd een kans dat een meetinstrument niet voldoende betrouwbaar is in jouw populatie en context. Dit manifesteert zich dan in een lage betrouwbaarheid van het meetinstrument in jouw steekproef of steekproeven.

Voordat je een meetinstrument gaat gebruiken, moet je je er dus van verzekeren dat een meetinstrument bruikbaar is in jouw populatie en context. Dat kan op twee manieren. Op basis van empirische evidentie uit eerder onderzoek in een vergelijkbare populatie en context kun je het vertrouwen hebben dat het meetinstrument voldoende betrouwbaar inzetbaar is in jouw studie. Je kunt deze studie ook zelf uitvoeren en de betrouwbaarheid van het meetinstrument onderzoeken. Op deze manieren voorkom je dat je een onvoldoende betrouwbaar meetinstrument gebruikt.

Soms kom je er te laat achter dat je meetinstrument niet voldoende betrouwbaar is. De meetfout is dan groter dan je had verwacht. Je hebt dan meer errorvariantie waardoor je meer datapunten nodig hebt dan je van te voren had berekend, bijvoorbeeld meer metingen per deelnemer of meer deelnemers. Soms is dat niet mogelijk en moet je dus constateren dat je steekproefomvang te laag is. In dat geval is je onderzoek dus deels een beetje mislukt. Dat is geen ramp: tegen de tijd dat een studie is afgerond heb je meestal sowieso allerlei dingen bedacht die je beter anders had kunnen doen. Het is vooral belangrijk hoe je hiermee omgaat, vanuit de principes van wetenschappelijke integriteit: zorgvuldig, onafhankelijk, verantwoordelijk, eerlijk en transparant.

Als een meetinstrument minder betrouwbaar is dan waar je op rekende toen je de studie voorbereidde, communiceer daar dan duidelijk over als je over het onderzoek rapporteert. Neem bovendien de implicaties serieus. Als je besloot om nulhypothese-significantietoetsing toe te passen in je studie (zie hoofdstuk Nulhypothese-significantietoetsing), dan is de implicatie van een lagere betrouwbaarheid dat je te weinig power hebt. Je moet dan ofwel je alpha verhogen (bijvoorbeeld van \(.05\) naar \(.10\), of van \(.001\) naar \(.008\)), ofwel de hogere kans op een type I-fout rapporteren. Als je een accuracy in parameter estimation (AIPE)-benadering gebruikt en dus geen \(p\)-waarden berekent, maar de sterkte van verbanden schat met betrouwbaarheidsintervallen, zijn je betrouwbaarheidsintervallen te breed. Je kunt dan de betrouwbaarheid bijstellen, bijvoorbeeld van \(95\%\) naar \(90\%\), zodat je alsnog de ‘nauwheid’ bereikt die je nodig had en hebt gebruikt in de berekening van de vereiste steekproefomvang.

Dit kan wat teleurstellend zijn, maar dit hoort bij onderzoek: dat is nu eenmaal complex en je kunt niet altijd alles voorzien. Het belangrijkste bij wetenschappelijk onderzoek is altijd dat je goed over zaken nadenkt en consequent de principes van wetenschappelijke integriteit hanteert. Als je zorgvuldig, onafhankelijk, verantwoordelijk, eerlijk en transparant handelt, is het niet erg als je conclusies uiteindelijk wat zwakker zijn. Het is dus zaak om de verleiding te weerstaan om even sterke conclusies te trekken als je graag gewild had toen je de studie ontwierp.

8.6 Betrouwbaarheid van een item

Als alle items in een meetinstrument even betrouwbaar zijn, kan de betrouwbaarheid van het meetinstrument worden omgerekend naar de betrouwbaarheid van een item. Dit kan door de zogenaamde Spearman-Brown-formule (W. Brown, 1910; Spearman, 1910) om te draaien.

De Spearman-Brown-formule is oorspronkelijk geformuleerd om de betrouwbaarheid van een meetinstrument te kunnen schatten op basis van de betrouwbaarheid van een onderdeel van dat meetinstrument:

\[\begin{equation} \rho_\text{schaal} = \frac{k \rho_\text{item}}{1 + ((k - 1) \rho_\text{item})} \tag{8.6} \end{equation}\]

Deze formule kan dus ook worden omgedraaid, zodat de betrouwbaarheid van een item kan worden berekend uit de betrouwbaarheid van het meetinstrument:

\[\begin{equation} \rho_\text{item} = \frac{\rho_\text{schaal}}{k - ((k - 1) \rho_\text{schaal})} \tag{8.7} \end{equation}\]

Bovendien kan met deze formule berekend worden hoeveel items met een bepaalde betrouwbaarheid nodig zijn om een gegeven betrouwbaarheid voor het meetinstrument te bereiken:

\[\begin{equation} k = \frac{\rho_\text{gewenst} (1 - \rho_\text{item})}{\rho_\text{item} (1 - \rho_\text{gewenst})} \tag{8.8} \end{equation}\]

Referenties

Brown, W. (1910). Some experimental results in the correlation of mental abilities. British Journal of Psychology, 1904-1920, 3(3), 296–322. https://doi.org/10.1111/j.2044-8295.1910.tb00207.x
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334.
Crutzen, R. (2014). Time is a jailer: What do alpha and its alternatives tell us about reliability? The European Health Psychologist, 1(2), 70–74.
Mcneish, D. (2017). Thanks Coefficient Alpha, We’ll Take it From Here. Psychological Methods.
McNeish, D., & Wolf, M. G. (2019). Thinking Twice About Sum Scores. https://doi.org/10.31234/osf.io/3wy47
Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 1904-1920, 3(3), 271–295. https://doi.org/10.1111/j.2044-8295.1910.tb00206.x
Yorkin, M., Spaccarotella, K., Martin-Biggers, J., Quick, V., & Byrd-Bredbenner, C. (2013). Accuracy and consistency of weights provided by home bathroom scales. BMC Public Health, 13(1). https://doi.org/10.1186/1471-2458-13-1194