Hoofdstuk 16 Validiteit schatten en verhogen

In dit hoofdstuk wordt besproken:
  • interne validiteit
  • externe validiteit
  • items ontwikkelen of selecteren
  • responsmodellen.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum cross-sectioneel onderzoek (PB0812)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Constructen

16.1 Inleiding

Dit hoofdstuk betreft vooral de ontwikkeling van studieontwerpen en meetinstrumenten. Dit is een onderdeel van het doen van onderzoek dat moet worden afgerond voordat een studieontwerp of meetinstrument kan worden ingezet. Anders is de kans groot dat na dataverzameling blijkt dat een meetinstrument bijvoorbeeld niet meet wat het moet meten.

Ook na dit ontwikkelproces blijft het belangrijk om je ervan te blijven verzekeren dat het gebruikte instrumentarium (de meetinstrumenten en eventuele manipulaties) en het studieontwerp valide zijn voor de gekozen doelpopulatie, context en tijd. Voor een deel betekent dit dat de analyses die werden uitgevoerd tijdens het ontwikkelproces steeds opnieuw herhaald worden. De resultaten worden dan vergeleken met de uitkomsten van het validatie-onderzoek tijdens de ontwikkeling.

16.2 Validiteit van Meetinstrumenten

Zoals besproken in de hoofdstukken Constructen en Validiteit van Meetinstrumenten moet je om validiteit te kunnen vaststellen eerst duidelijkheid hebben van de definitie van het construct, de operationalisatie die wordt gebruikt, en het model van hoe de responsen op het meetinstrument tot stand komen en welke rol het doelconstruct daarin speelt.

16.2.1 Operationalisatie

Voordat je start met de ontwikkeling van een meetinstrument kies je een specifieke operationalisatie: datgene dat je meetinstrument gaat meten en dat informatief is voor het doelconstruct (waarover je uiteindelijk iets wil weten maar dat je niet direct kunt meten). Een definitie van een doelconstruct kan bijvoorbeeld zijn: ‘Attitude is de algehele evaluatie van een bepaald gedrag’, en een operationalisatie hiervan voor het gedrag ‘een ijsje eten’ kan zijn: ‘de mate waarin iemand een ijsje eten als positief versus negatief evalueert’. Een andere operationalisatie kan zijn ‘de mate waarin iemand een ijsje eten als prettig versus onprettig evalueert’, en weer een andere operationalisatie ‘de mate waarin iemand ijsjes eten als verstandig versus onverstandig evalueert’.

Hoe vrij je bent in de keuze voor een operationalisatie ligt aan de definitie van het construct. Een andere (en nauwere) definitie van attitude kan zijn: ‘attitude is de evaluatie van hoe verstandig of onverstandig een gedrag is’. Die definitie beschrijft een construct dat niet geoperationaliseerd kan worden door te meten of iemand het eten van een ijsje prettig vindt.

In dit eenvoudige voorbeeld is ook de operationalisatie relatief eenvoudig. Die zou met één enkel item te meten zijn. Maar breder gedefinieerde constructen vereisen vaak ook bredere operationalisaties. Zowel de specificatie van de definitie als van de operationalisatie van een construct kan dan zomaar meerdere alinea’s in beslag nemen. Neem bijvoorbeeld meetinstrumenten voor depressie: deze gebruiken vaak een operationalisatie van depressie in termen van symptomen. Een analyse van de symptomen die worden gemeten door zeven populaire meetinstrumenten voor depressie beschrijft maar liefst \(52\) symptomen (zie deze blog post voor meer informatie en een goede illustratie van het gebrek aan overlap in symptomen tussen deze meetinstrumenten).

16.2.2 Items

Als de operationalisatie duidelijk is kunnen de items worden geproduceerd: de procedure, responsregistratie en eventueel stimuli. Dit kan op basis van theorie over het construct dat je wil meten in combinatie met resultaten van kwalitatief onderzoek. In het bovenstaande voorbeeld kan theorie over attitudes en over hoe mensen tot evaluaties van gedragingen komen worden gecombineerd met resultaten uit kwalitatief onderzoek waarin mensen wordt gevraagd wat ze vinden van ijsjes eten.

Als een vragenlijst wordt ontwikkeld ligt een deel van de procedure al vast, en is ook al duidelijk dat de responsregistratie zal plaatsvinden via het inkleuren van hokjes op papier, het aanklikken van opties op een computerscherm, of het aantikken van opties op een smartphonescherm. In dat geval zal de nadruk vooral liggen op de ontwikkeling of selectie van stimuli (oftwel: de vragen en de antwoordopties).

Sommige theorieën over constructen, zoals de reasoned action approach (Fishbein & Ajzen, 2010), bieden uitgebreide kaders en richtlijnen voor het ontwikkelen van operationalisaties. In andere gevallen ontbreekt die informatie. In dat geval is het vaak eerst nodig om diep in de literatuur te duiken en grondig kwalitatief onderzoek te doen voordat er stimuli geselecteerd of ontwikkeld kunnen worden.

16.2.3 Richtlijnen bij het formuleren van vragen en antwoordopties

Een vragenlijst is lang niet altijd het soort meetinstrument dat zich het beste leent om een gegeven doelconstruct te meten. Maar vragenlijsten hebben wel een aantal voordelen. Omdat de stimuli verbaal zijn, en data uit kwalitatief onderzoek dat vaak ook is, is er goede aansluiting op het kwalitatieve onderzoek waarop de stimuli vaak worden gebaseerd. Bovendien kunnen vragenlijsten eenvoudig worden gecombineerd met andere vragenlijsten, en kunnen ze vaak zonder tussenkomst van een onderzoeker worden ingevuld (bijvoorbeeld via een smartphone). Daarom geven we in deze sectie een aantal richtlijnen voor het formuleren van items voor een vragenlijst.

16.2.3.1 Let op het taalniveau

Probeer het taalniveau zodanig te houden dat de vraag (en antwoordopties) voor iedereen te begrijpen zijn. Dit is erg belangrijk want ongeveer 2,5 miljoen mensen in Nederland zijn laaggeletterd. Hiervoor gelden dezelfde principes als voor algemeen taalgebruik, zoals voorzichting zijn met gebruik van verwijswoorden, geen dubbele ontkenningen gebruiken, en eenvoudige zinnen formuleren. Zie voor meer informatie bijvoorbeeld de site van Pharos.

Vermijd ambiguïteit in de vraag en de antwoordopties

Ambiguïteit ontstaat vaak als onderzoekers proberen om dezelfde antwoordopties voor alle items te gebruiken.

Een veelgebruikte fout bij meetinstrumenten is bijvoorbeeld een oneens-eens-antwoordschaal te gebruiken voor alle items. Hier kleven allerlei problemen aan. Het eerste probleem is dat het vaak een gekunstelde formulering van de de vragen vereist.

Het tweede probleem is dat als je het ergens mee oneens bent, dat twee dingen kan betekenen. Het is mogelijk dat je het omgekeerde van de stelling vindt; maar het is ook mogelijk dat je het niet met de stelling eens bent, maar er neutraal tegenover staat. Voor een deel van de deelnemers zal het eerste gelden, en voor hen bestrijken de antwoordopties dus een bidimensionele schaal, van negatief, via neutraal, naar positief. Voor een ander deel van de deelnemers zal het tweede gelden, en voor hen bestrijken de antwoordopties dus een unidimensionele schaal, van neutraal naar positief.

Voor degenen die de antwoordopties als bidimensionele schaal interpreteren, is vervolgens niet duidelijk want die negatieve dimensie dan betekent. Als voorbeeld nemen we enkele items uit de Nederlandse vertaling van de HEXACO-PI-R, die worden beantwoord op een vijfpuntsschaal: ‘Helemaal mee oneens’, ‘Mee oneens’, ‘Neutraal (noch mee eens, noch mee oneens)’, ‘Mee eens’, en ‘Helemaal mee eens’. Dit is een handig voorbeeld omdat door de formulering van de middelste optie deze schaal probeert te zorgen dat deelnemers de schaal als bidimensioneel interpreteren.

Laten we deze drie items bekijken: ‘Ik zou me vervelen bij een bezoek aan een kunstgalerie’, ‘Ik maak me soms zorgen over onbenulligheden’, en ‘Ik zou graag in een zeer rijke, sjieke buurt wonen’. Als iemand op deze vragen ‘Mee oneens’ of ‘Helemaal mee oneens’ antwoordt, zijn mogelijke onderliggende redeneringen:

  • ‘Nee, want ik ga nooit naar een kunstgalerie.’
  • ‘Nee, want ik zou gewoon in het cafe gaan zitten.’
  • ‘Nee, want ik houd van kunst.’

Bij de tweede vraag zijn twee mogelijke onderliggende redeneringen omgekeerd aan elkaar:

  • ‘Nee, want ik maak me altijd zorgen om onbenulligheden.’
  • ‘Nee, want ik maak me nooit zorgen om onbenulligheden.’

Bij de derde vraag zijn mogelijke onderliggende redeneringen:

  • ‘Nee, want daar woon ik al.’
  • ‘Nee, want dat kan ik niet betalen.’
  • ‘Nee, want ik houd niet van rijke mensen.’

Hetgene dat wordt gemeten is bij elk van deze redeneringen anders en hangt dus sterk af van waarom de deelnemer het niet met de stelling eens is. Dit is mogelijk omdat ofwel het responsmodel niet goed is uitgewerkt, ofwel omdat de opstellers van het meetinstrument steeds dezelfde oneens/eensschaal wilden gebruiken waardoor het responsmodel voor deze vraag niet goed meer van toepassing was.

De oplossing hier zou zijn in de vraag directer het responsmodel te volgen. Dus als je denkt dat een bepaalde persoonlijkheid samenhangt met attitude ten opzichte van het bezoeken van kunstgalleries, kun je de deelnemers zo rechtstreeks mogelijk naar hun attitude vragen. De eerste vraag kan bijvoorbeeld worden aangepast naar ‘Ik vind het bezoeken van een kunstgalerie…’ waarbij responsen worden geregistreerd op een schaal van ‘Saai’ tot ‘Boeiend’. De tweede vraag kan worden aangepast naar ‘Hoe vaak maakt u zich zorgen om onbenulligheden?’ met een antwoordschaal van “Nooit” tot “Altijd”. Bij de derde vraag is niet helemaal duidelijk welk onderliggend responsmodel wordt gehanteerd, maar deze zou bijvoorbeeld kunnen worden aangepast naar ‘Hecht u er waarde aan om in een zeer rijke, sjieke buurt te wonen?’ met een antwoordschaal van ‘Dit vind ik onbelangrijk’ tot ‘Dit vind ik heel belangrijk’.

Spiegel geen items

Vermijd het spiegelen van items. Dit houdt in dat je vragen niet allemaal dezelfde kant op verwoord, maar er een aantal spiegelt, dus omdraait. Dit werd vroeger wel veel gedaan met het idee dat het de deelnemer bij de les zou houden, maar dit blijkt vaak bias (systematische verstoring in de resultaten) te produceren (Sonderen et al., 2013). Bovendien zijn symptomen van het onaandachtig beantwoorden van vragen juist heel waardevol, zodat je deelnemers die niet serieus meedoen met je onderzoek kunt detecteren (zie bijvoorbeeld Meade & Craig, 2012 of ufs::carelessReport).

16.2.4 Het responsmodel

Als alle items zijn gemaakt kan het responsmodel worden uitgewerkt (als dat niet al beschikbaar is). Dat responsmodel beschrijft hoe het doelconstruct de door het meetinstrument geregistreerde responsen veroorzaakt. Die responsmodellen zijn vaak gebaseerd op fundamenteel onderzoek: onderzoek naar de basis van de psychologie, zoals het geheugen, aandachtsprocessen, attributies, inschattingen en evaluaties. Hoe meer volwassen de theorie in een domein is, hoe beter dit zal zijn uitgewerkt.

Als er nog maar weinig onderzoek beschikbaar is, kan deze stap (het opstellen van het responsmodel) veel werk zijn, en soms meerdere studies vereisen. Tegelijkertijd is dit een heel belangrijke stap: hoe kun je er immers op vertrouwen dat je meetinstrument valide is, als je niet weet hoe het werkt? Het is dus belangrijk de tijd te nemen om een goed model te ontwikkelen voor wat er precies gebeurt als mensen blootgesteld worden aan je meetinstrument, en hoe het doelconstruct een rol speelt bij het produceren van de respons die het meetinstrument registreert.

Idealiter worden bij de ontwikkeling van een meetinstrument de causale ketens van het betreffende construct naar de responsen die het meetinstrument registreert getest. Dit kan door experimenteel onderzoek, waarbij steeds een onderdeel van die causale keten wordt gemanipuleerd. Dit is niet altijd mogelijk, waardoor je soms wordt gedwongen om met minder sterk geverifieerde responsmodellen te werken, bijvoorbeeld op basis van observationeel onderzoek.

16.2.5 Verwachte verdeling per item

Als het responsmodel is gespecificeerd (en idealiter, onderzocht) kan daarmee worden ingeschat hoe de responsen op elk item verdeeld zouden moeten zijn (zie hoofdstuk Verdelingsvormen en -maten. We nemen als voorbeeld een vraag uit een vragenlijst. Een generieke vorm hiervan is hieronder geïllustreerd:

Vraag Linker anker 🔾 🔾 🔾 🔾 🔾 Rechter anker

Laten we nu besluiten om deze vijf onderdelen van de responsregistratie numeriek te representeren als \(1\), \(2\), \(3\), \(4\), en \(5\), en laten we er vanuitgaan dat we op basis van ons onderzoek naar het onderliggende responsmodel aannemen dat dit item een onderliggende continue dimensie meet. Enkele voorbeelden van mogelijke verwachtingspatronen zijn dan als volgt.

  • Stel dat we op basis van onze theorie en ons onderzoek naar het responsmodel verwachten dat elke antwoordoptie door \(20\%\) van de mensen wordt gekozen. Dat is de uniforme verdeling.
  • Stel dat we op basis van onze theorie en ons onderzoek naar het responsmodel verwachten dat de meeste mensen, zeg ongeveer de helft, \(3\) kiezen; dat een kleiner deel van de deelnemers \(2\) of \(4\) kiest, zeg beide ongeveer \(20\%\); en dat maar weinig mensen \(1\) of \(5\) kiezen, zeg beide ongeveer \(5\%\). Dat is ongeveer volgens de normaalverdeling.
  • Stel dat we op basis van onze theorie en ons onderzoek naar het responsmodel blijkt dat de meeste mensen \(1\) kiezen, zeg \(60\%\); dat ongeveer \(20\%\) voor \(2\) kiest, ongeveer \(10\%\) voor \(1\), en ongeveer \(5\%\) voor \(4\) en \(5\). Dat is een rechtsscheve verdeling.

Deze verwachtingen kunnen verschillen per populatie of context, afhankelijk van het doelconstruct, de gekozen operationalisatie van dat construct, en de specifieke procedure, responsregistraties en stimuli die worden gebruikt om die operationalisatie te meten. Bij een meetinstrument voor negatief affect, bijvoorbeeld, zijn de items wellicht zo ontwikkeld dat je uniforme verdelingen, normaalverdelingen, of andere symmetrische responsverdelingen krijgt in de gewone populatie. Als dat meetinstrument dan in een populatie wordt gebruikt van mensen die zijn gediagnosticeerd met depressie verwacht je linksscheve verdelingen (aangenomen dat de antwoordopties die consistent zijn met meer negatief affect aan de rechterkant van de responsschaal staan).

Bij de verificatie van de validiteit van een meetinstrument in een gegeven studie worden de gevonden verdelingen voor elk item vergeleken met de verdelingen die op basis van de theorie en het onderzoek naar het responsmodel worden verwacht in de gegeven populatie en context. Als er afwijkingen zijn dan is dat een indicatie dat het responsmodel niet klopt voor die specifieke context of populatie. Omdat het responsmodel de causale keten van het doelconstruct naar de responsen op het item beschrijft kan er dus niet meer op worden vertrouwd dat de responsen op het item worden veroorzaakt door het doelconstruct.

16.2.6 Verwachte verbanden tussen items

Net zoals er verwachtingen zijn over de responspatronen per item, zijn er ook verwachtingen over de manier waarop die samenhangen met de responspatronen op andere items. Twee items die ongeveer hetzelfde meten zouden sterkere samenhang moeten vertonen dan twee items die andere aspecten van een construct meten. Om de persoonlijkheidstrek ‘openheid’ te meten werd bijvoorbeeld een serie items gepostuleerd waaronder uncreative-creative, unimaginative-imaginative, uninquisitive-curious en imperceptive-perceptiv (Goldberg, 1992).

Afhankelijk van het responsmodel van het meetinstrument zou de verwachting kunnen zijn dat de eerste twee items over creativiteit en voorstellingsvermogen relatief sterk met elkaar samenhangen, en dat de laatste twee items over nieuwsgierigheid en opmerkzaamheid ook relatief sterk met elkaar samenhangen.

Tijdens het onderzoek om een meetinstrument te ontwikkelen, en in het bijzonder het responsmodel op te stellen, kristalliseren zulke verwachtingen uit. Als dat proces is afgerond bestaat er dus een set aan verwachtingen over hoe sterk de verbanden tussen de verschillende items zouden moeten zijn. Onze verwachtingen over hoe items samenhangen, zijn gebaseerd op/komen tot uitdrukking in het gehanteerde meetmodel.

In dit kader zijn er drie bijzondere meetmodellen. Een heel eenvoudig meetmodel is het paralelle meetmodel waarbij wordt aangenomen dat alle items zogenaamde parallelle metingen zijn. Voor een gegeven persoon hebben alle items hetzelfde gemiddelde; alle items hebben dezelfde variantie en alle items hangen even sterk met elkaar samen. Als een meetinstrument is gebaseerd op dat meetmodel betekent dat dat alle items dus precies hetzelfde meten, en allemaal even sterk met elkaar moeten correleren.

Vanwege deze zeer strikte aannames is het parallelle meetmodel bijna nooit realistisch, en er zijn twee meetmodellen met wat mildere aannames. Het eerste is het tau-equivalente meetmodel. Dit meetmodel vereist niet langer dat alle items dezelfde gemiddelde respons opleveren, als ze maar dezelfde onderliggende (latente) variabele meten. Wel moeten de items dezelfde variantie hebben en moeten de items even sterk met elkaar samenhangen (elk item moet daarvoor niet alleen dezelfde variantie hebben, maar ook alle covarianties tussen de items moeten gelijk zijn; G.-J. Y. Peters (2014)).

Ook dit is in de praktijk vaak niet het geval: items hebben vaak niet alleen verschillende gemiddelden, maar ook verschillende varianties, en zoals eerder besproken is de verwachting vaak dat sommige items sterker met elkaar samenhangen dan met andere items. In dat geval kan het congenerieke meetmodel van toepassing zijn. Dit meetmodel vereist slechts unidimensionaliteit van de items: oftewel, dat alle items hetzelfde onderliggende construct meten.

Ook deze aanname is niet vanzelfsprekend: maar weinig psychologische constructen zijn dermate eng gedefinieerd dat er binnen die definitie geen sub-constructen te onderscheiden zijn. In onderzoek in de persoonslijkheidspsychologie wordt bijvoorbeeld binnen de verschillende persoonlijkheidstrekken (zoals openheid of extraversie) zogenaamde facetten onderscheiden (bijvoorbeeld ‘fantasie’ en ‘esthetiek’ voor openheid en ‘warmte’ en ‘assertiviteit’ voor extraversie). Dit zijn in wezen subconstructen, waarbij op basis van het responsmodel de verwachting meestal is dat twee items die hetzelfde subconstruct meten sterker met elkaar samenhangen dan items die twee verschillende subconstructen meten, ook al meten ze allemaal het onderliggende doelconstruct.

Meetinstrumenten zijn dus bijna nooit helemaal unidimensioneel. Ook het congenerieke meetmodel is dus vaak maar deels van toepassing.

Afhankelijk van het meetmodel dat wordt gehanteerd is het vaak mogelijk om zogenaamde interne consistentie te berekenen. Dit is een maat voor de mate waarin de items in een meetinstrument met elkaar samenhangen, en het wordt vaak in verband gebracht met de betrouwbaarheid van een meetinstrument. Interne consistentie wordt meer in detail besproken in hoofdstuk Betrouwbaarheid.

16.2.7 Verwachte verbanden met andere constructen

Net zoals er verwachtingen zijn over de verbanden tussen items, zijn er verwachtingen over de verbanden tussen items en andere constructen. Tijdens de ontwikkeling van een meetinstrument worden daarom vaak ook meetinstrumenten van andere constructen toegepast, of soms reeds bestaande meetinstrumenten van hetzelfde construct.

Als bijvoorbeeld het responsmodel voor een item een bepaald construct niet betrekt, maar dat construct hangt toch sterk samen met dat item, dan kan dat een reden zijn om te concluderen dat het veronderstelde responsmodel van dat item niet klopt. Als er geen plausibele manier is om het responsemodel te herzien kan het nodig zijn het betreffende item niet op te nemen in het uiteindelijke meetinstrument.

Omgekeerd geldt dat als een item volgens het responsmodel juist wel samen zou moeten hangen met een bepaald construct, en dat niet het geval blijkt te zijn, dezelfde conclusie kan worden getrokken: het responsmodel lijkt incorrect. Weer geldt dat als dat responsmodel niet gereviseerd kan worden, het item wellicht moet worden verwijderd uit het uiteindelijke meetinstrument.

De verwijdering of toevoeging van items verandert wat er precies wordt gemeten. Het is dus belangrijk om altijd de definitie en de gekozen operationalisatie van het construct goed in het oog te houden. Het kan bijvoorbeeld zo zijn dat het erop lijkt dat het oorspronkelijke responsmodel voor een item niet klopt, maar dat het verwijderen van dat item zou betekenen dat het meetinstrument minder goed correspondeert met de definitie van het construct, omdat bijvoorbeeld een deel niet meer zou worden gemeten. In dat geval moet het item worden vervangen, of is meer onderzoek naar het responsmodel nodig.

Er wordt meestal niet alleen op itemniveau gekeken naar verbanden met andere constructen, maar ook op het niveau van het meetinstrument als geheel. Uiteindelijk zijn de items immers slechts middelen, en is het ontwikkelen van een valide meetinstrument het doel.

Als verbanden die er niet horen te zijn volgens verwachtingen op basis van het responsmodel, er ook inderdaad niet zijn, dan wordt dat divergente validiteit genoemd. Als verbanden die er wel horen te zijn, er wel zijn, dan wordt dat convergente validiteit genoemd. Wat het precies betekent als een verband wel of niet wordt gevonden, hangt af van de statistische benadering die wordt gekozen. Binnen de frequentistische traditie kunnen bijvoorbeeld betrouwbaarheidsintervallen voor correlatiecoëfficiënten worden berekend (zie hoofdstuk Correlaties).

16.2.8 Vergelijking tussen groepen

Soms is het wenselijk om hetzelfde construct te meten in verschillende groepen en de uitkomsten te vergelijken. Vaak wordt dan naar de geaggregeerde scores van een meetinstrument gekeken (bijvoorbeeld een gewogen gemiddelde). Dit vereist echter dat het meetinstrument op dezelfde manier werkte in beide (of alle) groepen.

Als dat zo is, wordt dat meetinvariantie genoemd. Als er geen meetinvariantie is, is de betekenis van de scores op de meetinstrumenten niet hetzelfde voor beide (of alle) groepen. Mensen in de ene groep interpreteren de stimuli of de responsschalen dan bijvoorbeeld anders, en de meetinstrumenten meten dus andere constructen. Een verschil in de gemiddelden tussen de twee groepen reflecteert dan simpelweg dat de meetinstrumenten iets anders hebben gemeten, maar niet dat het oorspronkelijke doelconstruct verschilt tussen beiden groepen: dat doelconstruct is immers niet voor beide groepen gemeten.

Zie voor meer informatie over meetinvariantie bijvoorbeeld Van de Schoot et al. (2015).

16.3 Validiteit van manipulaties

Manipulaties bestaan alleen uit procedures en stimuli en kennen dus niet zoals meetinstrumenten een responsregistratie. Manipulaties lopen uiteen van bijvoorbeeld het tonen van beelden of audiofragmenten, groepsdiscussies tot therapiesessies.

Als de validiteit van de meetinstrumenten aannemelijk is, kunnen deze worden gebruikt om de validiteit van de manipulatie(s) te verifieren. Net als bij meetinstrumenten betreft de validiteit bij manipulaties de mate waarin de manipulatie correspondeert met het doelconstruct, en uitsluitend het doelconstruct. In andere woorden: een valide manipulatie beïnvloedt successvol het doelconstruct, en beïnvloedt bovendien uitsluitend het doelconstruct, dus geen andere constructen. Als wel andere constructen worden beïnvloed, weet je nooit of een verandering in het doelconstruct de oorzaak is van veranderingen in andere constructen, of dat die andere constructen veranderen als een direct gevolg van de manipulatie. En dat is in experimenten vaak nu net de onderzoeksvraag.

De validiteit van manipulaties kan worden geverifieerd door twee dingen te bepalen. Ten eerste, is de effectgrootte voor het verband tussen de manipulatie en de scores op een meetinstrument dat datzelfde construct meet voldoende groot? En ten tweede, is de effectgrootte voor het verband tussen de manipulatie en de scores op meetinstrumenten die andere constructen meten voldoende klein? Ook hiervoor geldt dat a priori opgestelde grenswaarden worden gebruikt, bijvoorbeeld hoe sterk je verwacht dat het verband is. De vraag is immers niet of de manipulatie werkt in de algehele populatie – als het goed is, is van alle operationalisaties die je gebruikt, dus ook alle manipulaties, voorafgaand aan de studie vastgesteld dat ze in principe effectief zijn. Als dat niet zo is, is de operationalisatie van de manipulatie nog niet klaar voor gebruik in onderzoek; de operationalisatie moet dan eerst zelf nog worden onderzocht om vast te stellen dat deze een betrouwbare en valide manipulatie is van het doelconstruct.

16.4 Validiteit van het studieontwerp

16.4.1 Steekproef

Als een studie wordt ontworpen, wordt bepaald welke populatie onderzocht gaat worden, en op basis hiervan wordt de wervingsprocedure ontwikkeld. Deze wervingsprocedure heeft tot doel een steekproef te werven die representatief is voor die populatie. Dit gebeurt meestal door willekeurige leden uit die populatie te selecteren voor de steekproef. Als de werving minder aselect was, of als de werving er niet in slaagde uit de doelpopulatie te werven, dan bedreigt dat de externe validiteit van een studie. De populatie waarover uitspraken worden gedaan is dan niet langer de doelpopulatie, maar een andere populatie. Daarom is het belangrijk om de wervingsprocedure goed in de gaten te houden en kan het handig zijn om een aantal kenmerken van de steekproef te vergelijken met die van de doelpopulatie om te verifieren of externe validiteit geborgd is.

Hiervoor geldt ook weer dat van tevoren duidelijk moet zijn naar welke variabelen wordt gekeken, en welke afwijkingen acceptabel zijn. En ook geldt weer dat het goed is om dit van te voren vast te leggen in een preregistratie, met onderbouwing van de gekozen criteria (zoals naar welke variabelen wordt gekeken, en welke effectgroottes worden beschouwd als indicatief voor een nonrepresentatieve steekproef) en de procedure (zoals wat te doen als er afwijkingen worden gevonden? Doe je niets, ga je data verwijderen, data wegen, of ga je op een andere manier om met de verlaagde representativiteit?).

16.4.2 Procedure

Vanuit het oogpunt van de deelnemers bestaat de deelname aan een studie uit een serie handelingen. Die handelingen betreffen de toepassing van de operationalisaties (van manipulaties en/of meetinstrumenten). Het is belangrijk dat die procedure voor alle deelnemers zoveel mogelijk gelijk is, en dat die procedure voor alle deelnemers accuraat en volgens planning wordt gevolgd. Als op een systematische (dus niet-willekeurige) manier van de procedure wordt afgeweken kan dit de validiteit van het studieontwerp in gevaar brengen. Als op een niet-systematische manier van de procedure wordt afgeweken, manifesteert dit zich in extra errorvariantie. De analyses die van tevoren zijn uitgevoerd om te bepalen hoeveel deelnemers nodig zijn, kloppen dan niet langer, en er worden te weinig deelnemers geworven. Daarom is het belangrijk om goed op te letten dat de procedure goed wordt gevolgd. Dit kan bijvoorbeeld door proefleiders notities te laten maken. Als data online worden verzameld, bijvoorbeeld met LimeSurvey, kan worden gekeken hoe lang deelnemers met elke pagina bezig zijn, om te controleren of daar geen grote verschillen in bestaan.

16.4.3 Randomisatie

Bij experimenteel onderzoek is een bijzonder deel van de procedure de randomisatie : het willekeurig toewijzen van deelnemers aan condities. Het is belangrijk dat dit volledig at random plaatsvindt. Hoe dit gebeurt wordt bepaald bij het plannen en opzetten van de studie: er kan bijvoorbeeld data van https://random.org worden gebruikt, of een random-nummer-generator in software. Als de randomisatie goed is verlopen, is het zeker dat de uitkomsten van de studie geen zogenaamde bias kunnen bevatten: geen systematische afwijkingen. Onder aanname dat de overige aspecten van het ontwerp en de operationalisaties (dus de meetinstrumenten en de manipulaties) valide zijn, is het dan mogelijk om statistische modellen te gebruiken om conclusies te trekken over het effect van de manipulatie(s). Of de randomisatie lukt hangt af van de gekozen procedure: er bestaan geen analyses die dit kunnen controleren. Als de procedure goed is gekozen, is adequate randomisatie gegarandeerd.

Als de randomisatie goed verloopt, en er dus geen systematische verschillen tussen de groepen deelnemers kunnen bestaan, betekent dat dat het studieontwerp geen ‘bias’ kan bevatten. Hoewel in enkele studies de groepen deelnemers toevallig van elkaar kunnen verschillen (bijvoorbeeld op de afhankelijke variabele), zullen die verschillen over alle dezelfde studies normaal verdeeld zijn.

A priori wordt vastgesteld als de studie wordt gepland hoe sterk de groepen maximaal mogen verschillen om nog als equivalent gezien te worden. Voor elke variabele waarvan het belangrijk is dat die equivalent is tussen groepen wordt die maximale effectgrootte bepaald. Tijdens de analyse worden deze effectgroottes in de steekproef vervolgens berekend en vergeleken met de vooraf bepaalde grenswaarden. Als een of meer van de variabelen te zeer verschilt tussen groepen, betekent dat dat de groepen in deze steekproef niet voldoende equivalent zijn. Dat betekent dat niet goed conclusies getrokken kunnen worden op basis van deze studie.

Er is geen vorm van statistische toetsing nodig, omdat deze vraag (zijn de groepen in deze steekproef gelijk?) niet de populatie betreft, maar de steekproef. De vraag is dus niet of geobserveerde patronen wellicht door kans worden veroorzaakt - het is namelijk al zeker dat eventuele patronen door kans komen. De vraag is of de geobserveerde patronen dermate verstorend zijn dat ze de validiteit van het ontwerp van de studie in gevaar brengen. Dat hangt af van de steekproefwaarden, en die kunnen rechtstreeks geobserveerd worden.

Overigens geldt altijd al dat geen definitieve conclusies getrokken kunnen worden op basis van een enkele studie: de rol van toeval is daarvoor te groot. Maar als, bijvoorbeeld, de afhankelijke variabele al voorafgaand aan de manipulatie verschilt tussen de groepen, dan kunnen de data uit die steekproef geen informatie meer leveren over de invloed van het gemanipuleerde construct op de afhankelijke variabele. Het is echter toch belangrijk om de resultaten van die studie te publiceren. Als deze resultaten niet worden gepubliceerd, geldt namelijk niet langer dat er geen bias optreedt over studies heen. Zelfs de geaggregeerde schattingen op basis van meerdere studies zijn dan niet langer zuivere schattingen, want de ruis (de errorvariantie) is dan niet langer normaal verdeeld.

Hoewel in dat geval publicatie van de resultaten dus niet minder belangrijk is, kunnen er in die publicatie niet goed conclusies worden getrokken over de manipulatie(s). Eventuele effecten die op de nameting worden waargenomen kunnen immers het gevolg zijn van de nonequivalentie bij het begin van de studie. Het is in zo’n situatie dus belangrijk om nog tentatiever te zijn in je bewoording dan normaal. Zoals aangegeven maakt die noodzakelijke tentativiteit de uitkomsten van de studie niet minder belangrijk. Omdat de garantie op afwezigheid van bias uitsluitend opgaat over meerdere studies, en als alle uitgevoerde studies worden meegenomen, zijn studies met nonequivalente groepen net zo cruciaal als studies waarbij randomisatie ‘wel is gelukt’.

16.5 Checklist: verificatie van validiteit

Bij het plannen van de verificatie van de validiteit van de studie (dus van de steekproef, het ontwerp en de operationalisaties) moet van tevoren worden vastgesteld welke afwijkingen acceptabel zijn. Of accurater: de procedure die wordt gevolgd om de validiteit te toetsen moet voorafgaand aan het onderzoek duidelijk zijn, en worden vastgelegd in een preregistratie om het risico te elimineren dat de keuzes met betrekking tot de te hanteren criteria worden gebaseerd op patronen in de data.

Deze checklist kan bij de planning van een onderzoek worden gevolgd om vast te leggen wat na de dataverzameling gedaan moet worden om de validiteit van de studie te bepalen.

  • Bepaal naar welke variabelen wordt gekeken om te bepalen of de werving heeft geresulteerd in een representatieve steekproef.
  • Bepaal welke waarden voor elk van de variabele, of voor combinaties van die variabelen, acceptabel zijn, en welke indicaties er kunnen zijn dat de wervingsprocedure niet heeft geresulteerd in een representatieve steekproef.
  • Bepaal welke procedure wordt gevolgd als de steekproef op een or meerdere variabelen niet representatief is voor de doelpopulatie.
  • Bepaal hoe wordt geregistreerd of de procedure voldoende nauwgezet wordt gevolgd.
  • Bepaal hoe wordt bepaald of er te veel variatie in de gevolgde procedure is, of er te veel is afgeweken van de ontworpen procedure bij (een deel van) de deelnemers.
  • Bepaal welke procedure wordt gevolgd als het aannemelijk is dat de procedure onvoldoende nauwgezet is gevolgd.
  • Als een of meer van de hypothesen of onderzoeksvragen in de studie causaliteit betreft, en er dus een experimentele opzet wordt gebruikt, bepaal dan op welke variabelen de twee (of drie, of vier, etc) groepen equivalent moeten zijn.
  • Als een experimentele opzet wordt gebruikt, bepaal dan hoe sterk de groepen mogen verschillen op de relevante variabelen voordat ze als nonequivalent worden beschouwd.
  • Als een experimentele opzet wordt gebruikt, bepaal dan welke procedure wordt gevolg als de validiteit van de manipulatie is aangetast omdat de groepen niet equivalent zijn op alle relevante variabelen.
  • Bepaal hoe de validiteit van elk meetinstrument in de gebruikte steekproef wordt geverifieerd.
  • Bepaal per meetinstrument wanneer wordt geconcludeerd dat dat meetinstrument niet valide is.
  • Bepaal welke procedure wordt gevolgd als een of meerdere meetinstrumenten in deze steekproef niet valide zijn.
  • Bepaal hoe de validiteit van elke manipulatie in de gebruikte steekproef wordt geverifieerd.
  • Bepaal per manipulatie wanneer wordt geconcludeerd dat die manipulatie niet valide is.
  • Bepaal welke procedure wordt gevolgd als een of meerdere manipulaties in deze steekproef niet valide zijn.

Houd er rekening mee dat bij de verificatie van validiteit geen nulhypothese-significantietoetsing (NHST) kan worden gebruikt. Er worden bij validiteitstoetsing immers geen uitspraken gedaan over de populatie, maar over de steekproef. Let daarom op dat de voorwaarden, als die in kwantitatieve termen worden vastgelegd, effectgroottes betreffen en geen \(p\)-waarden.

16.5.1 De validiteit van een meetinstrument

Zoals besproken vereist het onderzoeken van de validiteit van een meetinstrument dat je eerst de volgende zaken helder hebt.

  • Wat is precies de definitie van het construct?
    • Welke aspecten van de psychologie omvat het construct precies?
    • Welke aspecten van de psychologie omvat het construct niet?
  • Welke operationalisatie van het construct meet dit meetinstrument?
  • Wat zijn de responsmodellen bij de items?

Het responsmodel beschrijft de causale keten van hoe het doelconstruct de responsen veroorzaakt die door het meetinstrument geregistreerd worden. Op basis van dat responsmodel en van het onderzoek tijdens de ontwikkeling van het meetinstrument zijn er verwachtingen over de volgende zaken.

  • de verdeling van de responsen voor elk item
  • de verbanden tussen de items onderling
  • de verbanden tussen de items en de datareeksen van de meetinstrumenten voor andere constructen
  • de verbanden tussen de geaggregeerde scores (dat is, de score voor het gehele meetinstrument) en de datareeksen van de meetinstrumenten voor andere constructen

Als er geen responsmodellen beschikbaar zijn, bijvoorbeeld omdat het meetinstrument nog niet grondig is gevalideerd, zijn er dus ook geen verwachtingen. In dat geval zijn hopelijk de volgende zaken goed gedocumenteerd tijdens de eerste validatie van het meetinstrument.

  • de geobserveerde verdeling van de responsen voor elk item
  • de geobserveerde verbanden tussen de items onderling
  • de geobserveerde verbanden tussen de items en de datareeksen van de meetinstrumenten voor andere constructen
  • de geobserveerde verbanden tussen de geaggregeerde scores (dat is, de score voor het gehele meetinstrument) en de datareeksen van de meetinstrumenten voor andere constructen

Met de voorspellingen van het responsmodel of met de geobserveerde verdelingen en verbanden in de steekproeven, kunnen vervolgens de instructies worden gevolgd van de onderzoekers die het meetinstrument ontwikkelden of valideerden (zie de paragrafen Responspatronen, Verbanden tussen items en interne consistentie en Convergentie en divergentie in het hoofdstuk Validiteit van meetinstrumenten).

Als er geen instructies beschikbaar zijn, is het niet goed mogelijk om te bepalen of de manier waarop een meetinstrument werkt in een gegeven populatie en context voldoende overeenkomst met de manier waarop het meetinstrument zou moeten werken. In dat geval is de enige optie om te proberen zelf op basis van eerder onderzoek instructies te formuleren en die toe te passen. Hiervoor is de onderzoeker aangewezen op wat er is gerapporteerd door andere onderzoekers, zowel over het onderzoek waarmee het meetinstrument is ontwikkeld en gevalideerd, als over vervolgonderzoek in populaties en contexten die heel vergelijkbaar zijn met de oorspronkelijke populatie en context.

16.5.2 Wat te doen als validiteit is geschonden?

Er zijn geen echte oplossingen om schendingen van de validiteit van het studieontwerp te ‘repareren’. Wat wel nog overwogen kan worden, bespreken we hieronder puntsgewijs.

  • Als de wervingsprocedure niet resulteerde in een steekproef die representatief is voor de doelpopulatie, is dit een probleem omdat het duidt op selectiebias: de deelnemers uit de doelpopulatie die niet meedoen verschillen waarschijnlijk van de deelnemers die wel meedoen, op onbekende manieren. Omdat dit onbekende manieren zijn, is er maar één echte oplossing voor: de dataverzameling herhalen. Dat is niet altijd mogelijk, maar er zijn wel procedures die gevolgd kunnen worden die het probleem met een onbekende mate verminderen. Een zo’n procedure is om de deelnemers te wegen (meer of minder te laten meewegen op basis van hun score op bepaalde variabelen), zodat de steekproef, op de variabelen die zijn gemeten, na weging wel representatief is. Een andere procedure is om een steekproef uit de steekproef te nemen. Door willekeurig een aantal deelnemers te verwijderen die niet aan bepaalde criteria voldoen kan de steekproef worden aangepast om alsnog dezelfde samenstelling te hebben als de populatie. Hiervoor geldt echter ook dat niet bekend is in welke mate het probleem wordt opgelost. Een laatste procedure is de dataverzameling niet te herhalen, maar extra data te verzamelen, om zo de disbalans te proberen te herstellen.

  • Als de procedure onvoldoende nauwgezet is gevolgd voor een aantal deelnemers, kan overwogen worden die deelnemers te verwijderen uit de analyse. Dit is zinnig als de afwijkingen in de procedure niet samenhangen met deelnemerkenmerken. Als afwijkingen in de procedure bijvoorbeeld vaker optreden bij deelnemers die een bepaalde respons geven, dan treedt weer selectiebias op als die deelnemers worden verwijderd. Als de verstoringen helemaal niet samenhingen met deelnemerkenmerken, dan kunnen de deelnemers waarbij verstoringen optraden veilig uit de steekproef worden verwijderd.

  • Als in een experimentele opzet de randomisatie niet lukte, oftewel, als de groepen na randomisatie duidelijk verschilden, dan is daar geen oplossing voor. Het is wel mogelijk om variabelen waarop de groepen niet equivalent waren als covariaat op te nemen in de analyses, maar die beslissing mag niet afhangen van geobserveerde patronen in de data. Er moet dan dus van tevoren zijn besloten dat dit gebeurt. Als de groepen door de randomisatie van elkaar verschillen, dan kan een deel van de bias die daardoor wordt geïntroduceerd worden verminderd met die covariaten. Het is echter onbekend hoeveel die wordt verminderd, en de validiteit blijft dus bedreigd. Maar aangezien conclusies op basis van een enkele studie sowieso vermeden moeten worden, hoeft dit geen groot probleem te zijn.

  • Als de validiteit of manipulatie is geschonden, dan correspondeert de datareeks die wordt geleverd door de operationalisatie van een meetinstrument (of die in de dataset wordt ingevoerd om aan te geven in welke conditie deelnemers zaten, in het geval van een manipulatie) niet langer met het doelconstruct. Hierdoor is het niet langer mogelijk om conclusies te trekken over dat doelconstruct op basis van verbanden van andere datareeksen met deze datareeks. Hier is geen oplossing voor. Daarom is het heel belangrijk om operationalisaties pas in een studie te gebruiken als deze grondig zijn onderzocht in de doelpopulatie. Het moet duidelijk zijn dat een operationalisatie cognitieve validiteit heeft in de doelpopulatie, en dat deze valide is (dat een meetinstrument het doelconstruct meet, en alleen het doelconstruct; en dat een manipulatie het doelconstruct manipuleert, en alleen het doelconstruct).

Referenties

Fishbein, M., & Ajzen, I. (2010). Predicting and Changing Behavior: The Reasoned Action Approach. Taylor & Francis Group.
Goldberg, L. R. (1992). The development of markers for the Big-Five factor structure. Psychological Assessment, 4(1), 26–42. https://doi.org/10.1037/1040-3590.4.1.26
Meade, A. W., & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological Methods, 17(3), 437–455. https://doi.org/10.1037/a0028085
Peters, G.-J. Y. (2014). The alpha and the omega of scale reliability and validity: Why and how to abandon Cronbach’s alpha and the route towards more comprehensive assessment of scale quality. European Health Psychologist, 16(2), 56–69. https://doi.org/10.17605/osf.io/tnrxv
Sonderen, E. van, Sanderman, R., & Coyne, J. C. (2013). Ineffectiveness of reverse wording of questionnaire items: Let’s learn from cows in the rain. PloS One, 8(7), e68967. https://doi.org/10.1371/journal.pone.0068967
Van De Schoot, R., Schmidt, P., De Beuckelaer, A., Lek, K., & Zondervan-Zwijnenburg, M. (2015). Editorial: Measurement Invariance. Frontiers in Psychology, 6. https://doi.org/10.3389/fpsyg.2015.01064