Hoofdstuk 22 Validiteit schatten en verhogen

In dit hoofdstuk wordt besproken:
  • Interne validiteit
  • Externe validiteit
  • Items ontwikkelen of selecteren
  • Responsmodellen
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspractium cross-sectioneel onderzoek (PB0812)
  • Onderzoekspractium experimenteel onderzoek (PB0412)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Constructen
  • Constructen Meten

22.1 Inleiding

Dit hoofdstuk betreft vooral de ontwikkeling van studie-ontwerpen en meetinstrumenten. Dit vereist een apart onderzoeksprogramma dat moet worden uitgevoerd en afgerond voordat een studie-ontwerp of meetinstrument kan worden ingezet: anders is de kans groot dat na dataverzameling blijkt dat een meetinstrument bijvoorbeeld niet meet wat het moet meten.

Ook na dit ontwikkelproces blijft het belangrijk om je ervan te verzekeren dat het gebruikte instrumentarium (de meetinstrumenten en eventuele manipulaties) en het studie-ontwerp valide zijn voor de gekozen doelpopulatie, context, en tijd. Voor een deel betreft dit herhaling van de analyses die worden uitgevoerd tijdens het ontwikkelingproces, waarbij de resultaten worden vergeleken met de patronen die bij de ontwikkeling zijn gerapporteerd. Deze verificatie wordt verder besproken in hoofdstuk Verificatie van Validiteit.

Validiteit van het studie-ontwerp (zie hoofdstuk Validiteit van Ontwerpen) wordt onderscheiden van validiteit van meetinstrumenten (zie hoofdstuk Validiteit van Meetinstrumenten) en manipulaties (zie hoofdstuk Validiteit van Manipulaties), en interne validiteit wordt onderscheiden van externe validiteit. Deze indeling wordt in dit hoofdstuk gevolgd.

22.2 Validiteit van Meetinstrumenten

Zoals besproken in de hoofdstukken Constructen, Constructen Meten, en Validiteit van Meetinstrumenten start nadenken over validiteit met de precieze definitie van het construct, de operationalisatie die wordt gebruikt, en het model over hoe de responsen die het meetinstrument registreert tot stand komen en welke rol dat doelconstruct daarin speelt.

22.2.1 Operationalisatie

Voordat je start met de ontwikkeling van een meetinstrument kies je een specifieke operationalisatie: datgene dat je meetinstrument gaat meten. Een definitie kan bijvoorbeeld zijn: “attitude is de algehele evaluatie van een bepaald gedrag”, en een operationalisatie hiervan voor het gedrag “een ijsje eten” kan zijn: “de mate waarin iemand een ijsje eten als positief versus negatief evalueert”. Een andere operationalisatie is “de mate waarin iemand een ijsje eten als prettig versus onprettig evalueert”, en weer een andere operationalisatie is “de mate waarin iemand vier ijsjes eten als verstandig versus onverstandig evalueert”.

De hoeveelheid flexibiliteit die bestaat bij de keuze van een operationalisatie ligt besloten in de definitie van het construct. Een andere definitie van attitude14 kan zijn “attitude is de evaluatie van hoe verstandig of onverstandig een gedrag is”: die definitie beschrijft een construct dat niet geoperationaliseerd kan worden door te meten of iemand het eten van een ijsje prettig vindt.

In dit relatief eenvoudige voorbeeld is de operationalisatie ook relatief eenvoudig, en zou die met één enkel item te meten zijn, maar breder gedefinieerde constructen vereisen vaak ook bredere operationalisaties. Zowel de specificatie van de definitie als van de operationalisatie van een construct kan dus zomaar meerdere alinea’s in beslag nemen. Neem bijvoorbeeld meetinstrumenten voor depressie: deze gebruiken vaak een operationalisatie van depressie in termen van symptomen, en een analyse van de symptomen die worden gemeten in zeven populaire meetinstrumenten voor depressie beschrijft \(52\) symptomen (zie deze blog post voor meer informatie en een goede illustratie van het gebrek aan overlap in symptomen tussen deze meetinstrumenten).

22.2.2 Items

Als de operationalisatie duidelijk is kunnen de items worden geproduceerd: de procedure, responsregistratie, en eventueel stimuli. Dit kan op basis van theorie in combinatie met resultaten van kwalitatief onderzoek. In het bovenstaande voorbeeld kan theorie over attitudes en de wijze waarop mensen inschattingen maken van hoe mensen tot evaluaties van gedragingen komen worden gecombineerd met resultaten uit kwalitatief onderzoek waarin mensen wordt gevraagd wat ze vinden van ijsjes eten.

Als een vragenlijst wordt ontwikkeld ligt een deel van de procedure al vast, en is ook al duidelijk dat de responsregistratie zal plaatsvinden via het inkleuren van hokjes op papier, het aanklikken van opties op een computerscherm, of het aantikken van opties op een smartphonescherm. In dat geval zal de nadruk vooral liggen op de ontwikkeling of selectie van stimuli (oftwel, de vragen en de antwoordopties, als elke antwoordoptie wordt benoemd, of ankers, als alleen de buitenste antwoordopties worden benoemd).

Sommige theorieën, zoals de Reasoned Action Approach (Fishbein & Ajzen, 2010), bieden uitgebreide kaders en richtlijnen voor het ontwikkelen van operationalisaties. In andere gevallen ontbreekt die informatie. In dat geval is het vaak eerst nodig om diep in de literatuur te duiken en grondig kwalitatief onderzoek te doen voordat er stimuli geselecteerd of ontwikkeld kunnen worden.

22.2.3 Richtlijnen bij het formuleren van vragen en antwoordopties

Een vragenlijst is lang niet altijd het soort meetinstrument dat zich het beste leent om een gegeven doelconstruct te meten. Tegelijkertijd hebben vragenlijsten ook een aantal voordelen. Omdat de stimuli verbaal zijn, en data uit kwalitatief onderzoek dat vaak ook is, is er goede aansluiting op het kwalitatieve onderzoek waarop de stimuli vaak worden gebaseerd. Bovendien kunnen vragenlijsten eenvoudig worden gecombineerd met andere vragenlijsten, en kunnen e vaak zonder tussenkomst van een onderzoeker worden ingevuld (bijvoorbeeld via een smartphone). Daarom in deze sectie een aantal richtlijnen voor het formuleren van items voor een vragenlijst.

22.2.3.1 Let op het taalniveau

Probeer het taalniveau zodanig te houden dat de vraag (en antwoordopties) voor iedereen te begrijpen zijn. Probeer deze op taalniveau B1 te formuleren, of als het lukt, op A2 of A1. Dit kan lastig zijn, omdat academisch taalgebruik (zoals dit boek) C1 of C2 is. Tegelijkertijd is dit erg belangrijk: ongeveer 2.5 miljoen mensen in Nederland zijn laaggeletterd. Zie voor meer informatie bijvoorbeeld de site van Pharos.

22.2.3.2 Vermijd ambiguïteit in de vraag en de antwoordopties.

Hiervoor gelden dezelfde principes als voor algemeen taalgebruik, zoals voorzichting zijn met verwijzingen, geen dubbele ontkenningen gebruiken, en eenvoudige zinnen te formuleren (zie ook het vorige punt). Ambiguïteit ontstaat vaak als mensen proberen om dezelfde antwoordopties voor alle items te gebruiken.

Een veelgebruikte fout bij meetinstrumenten is bijvoorbeeld een “oneens-eens” schaal te gebruiken voor alle items. Hier kleven allerlei problemen aan. Het eerste probleem is dat het vaak gekunstelde formulering van de hoofdstimuli in elk item, de vragen, vereist.

Het tweede probleem is dat als je het ergens mee oneens bent, dat dat twee dingen kan betekenen. Het is mogelijk dat je het omgekeerde van de stelling vindt; maar het is ook mogelijk dat je het niet met de stelling eens bent, maar er neutraal tegenover staat. Voor een deel van de deelnemers zal het eerste gelden, en voor hen bestrijken de antwoordopties dus een bidimensionele schaal, van negatief, via neutraal, naar positief. Voor een ander deel van de deelnemers zal het tweede gelden, en voor hen bestrijken de antwoordopties dus een unidimensionele schaal, van neutraal naar positief.

Voor degenen die de antwoordopties als bidimensionele schaal interpreteren, is vervolgens niet duidelijk want die negatieve dimensie dan betekent. Als bijvoorbeeld nemen we enkele items uit de Nederlandse vertaling van de HEXACO-PI-R, die worden beantwoord op een vijfpuntsschaal: “Helemaal mee oneens”, “Mee oneens”, “Neutraal (noch mee eens, noch mee oneens)”, “Mee eens”, en “Helemaal mee eens”. Dit is een handig voorbeeld omdat door de formulering van de middelste optie deze schaal probeert te zorgen dat deelnemers de schaal als bidimensioneel interpreteren.

Laten we deze drie items bekijken: “Ik zou me vervelen bij een bezoek aan een kunstgalerie”, “Ik maak me soms zorgen over onbenulligheden”, en “Ik zou graag in een zeer rijke, sjieke buurt wonen”. Als iemand op de eerste vraag “Mee oneens” of “Helemaal mee oneens” antwoord, zijn mogelijke onderliggende redeneringen:

  • “Nee, want ik ga nooit naar een kunstgalerie.”
  • “Nee, want ik zou gewoon in het cafe gaan zitten.”
  • “Nee, want ik houd van kunst.”

Bij de tweede vraag zijn twee mogelijke onderliggende redeneringen omgekeerd:

  • “Nee, want ik maak me altijd zorgen om onbenulligheden.”
  • “Nee, want ik maak me nooit zorgen om onbenulligheden.”

Bij de derde vraag zijn mogelijke onderliggende redeneringen:

  • “Nee, want daar woon ik al.”
  • “Nee, want dat kan ik niet betalen.”
  • “Nee, want ik houd niet van rijke mensen.”

Hetgene dat wordt gemeten is bij elk van deze redeneringen anders. Dit is mogelijk omdat ofwel het responsmodel niet goed is uitgewerkt, ofwel het gebruik van dezelfde “oneens/eens” schaal de hoofdstimuli per item (i.e. de vraag) in een stellingenformaat dwong, waardoor het responsmodel niet goed meer van toepassing was.

De oplossing hier zou zijn om de stimuli in de vraag dichter op het responsmodel te leggen. De eerste vraag kan bijvoorbeeld worden aangepast naar “Ik vind het bezoeken van een kunstgalerie…” waarbij responsen worden geregistreerd op een schaal van “saai” tot “boeiend”. De tweede vraag kan worden aangepast naar “Hoe vaak maakt u zich zorgen om onbenulligheden?” met een antwoordschaal van “Nooit” tot “Altijd”. Bij de derde vraag is niet helemaal duidelijk welk onderliggend responsmodel wordt gehanteerd, maar deze zou bijvoorbeeld kunnen worden aangepast naar “Hecht u er waarde aan om in een zeer rijke, sjieke buurt wonen?” met een antwoordschaal van “Dit vind ik onbelangrijk” tot “Dit vind ik heel belangrijk”.

22.2.3.3 Spiegel geen items

Vermijd het spiegelen van items. Dit werd vroeger gedaan vanuit het idee dat het de invullers “bij de les houdt”, maar dit blijkt vaak bias (systematische verstoring in de resultaten) te produceren (Sonderen et al., 2013). Bovendien zijn symptomen van het onaandachtig beantwoorden van vragen juist heel waardevol om zulke deelnemers te kunnen detecteren (zie bijvoorbeeld Meade & Craig, 2012 of ufs::carelessReport).

22.2.4 Het responsmodel

Als de items zijn geselecteerd kan het responsmodel worden uitgewerkt (als dat niet al beschikbaar is). Dat responsmodel beschrijft hoe het doelconstruct de door het meetinstrument geregistreerde responsen veroorzaakt. Die responsmodellen zijn vaak gebaseerd op fundamenteel onderzoek: onderzoek naar de basis van de psychologie, zoals het geheugen, aandachtsprocessen, attributies, inschattingen, en evaluaties. Hoe meer volwassen de theorie in een domein is, hoe beter dit zal zijn uitgewerkt.

Als er nog maar weinig onderzoek beschikbaar is, kan deze stap (het opstellen van het responsmodel) veel werk zijn, en soms meerdere studies vereisen. Tegelijkertijd is dit een heel belangrijke stap: hoe kun je er immers op vertrouwen dat je meetinstrument valide is, als je niet weet hoe het werkt? Het is dus belangrijk de tijd te nemen om een goed model te ontwikkelen voor wat er precies gebeurt als mensen blootgesteld worden aan je meetinstrument, en hoe het doelconstruct een rol speelt bij het produceren van de respons die het meetinstrument registreert.

Idealiter worden bij de ontwikkeling van een meetinstrument de causale kettingen van het betreffende construct naar de responsen die het meetinstrument registreert getest. Dit kan door experimenteel onderzoek, waarbij steeds een onderdeel van die causale ketting wordt gemanipuleerd (zie hoofdstuk Ontwerpen. Dit is niet altijd mogelijk, waardoor je soms wordt gedwongen om met zwakkere responsmodellen te werken, bijvoorbeeld door observationeel onderzoek te doen en naar correlaties te kijken of je aannames over de causale ketting wel kloppen.

22.2.5 Verwachte verdeling per item

Als het responsmodel is gespecificeerd (en idealiter, onderzocht) kan daarmee worden ingeschat hoe de responsen op elk item verdeeld zouden moeten zijn (zie hoofdstuk Verdelingen. Neem als voorbeeld een vraag uit een vragenlijst. Een generieke vorm hiervan is hieronder geïllustreerd:

Hoofdstimulus van het item (e.g. vraag) Linker anker 🔾 🔾 🔾 🔾 🔾 Rechter anker

Laten we nu besluiten om deze vijf onderdelen van de responsregistratie numeriek te representeren als \(1\), \(2\), \(3\), \(4\), en \(5\), en laten we er vanuitgaan dat we op basis van ons onderzoek naar het onderliggende responsmodel aannemen dat dit item een onderliggende continue dimensie meet. Wat voorbeelden van mogelijke verwachtingspatronen zijn dan als volgt.

  • Stel dat we op basis van onze theorie en ons onderzoek naar het responsmodel verwachten dat elke antwoordoptie door \(20\%\) van de mensen wordt gekozen. Dat is de uniforme verdeling.
  • Stel dat we op basis van onze theorie en ons onderzoek naar het responsmodel verwachten dat de meeste mensen, zeg ongeveer de helft, \(3\) kiezen; dat daarna mensen \(2\) of \(4\) kiezen, zeg ongeveer \(20\%\) elk; en dat maar weinig mensen \(1\) of \(5\) kiezen, zeg ongeveer \(5\%\) elk. Dat is ongeveer de normaalverdeling.
  • Stel dat we op basis van onze theorie en ons onderzoek naar het responsmodel blijkt dat de meeste mensen \(1\) kiezen, zeg \(60\%\); dat ongeveer \(20\%\) voor \(2\) kiest, ongeveer \(10\%\) voor \(1\), en ongeveer \(5\%\) voor \(4\) en \(5\). Dat is een rechtsscheve verdeling.

Deze verwachtingen kunnen verschillen per populatie of context, afhankelijk van het doelconstruct, de gekozen operationalisatie van dat construct, en de specifieke procedure, responsregistraties, en stimuli die worden gebruikt om die operationalisatie te meten. Bij een meetinstrument voor negatief affect, bijvoorbeeld, zijn de items wellicht zo ontwikkeld dat je uniforme verdelingen, normaalverdelingen, of andere symmetrische verdelingen krijgt in de gewone populatie. Als dat meetinstrument dan in een populatie wordt gebruikt van mensen die zijn gediagnosticeerd met depressie verwacht je linksscheve verdelingen (aangenomen dat de antwoordopties die consistent zijn met meer negatief affect aan de rechterkant van de responsschaal staan).

Bij de verificatie van de validiteit van een meetinstrument in een gegeven studie worden de gevonden verdelingen voor elk item vergeleken met de verdelingen die op basis van de theorie en het onderzoek naar het responsmodel worden verwacht. Als er afwijkingen zijn dan is dat een indicatie dat het responsmodel niet klopt voor die specifieke context of populatie. Omdat het responsmodel de causale ketting van het doelconstruct naar de responsen op het item beschrijft kan er dus niet meer op worden vertrouwd dat de responsen op het item worden veroorzaakt door het doelconstruct.

22.2.6 Verwachte verbanden tussen items

Net als dat er verwachtingen zijn over de responspatronen per item, zijn er ook verwachtingen over de manier waarop die responspatronen samenhangen met de responspatronen op andere items. Twee items die ongeveer hetzelfde meten zouden sterkere samenhang moeten vertonen dan twee items die andere aspecten van een construct meten. Voor de persoonlijkheidstrek “openheid” werd bijvoorbeeld een serie items gepostuleerd waaronder “Uncreative-creative”, “Unimaginative-imaginative”, “Uninquisitive-curious”, en “Imperceptive-perceptive” (Goldberg, 1992).

Afhankelijk van het responsmodel dat bij dat meetinstrument werd gehanteerd is het voorstelbaar dat de verwachting is dat de eerste twee items over creativiteit en voorstellingsvermogen relatief sterk met elkaar samenhangen, en dat de laatste twee items over nieuwsgierigheid en opmerkzaamheid ook relatief sterk met elkaar samenhangen.

Tijdens het onderzoek om het meetinstrument te ontwikkelen, en in het bijzonder het responsmodel op te stellen, kristalliseren zulke verwachtingen uit. Als die proces is afgerond bestaat er dus een set aan verwachtingen over hoe sterk de verbanden tussen de verschillende items zouden moeten zijn.

In dit kader zijn er drie bijzondere meetmodellen. Een heel eenvoudig meetmodel is het meetmodel waarbij wordt aangenomen dat alle items zogenaamde parallelle metingen zijn. Voor een gegeven persoon hebben alle items dat hetzelfde gemiddelde; alle items hebben dezelfde variantie; en alle items hangen even sterk met elkaar samen. Als een meetinstrument is gebaseerd op dat meetmodel betekent dat dat alle items dus precies hetzelfde meten, en allemaal even sterk met elkaar moeten correleren.

Vanwege deze zeer strikte aannames is het parallelle meetmodel bijna nooit realistisch, en er zijn twee meetmodellen met wat mildere aannames. Het eerste is het tau-equivalente meetmodel. Dit meetmodel vereist niet langer dat alle items hetzelfde gemiddelde hebben, als ze maar dezelfde onderliggende (latente) variabele meten. Wel moeten de items dezelfde variantie hebben, en moeten de items even sterk met elkaar samenhangen [i.e. elk item moet dezelfde variantie hebben, en alle covarianties tussen de items moeten gelijk zijn; Peters (2014b)].

Ook dit is in de praktijk vaak niet het geval: items hebben vaak niet alleen verschillende gemiddelden, maar ook verschillende varianties, en zoals eerder besproken is de verwachting vaak dat sommige items sterker met elkaar samenhangen dan met andere items. In dat geval kan het congenerieke meetmodel van toepassing zijn: dit vereist slechts unidimensionaliteit van de items: oftewel, dat alle items hetzelfde onderliggende construct meten.

Ook deze aanname is niet vanzelfsprekend: maar weinig psychologische constructen zijn dermate eng gedefinieerd dat er binnen die definitie geen sub-constructen te onderscheiden zijn. In onderzoek in de persoonslijkheidspsychologie wordt bijvoorbeeld binnen de onderscheiden persoonlijkheidstrekken (zoals openheid of extraversie) zogenaamde “facetten” onderscheiden (bijvoorbeeld “fantasie” en “esthetiek” voor openheid en “warmte” en “assertiviteit” voor extraversie). Dit zijn in wezen subconstructen, waarbij op basis van het responsmodel de verwachting meestal is dat twee items die hetzelfde subconstruct meten sterker met elkaar samenhangen dan items die twee verschillende subconstructen meten, ook al meten ze allemaal het onderliggende doelconstruct.

Deze (expliciete of impliciete) erkenning van conceptuele breedte van een construct betekent dat meetinstrumenten bijna nooit eenduidig “unidimensioneel” zijn. In plaats daarvan is er sprake van een mate van unidimensionaliteit, waarbij het valide meten van breder gedefinieerde constructen meetinstrumenten vereist die minder unidimensioneel zijn. Ook het congenerieke meetmodel is dus vaak maar deels van toepassing.

Afhankelijk van het meetmodel dat wordt gehanteerd is het vaak mogelijk om zogenaamde interne consistentie te berekenen. Dit is een maat voor de mate waarin de items in een meetinstrument met elkaar samenhangen, en het wordt vaak in verband gebracht met de betrouwbaarheid van een meetinstrument. Interne consistentie wordt meer in detail besproken in hoofdstuk Betrouwbaarheid.

22.2.7 Verwachte verbanden met andere constructen

Net als dat er verwachtingen zijn over de verbanden tussen items, zijn er verwachtingen over de verbanden tussen items en andere constructen. Tijdens de ontwikkeling van een meetinstrument worden daarom vaak ook meetinstrumenten van andere constructen toegepast, of soms reeds bestaande meetinstrumenten van hetzelfde construct.

Als bijvoorbeeld het responsmodel voor een item een bepaald construct niet betrekt, maar dat construct hangt toch sterk samen met dat item, dan kan dat een reden zijn om te concluderen dat het veronderstelde responsmodel van dat item niet klopt. Als er geen plausibele herziening geproduceerd kan worden kan het dan nodig zijn dat item niet op te nemen in het uiteindelijke meetinstrument.

Omgekeerd geldt dat als een item volgens het responsmodel juist wel samen zou moeten hangen met een bepaald construct, en dat niet het geval is, dezelfde conclusie kan worden getrokken: het responsmodel lijkt incorrect. Weer geldt dat als dat responsmodel niet gereviseerd kan worden totdat er voldoende reden is om er vertrouwen in te hebben dat de werking van het meetinstrument wordt begrepen, het item wellicht moet worden verwijderd uit het uiteindelijke meetinstrument.

De verwijdering of toevoeging van items verandert wat er precies wordt gemeten. Het is dus belangrijk om altijd de definitie en de gekozen operationalisatie goed in het oog te houden. Het kan bijvoorbeeld zo zijn dat het er op lijkt dat het oorspronkelijke responsmodel voor een item niet klopt, maar dat het verwijderen van dat item zou betekenen dat het meetinstrument minder goed correspondeert met de definitie van het construct, omdat bijvoorbeeld een deel niet meer zou worden gemeten. In dat geval moet het item worden vervangen, of is meer onderzoek naar het responsmodel nodig.

Er wordt meestal niet alleen op item-niveau gekeken naar verbanden met andere constructen, maar ook op het niveau van het meetinstrument als geheel. Uiteindelijk zijn de items immers slechts middelen, en is het ontwikkelen van een valide meetinstrument het doel.

Als verbanden die er niet horen te zijn, er ook niet zijn, dan wordt dat divergente validiteit genoemd, en als verbanden die er wel horen te zijn, er wel zijn, dan wordt dat convergente validiteit genoemd. Wat het precies betekent als een verband wel of niet wordt gevonden, hangt af van de statistische benadering die wordt gekozen. Binnen de frequentistische traditie kunnen bijvoorbeeld betrouwbaarheidsintervallen voor correlatiecoëfficiënten worden berekend (zie hoofdstuk Correlaties).

22.2.8 Vergelijking tussen groepen

Soms is het wenselijk om hetzelfde construct te meten in verschillende groepen en de uitkomsten te vergelijken. Vaak wordt dan naar de geaggregeerde scores van een meetinstrument gekeken (bijvoorbeeld een gewogen gemiddelde). Dit vereist echter dat het meetinstrument op dezelfde manier werkte in beide (of alle) groepen.

Als dat zo is, wordt dat meetinvariantie genoemd. Als er geen meetinvariantie is, is de betekenis van de scores op de meetinstrumenten niet hetzelfde voor beide (of alle) groepen. Mensen in de ene groep interpreteren de stimuli of de responsschalen dan bijvoorbeeld anders, en de meetinstrumenten meten dus andere constructen. Een verschil in de gemiddelden tussen de twee groepen reflecteert dan simpelweg dat de meetinstrumenten iets anders hebben gemeten, maar niet dat het oorspronkelijke doelconstruct verschilt tussen beiden groepen: dat doelconstruct is immers niet voor beide groepen gemeten.

Zie voor meer informatie over meetinvariantie bijvoorbeeld Van de Schoot et al. (2015).

22.3 Validiteit van Manipulaties

Manipulaties bestaat alleen uit procedures en stimuli, en kunnen verschillen van bijvoorbeeld vignettes of scenarios, waarbij deelnemers in verschillende groepen verschillende teksten lezen over hypothetische situaties, via blootstelling aan video- of audiofragmenten, tot volledige gedragsveranderingsinterventies of zelfs een serie van twaalf therapiesessies.

Als de validiteit van de meetinstrumenten aannemelijk is, kunnen deze worden gebruikt om de validiteit van de manipulatie(s) te verifieren. Net als bij meetinstrumenten betreft de validiteit bij manipulaties de mate waarin de manipulatie correspondeert met het doelconstruct, en uitsluitend het doelconstruct. In andere woorden: een valide manipulatie beïnvloedt successvol het doelconstruct, en beïnvloedt bovendien uitsluitend het doelconstruct, dus geen andere constructen (als wel andere constructen worden beïnvloedt, kan nooit worden afgeleid dat verandering van het doelconstruct leidt tot verandering in andere constructen, wat in experimenten vaak de onderzoeksvraag is).

De validiteit van manipulaties kan worden geverifieerd door twee dingen te bepalen. Ten eerste, is de effectgrootte voor het verband tussen de manipulatie en de scores op een meetinstrument dat datzelfde construct operationaliseert voldoende groot? En ten tweede, is de effectgrootte voor het verband tussen de manipulatie en de scores op meetinstrumenten die andere constructen operationaliseren voldoende klein? Ook hiervoor geldt dat a priori opgesteld grenswaarden worden gebruikt. De vraag is immers niet of de manipulatie werkt in de populatie - als het goed is, is van alle operationalisaties, dus ook alle manipulaties, voorafgaande aan de studie vastgesteld dat ze in principe effectief zijn. Als dat niet zo is, is de operationalisatie nog niet klaar voor gebruik in onderzoek; de operationalisatie moet dan eerst zelf nog worden onderzocht om vast te stellen dat deze een betrouwbare en valide manipulatie is van het doelconstruct. De vraag is of de manipulatie in deze ene steekproef ook daadwerkelijk het doelconstruct heeft beinvloedt. Als dit door toeval niet is gebeurd in deze steekproef, kan immers niets worden afgeleid over een causaal verband tussen dat doelconstruct (dat immers niet is veranderd in de steekproef) en de afhankelijke variabele.

22.4 Validiteit van het Studie-ontwerp

22.4.1 Steekproef

Als een studie wordt ontworpen, wordt bepaald welke populatie onderzocht gaat worden, en op basis hiervan wordt de wervingsprocedure ontwikkeld. Deze wervingsprocedure heeft tot doel een steekproef te werven die representatief is voor die populatie. Dit gebeurt meestal door willekeurige leden uit die populatie te selecteren voor de steekproef. Als de werving minder aselect was, of als de werving er niet in slaagde uit de doelpopulatie te werven, dan bedreigt dat de externe validiteit van een studie. De populatie waarover uitspraken worden gedaan is dan niet langer de doelpopulatie, maar een andere populatie. Daarom is het belangrijk om de wervingsprocedure goed in de gaten te houden en kan het handig zijn om een aantal kenmerken van de steekproef te vergelijken met die van de doelpopulatie om te verifieren of externe validiteit geborgd is.

Hiervoor geldt ook weer dat van te voren duidelijk moet zijn naar welke variabelen wordt gekeken, en welke afwijkingen acceptabel zijn. En ook geldt weer dat het goed is om dit van te voren vast te leggen in een preregistratie, met onderbouwing voor de gekozen criteria (i.e. naar welke variabelen wordt gekeken, en welke effectgroottes worden beschouwd als indicatief voor een nonrepresentatieve steekproef?) en procedure (i.e. wordt er niets gedaan, of worden data verwijderd, of worden data gewogen, of wordt op een andere manier omgegaan met de verlaagde representativiteit).

22.4.2 Procedure

Vanuit het oogpunt van de deelnemers bestaat de deelname aan een studie uit een serie handelingen. Die handelingen betreffen de toepassing van de operationalisaties (manipulaties en/of meetinstrumenten). Het is belangrijk dat die procedure voor alle deelnemers zoveel mogelijk gelijk is, en dat die procedure voor alle deelnemers accuraat en volgens planning wordt gevolgd. Als op een systematische manier van de procedure wordt afgeweken kan dit de validiteit van het studieontwerp in gevaar brengen. Als op een niet systematische manier van de procedure wordt afgeweken, manifesteert dit zich in extra errorvariantie, waardoor de analyses die van te voren zijn uitgevoerd om te bepalen hoeveel deelnemers nodig zijn niet langer kloppen, en er te weinig deelnemers worden geworven. Daarom is het belangrijk om goed op te letten dat de procedure goed wordt gevolgd. Dit kan bijvoorbeeld door proefleiders notities te laten maken. Als data online worden verzameld, bijvoorbeeld met LimeSurvey, kan worden gekeken hoe lang deelnemers met elke pagina bezig zijn, om zo te controleren of mensen niet halverwege pauzeren zonder dat dat de bedoeling is.

22.4.3 Randomisatie

Bij experimenteel onderzoek is een bijzonder deel van de procedure de randomisatie. Het is belangrijk dat die volledig ‘at random’ plaatsvindt. Dit word bepaald bij het plannen en opzetten van de studie: er kan bijvoorbeeld data van https://random.org worden gebruikt, of een random-nummer-generator in software. Als de randomisatie goed is verlopen, is het zeker dat de uitkomsten in de studie geen zogenaamde ‘bias’ kunnen bevatten: geen systematische afwijkingen. Onder aanname dat de overige aspecten van het ontwerp en de operationalisaties (dus de meetinstrumenten en de manipulaties) valide zijn, is het dan mogelijk om statistische modellen te gebruiken om conclusies te trekken over het effect van de manipulatie(s). Of de randomisatie lukt of niet hangt af van de procedure: er bestaan geen analyses die dit kunnen controleren. Als de procedure goed is gekozen, is adequate randomisatie gegarandeerd.

Dat randomisatie goed verloopt, en er dus geen systematische verschillen tussen de groepen deelnemers kunnen bestaan, betekent dat het studie-ontwerp geen ‘bias’ kan bevatten: hoewel in enkele studies de groepen deelnemers kunnen verschillen (bijvoorbeeld op de afhankelijke variabele), zullen die verschillen over alle studies normaal verdeeld zijn, met als gemiddelde nul.

In elke afzonderlijke studie is het nog wel mogelijk dat de groepen, waarnaar deelnemers zijn gerandomiseerd, verschillen. Dit kan niet worden getoetst met nulhypothesetoetsing: de daar verkregen \(p\)-waarde drukt de kans uit dat de gevonden effectgrootte wordt gevonden aangenomen dat in de populatie de effectgrootte gelijk is aan nul. Echter, het is in dit geval al zeker dat in de populatie de effectgrootte nul is: de groepen bestaan niet uit deelnemers uit verschillende populaties, maar uit deelnemers uit dezelfde populatie die door toeval in de ene of de andere groep belanden. Verwerping van de nulhypothese is dus altijd een Type-1 fout: de nulhypothese kan nooit terecht worden verworpen.

In plaats daarvan wordt a priori, dus als de studie wordt geplanned, vastgesteld hoe sterk de groepen maximaal mogen verschillen. Met andere woorden: hoezeer moeten de groepen ‘hetzelfde’ zijn om nog als equivalent gezien te worden? Voor elke variabele waarvan het belangrijk is dat die equivalent is tussen groepen wordt die effectgrootte bepaald. Tijdens de analyse worden deze effectgroottes in de steekproef vervolgens berekend en vergeleken met de vooraf bepaalde grenswaarden. Als een of meer van de variabelen te zeer verschilt tussen groepen, betekent dat dat de groepen in deze steekproef niet voldoende equivalent zijn. Dat betekent dat niet goed conclusies getrokken kunnen worden op basis van deze studie.

Er is geen vorm van toetsing nodig, omdat deze vraag (zijn de groepen in deze steekproef gelijk?) niet de populatie betreft, maar de steekproef. De vraag is dus niet of geobserveerde patronen wellicht door kans komen - het is al zeker dat die patronen door kans komen. De vraag is of de geobserveerde patronen dermate verstorend zijn dat ze de validiteit van het ontwerp van de studie in gevaar brengen, en dat hangt af van de steekproefwaarden, en die kunnen rechtstreeks geobserveerd worden.

Overigens geldt altijd al dat geen conclusies getrokken kunnen worden op basis van een enkele studie: de rol van toeval is daarvoor te groot. Maar als, bijvoorbeeld, de afhankelijke variabele al voor de manipulatie verschilt tussen de groepen, dan kunnen de data uit die steekproef geen informatie meet leveren over de invloed van het gemanipuleerde construct op de afhankelijke variabele in die steekproef. Het is echter wel belangrijk om de resultaten van die studie te publiceren. Als deze resultaten niet worden gepubliceerd, geldt niet langer dat er geen ‘bias’ optreedt over studies heen. Zelfs de geaggregeerde schattingen zijn dan niet langer zuivere schattingen, want de ruis (de errorvariantie) is dan niet langer normaal verdeeld.

Hoewel in dat geval publicatie van de resultaten dus niet minder belangrijk is, kunnen er in die publicatie niet goed conclusies worden getrokken over de manipulatie(s). Eventuele effecten die op de nameting worden waargenomen kunnen immers het gevolg zijn van de nonequivalentie bij het begin van de studie. Het is in zo’n situatie dus belangrijk om nog tentatiever te zijn dan normaal. Zoals aangegeven maakt die noodzakelijke tentativiteit de uitkomsten van de studie niet minder belangrijk. Omdat de garantie op afwezigheid van bias uitsluitend opgaat over meerdere studies, en als alle uitgevoerde studies worden meegenomen, zijn studies met nonequivalente groepen net zo cruciaal als studies waarbij randomisatie ‘wel is gelukt’.

22.5 Studieplanning: verificatie van validiteit

Net als bij het plannen van de verificatie van data-integriteit geldt ook bij de verificatie van de validiteit van de studie (i.e. van de steekproef, het ontwerp, en de operationalisaties) dat van te voren moet worden vastgesteld welke afwijkingen acceptabel zijn. Of accurater: de procedure die wordt gevolgd moet duidelijk zijn, en deze moet a priori worden vastgelegd in een preregistratie om het risico te elimineren dat de keuzes met betrekking tot de te hanteren criteria worden gebaseerd op patronen in de data.

22.6 Check-list

Deze check-list kan bij de planning van een studie worden gevolgd om vast te leggen wat tijdens de data-screening gedaan moet worden.

  • Bepaal naar welke variabelen wordt gekeken om te bepalen of de werving heeft geresulteerd in een representatieve steekproef.
  • Bepaal welke waarden voor elk van de variabele, of voor combinaties van die variabelen, acceptebel zijn, en welke indicaties zijn dat de wervingsprocedure niet heeft geresulteerd in een representatieve steekproef.
  • Bepaal welke procedure wordt gevolgd als de steekproef op een or meerdere variabelen niet representatief is voor de doelpopulatie.
  • Bepaal hoe wordt geregistreerd of de procedure voldoende nauwgezet wordt gevolgd.
  • Bepaal hoe wordt bepaald of er te veel variatie in de gevolgde procedure is, of er te veel is afgeweken van de ontworpen procedure bij (een deel van) de deelnemers.
  • Bepaal welke procedure wordt gevolgd als het aannemelijk is dat de procedure onvoldoende nauwgezet is gevolgd.
  • Als een of meer van de hypothesen of onderzoeksvragen in de studie causaliteit betreft, en er dus een experimentele opzet wordt gebruikt, bepaal dan op welke variabelen de twee (of drie, of vier, etc) equivalent moeten zijn.
  • Als een experimentele opzet wordt gebruikt, bepaal dan hoe sterk de groepen mogen verschillen op de relevante variabelen voordat ze als nonequivalent worden beschouwd.
  • Als een experimentele opzet wordt gebruikt, bepaal dan welke procedure wordt gevolg als de validiteit van de manipulatie is aangetast omdat de groepen niet equivalent zijn op alle relevante variabelen.
  • Bepaal hoe de validiteit van elk meetinstrument in de gebruikte steekproef wordt geverifieerd.
  • Bepaal per meetinstrument wanneer wordt geconcludeerd dat dat meetinstrument niet valide is.
  • Bepaal welke procedure wordt gevolgd als een of meerdere meetinstrumenten in deze steekproef niet valide zijn.
  • Bepaal hoe de validiteit van elke manipulatie in de gebruikte steekproef wordt geverifieerd.
  • Bepaal per manipulatie wanneer wordt geconcludeerd dat die manipulatie niet valide is.
  • Bepaal welke procedure wordt gevolgd als een of meerdere manipulaties in deze steekproef niet valide zijn.

Houd er rekening mee dat bij de verificatie van validiteit geen nulhypothesesignificantietoetsing (NHST) kan worden gebruikt. Er worden immers geen uitspraken gedaan over de populatie, maar over de steekproef. Let daarom op dat de voorwaarden, als die in kwantitatieve termen worden vastgelegd, effectgroottes betreffen, en geen \(p\)-waarden.

Er zijn geen echte oplossingen voor schendingen van de validiteit van het studie-ontwerp. Wat wel nog overwogen kan worden wordt hieronder puntsgewijs besproken.

  • Als de wervingsprocedure niet resulteerde in een steekproef die representatief is voor de doelpopulatie, is dit een probleem omdat het duidt op selectiebias: de deelnemers uit de doelpopulatie die niet meedoen verschillen waarschijnlijk van de deelnemers die wel meedoen, op onbekende manieren. Omdat dit onbekende manieren zijn, is er maar een echte oplossing voor: de dataverzameling herhalen. Dat is niet altijd mogelijk, maar er zijn wel procedures die gevolgd kunnen worden die het probleem (dat per definitie een onbekende omvang heeft) met een onbekende mate verminderen. Een procedure is om de deelnemers te wegen zodat de steekproef, op de variabelen die zijn gemeten, na weging wel representatief is. Voor zover de variabelen die samenhangen met de selectiebias dan samenhangen met die variabelen op basis waarvan wordt gewogen, wordt eventuele selectiebias dan verminderd. Een andere procedure is om een steekproef uit de steekproef te nemen; door willekeurig een aantal deelnemers te verwijderen die aan bepaalde criteria voldoen kan de steekproef worden aangepast om alsnog dezelfde samenstelling te hebben als de populatie. Hiervoor geldt echter ook dat niet bekend is in welke mate het probleem wordt opgelost. Een laatste procedure is de dataverzameling niet te herhalen, maar extra data te verzamelen, om zo de disbalans te proberen te herstellen.

  • Als de procedure onvoldoende nauwgezet is gevolgd voor een aantal deelnemers, kan overwogen worden die deelnemers te verwijderen uit de analyse. Dit is zinnig als de afwijkingen in de procedure niet samenhangen met deelnemerkenmerken. Als afwijkingen in de procedure bijvoorbeeld optreden als deelnemers op een bepaalde manier reageren, dan hangt die reactie samen met een onbekend aantal andere variabelen, waardoor weer selectiebias optreedt als die deelnemers worden verwijderd. Als de verstoringen helemaal niet samenhingen met deelnemerkenmerken, dan kunnen de deelnemers waarbij verstoringen optraden veilig worden verwijderd.

  • Als in een experimentele opzet de randomisatie ‘niet lukte’, oftewel, als deze steekproef een van de steekproeven was waarbij de groepen na randomisatie duidelijk verschilden, dan is hier geen oplossing voor. Het is mogelijk om variabelen als covariaat op te nemen, maar die beslissing mag niet afhangen van geobserveerde patronen in de data; er moet dan dus van te voren zijn besloten dat dit gebeurd. Als de groepen door de randomisatie van elkaar verschillen, dan kan een deel van de bias die daardoor wordt geïntroduceerd worden verminderd met die covariaten. Het is echter onbekend hoeveel, en de validiteit blijft dus bedreigd. Echter, dat geldt alleen voor conclusies op basis van die ene studie. Gegeven dat conclusies op basis van enkele studies eigenlijk moeten worden vermeden, is dit dus geen groot probleem. In een meta-analyse van een set replicaties zal deze ‘bias’ verdwijnen.

  • Als de validiteit van een meetinstrument of een manipulatie is geschonden, dan correspondeert de datareeks die wordt geleverd door die operationalisatie (of die in de dataset wordt ingevoerd om aan te geven in welke conditie deelnemers zaten, in het geval van een manipulatie) niet langer met het doelconstruct. Hierdoor is het niet langer mogelijk om conclusies te trekken over dat doelconstruct op basis van verbanden van andere datareeksen met deze datareeks. Hier is geen oplossing voor. Omdat dit niet opgelost kan worden, is het heel belangrijk om operationalisaties pas in een studie te gebruiken als deze grondig zijn onderzocht in de doelpopulatie. Het moet duidelijk zijn dat een operationalisatie cognitieve validiteit heeft in de doelpopulatie, en dat deze valide is (dat een meetinstrument het doelconstruct meet, en alleen het doelconstruct; en dat een manipulatie het doelconstruct manipuleert, en alleen het doelconstruct).

22.7 Externe validiteit

Deze paragraaf moet nog worden gescheven.

Referenties

Fishbein, M., & Ajzen, I. (2010). Predicting and Changing Behavior: The Reasoned Action Approach. Taylor & Francis Group.
Goldberg, L. R. (1992). The development of markers for the Big-Five factor structure. Psychological Assessment, 4(1), 26–42. https://doi.org/10.1037/1040-3590.4.1.26
Meade, A. W., & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological Methods, 17(3), 437–455. https://doi.org/10.1037/a0028085
Peters, G.-J. Y. (2014b). The alpha and the omega of scale reliability and validity: Why and how to abandon Cronbach’s alpha and the route towards more comprehensive assessment of scale quality. European Health Psychologist, 16(2), 56–69. https://doi.org/10.17605/osf.io/tnrxv
Sonderen, E. van, Sanderman, R., & Coyne, J. C. (2013). Ineffectiveness of reverse wording of questionnaire items: Let’s learn from cows in the rain. PloS One, 8(7), e68967. https://doi.org/10.1371/journal.pone.0068967
Van De Schoot, R., Schmidt, P., De Beuckelaer, A., Lek, K., & Zondervan-Zwijnenburg, M. (2015). Editorial: Measurement Invariance. Frontiers in Psychology, 6. https://doi.org/10.3389/fpsyg.2015.01064

  1. Hoewel deze twee constructen dezelfde naam hebben, hebben ze andere definities, waardoor het in principe twee verschillende constructen zijn — tenzij zou blijken dat het verschil in definitie irrelevant is.↩︎