Hoofdstuk 10 Validiteit van Meetinstrumenten

In dit hoofdstuk wordt besproken:
  • Cognitieve validiteit
  • Validiteit van meetinstrumenten en manipulaties
  • Validiteit gaat over een enkele toepassing
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspractium cross-sectioneel onderzoek (PB0812)
  • Onderzoekspractium experimenteel onderzoek (PB0412)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Constructen
  • Constructen Meten
  • Ontwerpen

10.1 Inleiding

Validiteit is een brede term met verschillende betekenissen. Een handige benadering is om te beginnen te redeneren vanuit de conclusies van een wetenschappelijke studie. De bedoeling is dat die valide zijn: dat ze logisch coherent zijn gegeven de data die zijn verzameld in die studie. Valide conclusies vereisen vervolgens dat een aantal onderdelen van de studie valide zijn:

  • de conclusies moeten in lijn zijn met de uitkomsten van de analyses;
  • de conclusies moeten in lijn zijn met het studie-ontwerp;
  • het studie-ontwerp moet voldoende intern valide zijn;
  • het studie-ontwerp moet voldoende extern valide zijn;
  • de meetinstrumenten en manipulaties moeten voldoende intern valide zijn; en
  • de meetinstrumenten en manipulaties moeten voldoende extern valide zijn.

De eerste twee betreffen drie van de principes van wetenschappelijke integriteit (zie hoofdstuk Psychologie en hoofdstuk Wetenschappelijke Integriteit: Zorgvuldigheid, Eerlijkheid en Transparantie. Dit betekent dat het niet geoorloofd is om conclusies te trekken die eigenlijk niet helemaal worden gerechtvaardigd door de uitkomsten. Als een wetenschapper bijvoorbeeld sterkere conclusies trekt dan het studie-ontwerp toestaan, is diegene niet zorgvuldig, eerlijk, en transparant.

De laatste vier betreffen validiteit van specifieke onderdelen van de studie: het ontwerp, met bijzondere aandacht voor de meetinstrumenten en manipulaties; en daarvan de interne en externe validiteit.

Interne validiteit betreft de interne cohesie van een studie. Een eerste voorwaarde hiervoor is dat de gebruikte meetinstrumenten valide zijn. Dat wordt verder besproken in dit hoofdstuk. Er zijn echter nog meer voorwaarden, en die worden besproken in hoofdstuk Validiteit van Ontwerpen.

Externe validiteit betreft de mate waarin conclusies uit de studie generaliseren naar andere situaties. Dit wordt vooral verder besproken in hoofdstuk Validiteit van Ontwerpen, maar kan ook een rol spelen bij de validiteit van meetinstrumenten en de validiteit van manipulaties (zie hoofdstuk Validiteit van Manipulaties).

10.2 Validiteit van meetinstrumenten

Omdat de menselijke psychologie niet rechtstreeks onderzocht kan worden, worden constructen gedefinieerd. Die constructen worden vervolgens geoperationaliseerd en gemeten of gemanipuleerd. Deze basis wordt uitgelegd in hoofdstukken Psychologie, Stimuli, Constructen) en Constructen Meten.

Manipulaties bestaan uit een procedure en kunnen nul of meer stimuli bevatten. Meetinstrumenten bestaan uit een procedure, nul of meer stimuli, en bovendien een responsregistratie.

Het doel van manipulaties is dat door mensen bloot te stellen aan de procedure (en dus eventueel aan stimuli) een construct verandert (mensen worden bijvoorbeeld blij, gestressed, of krijgen meer zelfvertrouwen). Bij manipulaties wordt niets gemeten, en ze genereren dus geen data.10 Voorbeelden zijn blootstelling aan een filmpje, aan een serie plaatjes, het laten uitvoeren van een taakje, et cetera.

Het doel van meetinstrumenten is juist om informatie te krijgen over een construct: het doel is om iets te meten, en juist niet te veranderen. Dit wordt bereikt door mensen bloot te stellen aan een procedure (en eventueel aan stimuli) en vervolgens een respons te registreren. Een voorbeeld is een vragenlijst, waarbij stimuli worden aangeboden (vragen en antwoordopties) volgens een procedure (bijvoorbeeld in een online vragenlijst, of op papier), waarbij het de bedoeling is dat de procedure en stimuli op een bepaalde manier worden verwerkt door de deelnemers, zodat de respons die de mensen vertonen informatie geeft over een psychologisch construct (meestal is het idee dat de antwoordoptie die mensen aankruisen iets zegt over dat construct).

Bij meetinstrumenten en manipulaties betreft validiteit de mate waarin blootstelling aan een gegeven meetinstrument of manipulatie het doelconstruct betrekt, en uitsluitend het doelconstruct. Een manipulatie die is ontworpen om mensen vrolijk te maken, maar die geen effect heeft op hun vrolijkheid, is niet valide. Een manipulatie die is ontworpen om mensen vrolijk te maken, en die mensen inderdaad vrolijk maakt, maar ze bovendien gestresst maakt, is ook niet valide. Een meetinstrument dat is ontworpen om vrolijkheid te meten, maar dat eigenlijk optimisme meet, is niet valide. Een meetinstrument dat is ontworpen om vrolijkheid te meten, maar dat niet alleen vrolijkheid, maar ook ontspanning meet, is niet valide.11

Voor zowel meetinstrumenten als manipulaties geldt dat ze bestaan uit een procedure, vaak een of meer stimuli, en voor meetinstrumenten, bovendien registratie van een of meer responsen. Dit betekent dat voor zowel meetinstrumenten als manipulaties geldt dat ze alleen valide kunnen zijn als die procedure, stimuli, en eventueel de methode voor responsregistratie goed worden begrepen door deelnemers. Dat is dus een eerste voorwaarde voor validiteit, en dit heet cognitieve validiteit.

10.3 Cognitieve validiteit

Cognitieve validiteit betreft de mate waarin de stimuli, de procedure, en bij meetinstrumenten, de responsregistratie, door deelnemers worden geinterpreteerd zoals de bedoeling is. Een manipulatie waarbij een verhaal wordt gelezen dat angst moet opwekken, maar waarbij de dreiging niet duidelijk in het verhaal zit en door deelnemers niet wordt begrepen, is niet cognitief valide. Als een meetinstrument dat bestaat uit een vragenlijst de vraag bevat “Bent u van plan om de komende week maximaal 14 alcoholische drankjes te drinken?”, maar deelnemers interpreteren die niet zoals bedoeld, als een vraag die vraagt naar de intentie tot matiging van hun alcoholgebruik, maar als een vraag naar de intentie om juist veel te drinken, dan is die vraag niet cognitief valide.

Cognitieve validiteit betreft dus de interpretatie van de onderdelen van een meetinstrument of manipulatie. Een meetinstrument dat niet valide is, kan dus prima wel cognitief valide zijn. Ik kan bijvoorbeeld een vragenlijst maken om blijdschap te meten, met als enige vraag “hou je van augurken” en als antwoordopties “ja” en “gaat wel”, en “nee”. Waarschijnlijk is de cognitieve validiteit prima, maar de validiteit is nul: mensen die van augurken houden zijn niet systematisch blijer of minder blij dan mensen die niet van augurken houden.

Cognitieve validiteit wordt meestal onderzocht met Cognitieve Interviews, een methode die hier specifiek voor is ontwikkeld. Deze wordt in meer detail besproken in hoofdstuk Cognitieve Interviews.

Voordat een meetinstrument of een manipulatie wordt ingezet in een studie waarin het doel is om een onderzoeksvraag te beantwoorden dat door dat meetinstrument of door die manipulatie geoperationaliseerd zou moeten worden, is het belangrijk om zeker te zijn van de cognitieve validiteit van het betreffende meetinstrument of de betreffende operationalisatie. Dit kan vaak worden gecombineerd met het verifiëren van de validiteit van het studie-ontwerp in een pilot-studie - dit wordt apart besproken in de betreffende sectie hieronder.

10.4 Definitie van validiteit van meetinstrumenten

Een meetinstrument is valide als het het doelconstruct meet, en uitsluitend het doelconstruct. Dit is formeler gesteld door Borsboom, Mellenbergh en van Heerden (2004). Zij stellen dat een meetinstrument valide is om een gegeven construct te meten als variatie in dat construct variatie in de scores op het meetinstrument veroorzaakt.12

Nadenken over validiteit start met een duidelijke definitie van het betreffende construct. De metafoor om over constructen na te denken die we in hoofdstuk Constructen introduceerden is ook hier bruikbaar. Het voorbeeld uit dat hoofdstuk staat weer in Figuur 10.1.

Attitude en Waargenomen Normen geïllustreerd.

Figuur 10.1: Attitude en Waargenomen Normen geïllustreerd.

De definitie van een construct moet dermate helder zijn dat duidelijk is welke aspecten van de menselijke psychologie er precies onder vallen. Dit is idealiter geen opsomming van aspecten, maar een coherent theoretisch kader dat voldoende is uitgewerkt om het construct scherp te definieren. In hoofdstuk Constructen vroegen we ons af of de mate waarin een ijsje eten volgens de etiquette is, niet ook deel uit zou moeten maken van de waargenomen norm. De Reasoned Action Approach (Fishbein & Ajzen, 2010) definieert het construct “waargenomen norm” als de combinatie van “injunctieve normen” en “descriptieve normen”. Injunctieve normen zijn gedefinieerd als de waargenomen goed- of afkeuring van sociale referenten, en descriptieve normen zijn gedefinieerd als het waargenomen gedrag van sociale referenten.13. Iemands perceptie van de mate waarin iets conform de etiquette is, valt hier duidelijk buiten.

Als een voldoende expliciete en uitgebreide definitie niet beschikbaar is, kan ook niet worden gesteld dat een meetinstrument valide is. Validiteit betekent dat een meetinstrument meet wat het moet weten; als dus niet heel duidelijk is wat er nu precies gemeten moet worden, kunnen geen zinnige uitspraken over validiteit worden gedaan. In zo’n situatie is het nodig om een stap terug te doen (of meerdere stappen) en eerst te zorgen voor een bruikbare definitie van het construct.

Dit kan een teleurstelling zijn: soms blijkt bij het opzetten van een studie dat de constructen waarin men geïnteresseerd is, niet goed genoeg zijn gedefinieerd. Dit kan extra frustrerend zijn als andere onderzoekers desondanks onderzoek doen naar die constructen, en daarbij dus meetinstrumenten gebruiken waarbij geen reden is om aan te nemen dat ze valide zijn. Toch is het belangrijk om in zo’n situatie pas op de plaats te maken. Toch onderzoek doen met een slecht gedefinieerd construct zou betekenen dat er niet zorgvuldig en verantwoordelijk wordt gehandeld, waardoor die keuze de wetenschappelijke integriteit zou schenden (zie hoofdstuk Wetenschappelijke Integriteit).

Als de definitie van de betreffende constructen wel goed genoeg is, is het eerste deel van het kader dat nodig is om over de validiteit van een meetinstrument na te denken aanwezig. Dan kan naar het tweede deel worden gekeken: het proces waarmee de toepassing van het meetinstrument leidt tot de scores, en daarmee, waarom het aannemelijk is dat die scores causaal worden bepaald door het doelconstruct.

10.5 Het responsmodel

Een meetinstrument bestaat uit een of meer items (zie hoofdstuk Constructen Meten), en elk item bestaat uit een procedure, een responsregistratie, en eventueel nul of meer stimuli. Deze worden gepresenteerd aan een deelnemer, en dan start er een proces dat resulteert in de registratie van een respons.

Omdat validiteit betekent dat de score op het meetinstrument worden bepaald door het doelconstruct, vereist nadenken over validiteit een idee over het responsmodel: over hoe blootstelling aan de procedure, responsregistratie(s), en eventuele stimuli in het meetinstrument een proces in gang zetten waarbij de respons causaal wordt bepaald door het doelconstruct.

Dit is relatief abstract, dus laten we dit illustreren met een voorbeeld. We zouden een meer specifieke vorm van descriptieve norm kunnen definieren, en die zouden we “waargenomen gedrag van de algemene bevolking” kunnen noemen. Omdat dit construct al relatief specifiek is gedefinieerd, zou de operationalisatie van dit construct dicht in de buurt kunnen blijven van de definitie. In dit geval kunnen we bijvoorbeeld stellen dat dit construct kan worden gemeten door een doelgedrag te kiezen, en ongeveer de volgende vraag te stellen: “Hoe waarschijnlijk denk je dat het is dat mensen in de algemene bevolking [DOELGEDRAG]...”, met vijf antwoordopties met als linker anker “Heel onwaarschijnlijk” en als rechter anker “heel waarschijnlijk”, waarbij [DOELGEDRAG] moet worden vervangen door het doelgedrag. Als doelgedrag kiezen we elke week een ijsje eten. Op basis van deze definitie van het doelconstruct en deze operationalisatie ontwikkelen we het volgende meetinstrument:

Hoe waarschijnlijk denk je dat het is dat mensen in de algemene bevolking elke week een ijsje eten? Heel onwaarschijnlijk 🔾 🔾 🔾 🔾 🔾 Heel waarschijnlijk

Als we nu vertrouwen willen hebben in de validiteit van dit meetinstrument, moeten we een hier een responsmodel bij hebben: we moeten een idee hebben van hoe het meetinstrument werkt. Als iemand wordt blootgesteld aan dit een-item-meetinstrument, wat gebeurt er dan waardoor we er vanuit gaan dat het doelconstruct “waargenomen gedrag van de algemene bevolking” de score op het meetinstrument bepaalt, oftewel, bepaalt welke respons wordt geregisteerd?

In dit geval kan dat idee bijvoorbeeld zijn dat mensen de vraag en de ankers bij de antwoordopties lezen; dat ze deze informatie verwerken, en dan voor zichzelf een inschatting maken van hoe waarschijnlijk ze denken dat het is dat mensen in de algemene bevolking elke week een ijsje eten. Vervolgens proberen ze te bepalen welk van de antwooropties correspondeert met die waarschijnlijkheid, en kruisen ze die aan.

Dit responsmodel maakt het mogelijk om beter na te denken over de validiteit van dit meetinstrument. Als dit meetinstrument valide is, dan moet het volgende het geval zijn:

  • Als een persoon wordt blootgesteld aan het meetinstrument verwerkt die persoon de gepresenteerde stimuli.
  • Dit start een proces waarbij die persoon een inschatting maakt.
  • De inschatting waar diegene toe komt wordt bepaald door het doelconstruct.
  • Als een inschatting is geproduceerd, zoekt die persoon de responsoptie waarmee ze die inschatting het beste kunnen aangeven.
  • De responsoptie wordt vervolgens ingevuld.

Hierin is de middelste voorwaarde, dat het doelconstruct de inschatting bepaalt, nog het minst duidelijk gedefinieerd. Dat komt in dit geval deels omdat het bewust een heel rudimentair voorbeeld is. Bij het construeren van dit voorbeeld, en het opstellen van het responsmodel, heb ik bijvoorbeeld geen rekening gehouden met de literatuur over hoe mensen nadenken over kansen (Cosmides & Tooby, 1996; zie bijvoorbeeld Gigerenzer, 1996; Hoffrage, 2002). Dat betekent dat dit specifieke responsmodel zomaar eens onrealistisch zou kunnen zijn gegeven wat eigenlijk al bekend is over hoe mensen tot een respons zouden komen bij dit soort vragen.

Ook als een realistisch responsmodel wordt opgesteld, en dus onze meer fundamentele kennis over de menselijke psychologie, cognitie, het geheugen, informatieverwerking, en eventuele biases wordt betrokken in het opstellen van het responsmodel, ook dan blijven er vaak minder duidelijk omschreven stappen. De menselijke psychologie is geen machine, en we is nog heel veel meer dat we niet goed begrijpen dan we wel begrijpen (zie ook hoofdstuk Constructen). Naarmate er meer onderzoek wordt gedaan neemt ons begrip langzaam toe, en kunnen responsmodellen, en dus de validiteit van onze meetinstrumenten, worden verbeterd. Methoden zoals de Response Process Evaluation Method (Wolf et al., 2019) kunnen hierbij helpen.

10.6 Responspatronen

Als het responsmodel duidelijk is, is het mogelijk om per item het verwachte responspatroon te bepalen. Omdat responsen vaak worden gerepresenteerd op een continue schaal (meestal als getallen; zie hoofdstuk Datasets) hebben die responspatronen vaak de vorm van een verdeling (zie hoofdstuk Verdelingen).

Bij sommige items is de verwachting dat het responspatroon de normale verdeling benaderd; bij andere items is de verwachting dat de responsen scheef zijn verdeeld, of uniform zijn. Deze verwachte responspatronen per item zijn nodig om bij toepassing van het meetinstrument in te schatten of de validiteit is geschonden. De responspatronen die in een steekproef worden gevonden kunnen dan worden vergeleken met de verwachte responspatronen.

10.6.1 Verdelingsvormen van items zonder responsmodel

Wat nu als je geen reden hebt om bepaalde aannames te maken over verdelingsvormen van je items? In dat geval heb je dus geen manieren om verdelingen van items te beoordelen. Alle verdelingen zijn dus ‘goed’. Dit betekent dat je items kunt selecteren op verdelingsvorm: mocht je bijvoorbeeld willen dat alle items normaal zijn verdeeld, en je hebt meerdere items tot je beschikking die hetzelfde meten, dan kun je uit die set items met linksscheve of rechtsscheve verdelingen verwijderen. Deze luxe heb je echter niet altijd: een initiële itempool bevat lang niet altijd meerdere items die hetzelfde meten.

Als er geen duidelijk responsmodel is wordt de vraag hoe je dan aan de verdeling van een item kunt zien of het meetinstrument werkt zoals het moet werken in een gegeven populatie en context. In de vorige alinea bleek dat dit tijdens de ontwikkeling niet veel uitmaakt: er is kennelijk geen goed of fout antwoord, dus elke verdelingsvorm is goed.

Maar als het meetinstrument eenmaal is ontwikkeld willen mensen het gebruiken. En dat kan niet zomaar: eerst moet in een gegeven populatie en context worden gecontroleerd of het meetinstrument daar wel werkt zoals het moet werken: of het wel valide is (zie sectie “Validiteit gaat over één studie” hieronder). Dat vereist toepassing van het meetinstrument in die populatie en context, waarna de verdelingsvormen van items kunnen worden bestudeerd. Die kunnen dan worden vergeleken met de verdelingen zoals ze zouden moeten zijn.

Hoe weten onderzoekers hoe de scores op elk item verdeeld moeten zijn, zonder responsmodel?

Het enige waar ze op af kunnen gaan zijn dan de verdelingen van de items tijdens de ontwikkeling van het meetinstrument. Als tijdens de validatie een item linksscheef is verdeeld, en in de populatie en context waar een onderzoeker het meetinstrument wil toepassen is het opeens normaal verdeeld, dan kan dat informatief zijn over twee dingen:

  • de deelnemers
  • de manier waarop het meetinstrument werkt

Als het meetinstrument goed werkt, is het informatief over de deelnemers. Maar afwijkende verdelingen kunnen ook evidentie zijn dat het meetinstrument niet goed werkt: in andere woorden, dat het meetinstrument niet valide is. Welke van de twee het geval is, is moeilijk te bepalen zonder meer informatie over het responsmodel.

Als verdelingen afwijken is er in zulke situaties geen eenvoudige oplossing. De onderzoekers kunnen er dan in elk geval niet meer vanuit gaan dat dat meetinstrument te gebruiken is in de populatie en context die ze willen onderzoeken. Als de verdeling van de scores maar afwijken voor één item uit een set van tientallen items in een meetinstrument, is het effect op de geaggregeerde score maar heel klein (tenzij dat item tijdens de aggregatie een hoog gewicht krijgt), en als bijna alle items afwijken, is de kans dat het meetinstrument valide is waarschijnlijk klein.

In de praktijk zullen tussenliggende situaties het meest voorkomen. Als in zo’n geval de onderzoekers besluiten om het meetinstrument in te zetten, is het belangrijk dat ze goed onderbouwen waarom ze ondanks de afwijkende verdelingen overtuigd zijn dat het meetinstrument valide is voor de populatie en context van de studie die ze willen doen.

Dit vereist dat de verdelingen van de itemscores goed worden gedocumenteerd door de onderzoekers die het meetinstrument ontwikkelen. Idealiter gaat dit vergezeld van een procedure die andere onderzoekers in staat stelt om te bepalen of de verdelingen van de scores op de items in hun populatie en context voldoende overeenkomen met de oorspronkelijke verdelingen.

10.7 Verbanden tussen items en interne consistentie

Als de items in een meetinstrument werken zoals ze moeten werken, is dat niet alleen te zien aan de responspatronen per item, maar ook aan verbanden tussen de responsen op de items. Deze vertonen ook patronen die geïnspecteerd kunnen worden om te kijken of die in een gegeven steekproef voldoende overeenkomen met de verwachte verbanden.

Dit kan bijvoorbeeld door de zogenaamde correlatiematrices te vergelijken. Dit zijn tabellen die de geobserveerde correlaties tussen alle items tegelijkertijd tonen. Omdat correlaties uit een steekproef puntschattingen zijn, en daardoor niet informatief (zie hoofdstuk Steekproevenverdelingen), bevatten correlatiematrices meestal bovendien de ondergrens en bovengrens van de bijbehorende betrouwbaarheidsintervallen (zie hoofdstuk Betrouwbaarheidsintervallen).

Bij sommige meetmodellen is het bovendien mogelijk om op basis van die correlatiematrix een aantal aggregaten te berekenen om schattingen van de interne consistentie in één getal samen te vatten. Deze worden verder besproken in hoofdstuk Validiteit Schatten en Verhogen.

Ook bij verbanden tussen items geldt dat onderzoekers die een meetinstrument willen gebruiken in staat moeten zijn om te bepalen of die verbanden tussen items in hun populatie en context consistent zijn met een goed werkend meetinstrument (i.e. een meetinstrument dat in die populatie en context valide toegepast kan worden).

Zoals altijd geldt ook hier dat puntschattingen niet informatief zijn (zie hoofdstukken Steekproevenverdelingen en Betrouwbaarheidsintervallen). De observaties uit de steekproef of steekproeven die zijn gebruikt voor het validatieonderzoek zijn deels tot stand gekomen door toeval, en de correlatiecoëfficiënten zullen dus van steekproef tot steekproef verschillen.

Onderzoekers die een meetinstrument willen toepassen zullen dus nooit precies dezelfde verbanden vinden. Tijdens de validatie van een meetinstrument moeten onderzoekers daarom de correlaties en betrouwbaarheidsintervallen rapporteren die ze vonden. Wederom gaat dit idealiter gepaard van richtlijnen die andere onderzoekers in staat stellen om te bepalen of de correlaties die zij vinden consistent zijn met valide toepassing of niet.

Met andere woorden: als een meetinstrument wordt gevalideerd, hebben de onderzoekers die die validatie uitvoeren de verantwoordelijkheid om duidelijk aan te geven binnen welke bandbreedte die validatie opgaat. Stel je bijvoorbeeld voor dat een meetinstrument de volgende twee items bevat:

Vakanties plannen vind ik… Vreselijk 🔾 🔾 🔾 🔾 🔾 Fantastisch
Ik maak… Nooit boodschappenlijstjes 🔾 🔾 🔾 🔾 🔾 Altijd boodschappenlijstjes

Als dit meetinstrument grondig is gevalideerd is er een responsmodel beschikbaar zodat duidelijk is hoe het meetinstrument werkt. Als de onderzoekers die het meetinstrument valideerden niet weten hoe het meetinstrument werkt, moeten ze op zijn minst de betrouwbaarheidsintervallen voor de correlaties tussen de items rapporteren.

In het eerste geval kan het bijvoorbeeld zo zijn dat het responsmodel voorspelt dat deze twee items ongeveer een kwart van elkaars variantie voorspellen, oftewel \(r^2 = 25\% = .25\), en \(\sqrt{r^2} = r\), dus \(\sqrt{.25} = r = .5\) (zie paragraaf “De proportie verklaarde variantie” in hoofdstuk Correlaties).

In het tweede geval zijn er geen theoretische voorspellingen beschikbaar, en is de slechts de correlatie die de onderzoekers aantroffen in hun steekproef of steekproeven. In dat geval rapporteren ze bijvoorbeeld een \(95\%\) betrouwbaarheidsinterval voor die correlatie van \(r = [.46; .53]\). De breedte van dat betrouwbaarheidsinterval is een functie van zowel de geobserveerde correlatie als de steekproef die de onderzoekers gebruikten, en die breedte is dus in zekere zin deels arbitrair.

De onderzoekers die het meetinstrument valideren moeten zich vervolgens afvragen welke mogelijke correlaties evidentie zijn dat het meetinstrument niet meer naar behoren werkt. Als een andere onderzoeker wil weten of zij dat meetinstrument kan gebruiken in een andere populatie, bijvoorbeeld niet in de algemene populatie maar bij zorgmedewerkers, en deze onderzoeker vindt in haar voorbereidende studies een \(95\%\) betrouwbaarheidsinterval van \(r = [.38; .44]\), hoe erg is dat dan?

10.7.1 Instructies voor toepassing

De onderzoekers die het meetinstrument valideren moeten aangeven waar ze vinden dat de grenzen liggen van valide toepassing, zodat andere onderzoekers de vereiste zorgvuldigheid kunnen betrachten als ze overwegen het meetinstrument te gaan gebruiken.

Zo’n richtlijn kan er bijvoorbeeld als volgt uitzien:

Om te onderzoeken of dit meetinstrument valide toegepast kan worden in een populatie of context kan het meetinstrument worden toegepast in een pilot-steekproef van \(219\) deelnemers, zodat \(95\%\) betrouwbaarheidsintervallen van de juiste breedte kunnen worden opgesteld.

Omdat ons meetinstrument \(10\) items heeft, zijn er \(45\) correlaties tussen die items. Het meetinstrument kan valide worden toegepast als alle betrouwbaarheidsintervallen voor de correlaties die wij rapporteerden overlappen met de betrouwbaarheidsintervallen die worden gevonden in de pilot-steekproef. Er kan niet op vertrouwd worden dat het meetinstrument valide kan worden toegepast in een gegeven steekproef en context als meer dan \(5\) (ongeveer \(10\%\)) van de betrouwbaarheidsintervallen niet overlappen.

Als reeds een grotere steekproef dan \(400\) deelnemers beschikbaar is, selecteer dan willekeurig \(219\) deelnemers alvorens de betrouwbaarheidsintervallen te berekenen, of verhoog het betrouwbaarheidsniveau van de betrouwbaarheidsintervallen zodanig dat totale breedte van een betrouwbaarheidsinterval voor een correlatie van \(r = .5\) gelijk is aan \(.2\) (dus met een foutenmarge van \(.1\)).

In sommige gevallen stellen de onderzoekers vast dat alle correlaties tussen alle items hetzelfde zijn. Dit kan als het meetmodel dit voorspelt, of als zij dit observeren in de steekproef of steekproeven die worden gebruikt tijdens de ontwikkeling en validatie van het meetinstrument.

In dat geval hoeven niet alle correlaties tussen alle item-paren te worden bekeken, maar kunnen de onderzoekers volstaan met het berekenen van de gemiddelde item-item-correlatie. Dit kan efficiënt worden berekend door Coëfficiënt Alpha te berekenen: zie hiervoor paragraaf “Coëfficiënt Alpha” in hoofdstuk “Betrouwbaarheid”.

Tussenvormen zijn ook mogelijk: er kunnen bijvoorbeeld clusters items zijn die onderling even sterk zouden moeten correleren.

De instructies om vast te stellen of een meetinstrument valide kan worden toegepast kunnen allerlei vormen aannemen. Het belangrijkste is dat ze worden gespecificeerd als het meetinstrument wordt ontwikkeld. De ontwikkelaars begrijpen het meetinstrument immers het beste, en als zij zulke instructies niet specificeren, kunnen andere onderzoekers nooit bepalen of zij dat meetinstrument ook kunnen gebruiken.

10.8 Latente constructen

Afhankelijk van het meetmodel kan het zijn dat de responspatronen op de items van een meetinstrument veroorzaakt worden door één of meerdere latente constructen. Dat manifesteert zich dan in patronen in de correlatiematrix. Die zijn met het blote oog niet goed te zien, maar er bestaan analysemethoden om die overzichtelijker in kaart te brengen: factor-analyses. Er zijn twee soorten: exploratieve factor-analyse en confirmatieve factor-analyse.

Bij meetmodellen waarbij wordt verondersteld dat de responspatronen veroorzaakt worden door een of meerdere latente constructen is factor-analyse vaak sowieso al gebruikt om te bepalen hoe de responsen op de items kunnen worden geaggregeerd (zie hoofdstuk Constructen Meten). Bij elke nieuwe toepassing van het meetinstrument moet factor-analyse dan weer worden gebruikt om te verifiëren of de patronen zijn zoals verwacht (zie hoofdstuk Validiteit Schatten en Verhogen en Crutzen & Peters, 2017).

10.9 Convergentie en divergentie

Net zoals dat verbanden tussen items binnen het meetinstrument kunnen worden bekeken om die te toetsen aan de verwachting, kunnen ook verbanden met uitkomsten van andere meetinstrumenten worden vergeleken. Als er bijvoorbeeld een ander meetinstrument is dat hetzelfde meet, dan zouden de scores op beide meetinstrumenten sterk moeten samenhangen. En als de scores op een meetinstrument sterk samenhangen met de scores op een ander meetinstrument dat iets volledig ongerelateerds meet, dan is dat een indicatie dat er wellicht iets mis is met de validiteit.

Als de scores op een meetinstrument sterk samenhangen met de scores op een ander meetinstrument waarbij dat ook volgens verwachting is, wordt dat wel evidentie voor “convergente validiteit” genoemd. Omgekeerd wordt wel gesteld dat er evidentie voor “divergente validiteit” is als de scores op een meetinstrument niet samenhangen met de scores op een ander meetinstrument dat iets ongerelateerds meet.

Deze verbanden met andere meetinstrumenten kunnen zowel worden bekeken voor de responsen per item, als voor geaggregeerde responsen. Het meetmodel bepaalt of het logischer is om naar de geaggregeerde responsen te kijken of naar de responsen per item. Bij een meetmodel waarbij wordt veronderstelt dat alle items precies hetzelfde meten, is het logisch om naar het aggregaat te kijken, terwijl bij een meetmodel waarbij de items iets anders meten, zoals een formatief model of een meetmodel waarbij clusters van items steeds iets anders meten, het logischer is om per item te kijken.

Ook hier geldt dat er soms geen meetmodel voorhanden is, en in dat geval geldt weer dat in plaats daarvan de verbanden worden gebruikt die zijn geobserveerd tijdens de ontwikkeling en validatie van het meetinstrument.

10.9.1 Overlap in items bij convergentie

Soms is convergentie triviaal omdat meetinstrumenten bijna dezelfde items bevatten. In zo’n geval is het specificeren van gewenste convergentie met zo’n meetinstrument niet zinnig.

Een voorbeeld is een meetinstrument dat meet of iemand op dat moment stress ervaart, en negatief affect zoals gemeten met de Positief en Negatief Affect Schaal. Deze laatste bevat onder andere de items “Voelt u zich momenteel gejaagd” en “Voelt u zich momenteel gespannen”.

In het responsmodel van deze twee items is het plausibel dat stress een rol speelt: als mensen stress ervaren, is het waarschijnlijk dat ze zich gejaagd en gespannen voelen.

Deze twee items meten dus niet een ander construct dat zou moeten samenhangen met het doelconstruct (of iemand stress ervaart), maar meten deels hetzelfde. Convergentie is dus triviaal, en niet informatief over de validiteit van het meetinstrument.

Het is daarom belangrijk om altijd de items van meetinstrumenten goed te bestuderen, zodat meetinstrumenten die (bijna) hetzelfde construct meten buiten beschouwing gelaten kunnen worden.

10.9.2 Instructies voor toepassing

En ook hier geldt weer dat het de verantwoordelijkheid is van de onderzoekers die het meetinstrument ontwikkelen en valideren om duidelijke instructies te geven om vast te stellen of een meetinstrument valide kan worden toegepast in een populatie en context. Hieronder een voorbeeld van hoe zo’n richtlijn eruit kan zien:

Om te onderzoeken of dit meetinstrument valide toegepast kan worden in een populatie of context kan het meetinstrument worden toegepast in een pilot-steekproef van \(219\) deelnemers, zodat \(95\%\) betrouwbaarheidsintervallen van de juiste breedte kunnen worden opgesteld. In die pilot-steekproef dienen bovendien de volgende meetinstrumenten te worden toegepast:

  • De Dutch Boredom Scale
  • De Neiging tot Nadenken Schaal
  • Alle vijf de schalen van de Nederlandse Big Five Inventory (BFI)

Het meetinstrument kan valide worden toegepast als alle betrouwbaarheidsintervallen voor de correlaties die wij rapporteerden met deze zeven meetinstrumenten overlappen met de betrouwbaarheidsintervallen die worden gevonden in de pilot-steekproef. Er kan niet op vertrouwd worden dat het meetinstrument valide kan worden toegepast in een gegeven steekproef en context als twee of meer van de betrouwbaarheidsintervallen niet overlappen.

Als reeds een grotere steekproef dan \(400\) deelnemers beschikbaar is, selecteer dan willekeurig \(219\) deelnemers alvorens de betrouwbaarheidsintervallen te berekenen, of verhoog het betrouwbaarheidsniveau van de betrouwbaarheidsintervallen zodanig dat totale breedte van een betrouwbaarheidsinterval voor een correlatie van \(r = .5\) gelijk is aan \(.2\) (dus met een foutenmarge van \(.1\)).

Dit is slechts een voorbeeld. De instructies om vast te stellen of een meetinstrument valide kan worden toegepast kunnen allerlei vormen aannemen. Het belangrijkste is dat ze worden gespecificeerd als het meetinstrument wordt ontwikkeld. De ontwikkelaars begrijpen het meetinstrument immers het beste, en als zij zulke instructies niet specificeren, kunnen andere onderzoekers nooit bepalen of zij dat meetinstrument ook kunnen gebruiken.

10.10 Geschiedenis: criterium, content, en construct-validiteit

Oorspronkelijk was “validiteit” van psychologische meetinstrumenten een eenvoudig concept: het was de mate waarin het meetinstrument de prestaties op een gegeven taak voorspelden (Kane, 2013). Die taak was het criterium, en het doel van die meetinstrumenten was ook alleen om die prestaties te voorspellen, zonder dat er noodzakelijkerwijs een psychologisch construct bij hoorde. Omdat dit model eenvoudig en objectief was, was criteriumvaliditeit rond het midden van de twintigste eeuw de gouden standaard geworden om validiteit te bepalen.

Het was echter ook een zeer beperkt toepasbaar model. Langzaam ontstonden er ook meetinstrumenten die niet alleen de prestaties op een specifieke taak probeerden te voorspellen, maar voor een heel domein, zoals academische prestaties. Prestaties op meerdere taken kunnen voorstellen met een enkel meetinstrument is vaak handiger dan voor elke taak een apart meetinstrument moeten ontwikkelen en gebruiken. In die situaties ging de eenvoudige, objectieve link met een criterium echter niet langer op.

Daarom werd voor zulke situaties in eerste instantie gebruik gemaakt van wat contentvaliditeit (of inhoudsvaliditeit) werd genoemd. Dit was simpelweg een inschatting van of de inhoud van een meetinstrument (dus de stimuli in het meetinstrument) het betreffende domein voldoende afdekten. Hiervoor werden groepen experts in dat domein ingeschakeld (Kane, 2013).

In de jaren vijftig van de twintigste eeuw wilden psychologen ook de validiteit van meetinstrumenten voor psychologische constructen in kaart kunnen brengen. Hiervoor bestonden geen criteria, en bovendien was het niet mogelijk om een groep experts in te schakelen die de inhoud van een meetinstrument konden beoordelen. Toen is een derde manier om validiteit in te schatten voorgesteld: de constructvaliditeit (Cronbach & Meehl, 1955).

In deze benadering worden de rol van een construct in een theorie en de validiteit van dat construct tegelijk beoordeeld. Het idee van constructvaliditeit is dat als een construct wordt gedefinieerd in een theorie, dat altijd gepaard gaat met de specificatie van de rol van dat construct in de menselijke psychologie. De theorie definieert dus al een model om de validiteit van een meetinstrument voor dat construct te bepalen.

Als uit metingen met het meetinstrument blijkt dat de voorspellingen van de theorie kloppen, is dat evidentie voor zowel de theorie als de validiteit van het meetinstrument. Omgekeerd betekent het dat als die voorspellingen niet kloppen, er iets niet klopt; het meetinstrument is niet valide, de theorie klopt niet, of een andere aanname die nodig was in de studie klopte niet.

Dit bleek echter ook geen goede oplossing. Het model van construct-validiteit, waarbij wordt gesteld dat validiteit niet is of een meetinstrument meet wat het moet meten, maar dat validiteit een functie is van de beschikbare evidentie, blijkt te kunnen resulteren in situaties waarin een meetinstrument dat duidelijk niet valide is, toch valide wordt bevonden (Borsboom et al., 2009). Bovendien bleek in de praktijk dat onderzoekers construct-validiteit niet gebruiken zoals het is ontworpen: in plaats daarvan wordt vaak volstaan met het postuleren van een aantal correlaties die dan worden bekeken. Bovendien waren er door de jaren heen nog meer vormen van validiteit geopperd, waarvan we er hier drie zullen noemen:

  • face validity oftewel “gezichtsvaliditeit” is de mate waarin een meetinstrument zo op het oog valide lijkt;
  • concurrent validiteit is een vorm van criteriumvaliditeit, en verwijst naar de samenhang tussen meetinstrument-scores en het criterium als deze tegelijkertijd worden gemeten.
  • predictieve validiteit is ook een vorm van criteriumvaliditeit, en verwijst naar de samenhang tussen meetinstrument-scores en het criterium als dat laatste later in de tijd is gemeten gemeten. Predictieve validiteit wordt ook vaak gebruikt als niet naar het criterium wordt gekeken in de oorspronkelijke betekenis, maar naar een variabele die men graag wil voorspellen.

In 1999 hebben de American Educational Research Association, de American Psychological Association, en het (ook Amerikaanse) National Council on Measurement in Education aan deze wildgroei een eind gemaakt in hun Standards for Educational and Psychological Testing (AERA et al., 1999, 2014). Ze stelden daar expliciet dat er maar één validiteit bestaat. Wel onderscheiden ze nog meerdere bronnen van deze validiteit, hoewel ze verre bleven van de historische namen die deze hadden gekregen.

Het model van validiteit dat in dit hoofdstuk is besproken is gebaseerd op Borsboom, Mellenbergh en van Heerden (2004). Hun causale model, dat stelt dat validiteit vereist dat de scores op het meetinstrument (de responsen) worden bepaald door het te meten construct, is heel bruikbaar om over validiteit na te denken. Het dwingt je om een heldere definitie te formuleren, goed na te denken over de operationalisatie en hoe je die kunt meten, en heel belangrijk: het stelt het responsmodel centraal. Dat responsmodel is waar je in de praktijk naar kijkt als je evidentie voor validiteit produceert: de univariate en bivariate verdelingen. Bovendien kan de Response Process Evaluation Method worden gebruikt om de validiteit op item-niveau te onderzoeken (Wolf et al., 2019).

Een ander populair model van validiteit is het model van Kane (2013) dat op argumenten is gebaseerd. Dit model is pragmatischer dan dat van Borsboom et al., en stelt dat conclusies over validiteit gebaseerd moeten zijn op een systeem van “als-dan” stellingen die je opstelt over een meetinstrument. Dit betekent dat je minder afhankelijk bent van begrip van het construct dat je wil meten. Dat is tegelijkertijd een nadeel: je hebt minder houvast. Bovendien is het opstellen van een “Interpretation/Use Argument” of een IUA niet eenvoudig. Deze vereist vaak een netwerk of opeenvolging van inferenties, waarbij geen validiteit meer geclaimed kan worden als een van die inferenties niet conform voorspelling verloopt. Dit model wordt verder dus niet gevolgd.

10.11 Validiteit gaat over één studie

Het is verleidelijk om validiteit te zien als een kenmerk van een bepaald meetinstrument, een bepaalde manipulatie, of een bepaalde procedure. Helaas is validiteit (net als betrouwbaarheid, zie hoofdstuk Betrouwbaarheid) iets dat van steekproef tot steekproef kan verschillen.

Dit is het makkelijkst uit te leggen aan de hand van meetinstrumenten. Neem bijvoorbeeld deze vragenlijst die gebruikt kan worden om iemands attitude tegenover het eten van een ijsje te meten:

Voor mij is het eten van een ijsje… Heel slecht 🔾 🔾 🔾 🔾 🔾 Heel goed
Voor mij is het eten van een ijsje… Heel onprettig 🔾 🔾 🔾 🔾 🔾 Heel prettig

Deze vragenlijst kan worden ontwikkeld en onderzocht met een steekproef van studenten van de Open Universiteit en hun kennissen en vrienden. Laten we er vanuitgaan dat dit allemaal goed wordt uitgevoerd en dat er goede redenen zijn om aan te nemen dat deze twee vragen een valide meting opleveren van de attitude tegenover het eten van een ijsje.

Maakt dat het meetinstrument valide? Jammer genoeg niet. Het meetinstrument is niet in de algemene bevolking onderzocht; studenten van de Open Universitiet (of een andere universiteit) zijn niet representatief voor de algemene bevolking, en hun kennissen en vrienden ook niet. Is het meetinstrument dan valide voor studenten van de Open Universiteit en hun kennissen en vrienden? Ook niet.

Het meetinstrument was kennelijk valide in de steekproef waar het is onderzocht. Echter, die steekproef is deels door toeval tot stand gekomen. Het kan zijn dat die steekproef toevallig niet representatief was. Deze zorg is weg te nemen door in een validatiestudie meerdere onafhankelijke steekproeven te nemen. De kans dat drie of vier steekproeven alle drie toevallig uitzonderlijk zijn, is verwaarloosbaar. Is het meetinstrument dan valide voor studenten van de Open Universiteit en hun kennissen en vrienden? Nog steeds niet.

Wél kan inmiddels worden gesteld dat het meetinstrument waarschijnlijk valide zal zijn in steekproeven van studenten van de Open Universiteit en hun kennissen en vrienden, in de nabije toekomst. Tijd is belangrijk omdat dit specifieke voorbeeld gebruik maakt van taal, en taal verandert over tijd. De toevoeging “waarschijnlijk” is belangrijk omdat ook een toekomstige steekproef toevallig vreemd in elkaar kan zitten, waardoor dit meetinstrument in die steekproef toevallig niet valide is.

Verder zal de validiteit van het meetinstrument lager zijn (of misschien praktisch afwezig) als het wordt toegepast in een steekproef uit een andere populatie, bijvoorbeeld in de algemene populatie. Als de steekproef uit een populatie komt waar geen Nederlands wordt gesproken, zal de validiteit waarschijnlijk ook verdwijnen. De validiteit wordt vermoedelijk al aangetast als uitsluitend bijvoorbeeld Belgische studenten van de Open Universiteit en hun kennissen en vrienden worden onderzocht: Nederlands wordt anders gebruikt in Vlaanderen dan in Nederland.

Elke keer dat een meetinstrument wordt toegepast, heeft die toepassing een gegeven validiteit en betrouwbaarheid. In elk studie is het dus nodig om die te schatten om te verifiëren of ze voldoende hoog zijn. Er zijn geen meetinstrumenten die altijd goed werken, dus soms zal dat niet het geval zijn, en in zulke situaties kunnen de scores niet beschouwd worden als informatief over de corresponderende doelconstructen.

Ditzelfde geldt voor de validiteit van manipulaties en procedures. Deze moet in elke studie worden geverifieerd voordat het zinnig is om de geplande hoofdanalyses uit te voeren. Eens in de zoveel tijd zal blijken dat er iets fout ging. De volgende dingen kunnen fout gaan bij een studie met betrekking tot de interne validiteit:

  • Een meetinstrument is niet valide, waardoor de gemeten data geen informatie geven over het corresponderende doelconstruct (of ook over andere constructen terwijl dat niet de bedoeling is);
  • Een manipulatie is niet valide, waardoor het doelconstruct niet is beïnvloedt (of andere constructen ook zijn beïnvloedt, terwijl dat niet de bedoeling is);
  • De procedure is niet uitgevoerd zoals het de bedoeling was, waardoor het studie-ontwerp is aangetast.

Schendingen van de interne validiteit zijn meestal niet op te lossen. In zo’n geval verschuift daarom de aandacht van de onderzoeker. De geplande hoofdanalyses zijn niet langer interessant en hoeven niet meer uitgevoerd te worden. Wat des te interessante is, is wat er fout is gegaan. Het is heel belangrijk om te evalueren en te proberen te ontdekken hoe de volgende keer voorkomen kan worden dat diezelfde fouten worden gemaakt.

Als een meetinstrument of een manipulatie niet valide bleek, kan dat bijvoorbeeld betekenen dat het instrumentarium dat in de studie is gebruikt (dus de meetinstrumenten en manipulaties) nog niet klaar waren voor toepassing in een studie. In zo’n geval is eerst meer onderzoek nodig om te zorgen dat het instrumentarium op orde is; dit is te vergelijken met een scheikundige die ontdekt dat een thermometer het niet goed doet, waardoor het niet mogelijk is om onderzoek te doen naar de temperatuur waarbij een bepaade reactie plaatsvindt.

Als het studie-ontwerp niet goed is uitgevoerd, kan het zijn dat de procedures moeten worden herzien. Is de randomisatie van deelnemers niet goed uitgevoerd? Ging er iets fout in de communicatie met deelnemers? Werkte hardware of software niet goed?

Omdat schendingen van de interne validiteit fataal zijn, en dus kostbaar als deze pas achteraf aan het licht komen, is het belangrijk om alle aspecten van een studie van te voren grondig te testen. Dit wordt gedaan in zogenaamd pilot-onderzoek. Hier wordt dieper op ingegaan in hoofdstuk Ontwerpen.

Omdat het zo belangrijk is dat het instrumentarium op orde is, is het eerder regel dan uitzondering dat onderzoekers, of studenten tijdens het bachelor- of masterthese-traject, nog helemaal niet kunnen onderzoeken waar ze eigenlijk in geïnteresseerd zijn. Vaak zijn eerst andere studies nodig om dat instrumentarium te ontwikkelen, controleren, en optimaliseren.

Referenties

AERA, APA, & NCEM. (1999). Standards for Educational and Psychological Testing. American Educational Research Association.
AERA, APA, & NCEM. (2014). Standards for Educational and Psychological Testing. American Educational Research Association.
Borsboom, D., Cramer, A. O. J., Kievit, R. A., Scholten, A. Z., & Franić, S. (2009). The end of construct validity. In The concept of validity: Revisions, new directions, and applications (pp. 135–170). IAP Information Age Publishing.
Borsboom, D., Mellenbergh, G. J., & Heerden, J. van. (2004). The Concept of Validity. Psychological Review, 111(4), 1061–1071. http://um0122.unimaas.nl:9003/sfx_local?sid=SP:PSYI&genre=article&atitle=The Concept of Validity.&title=Psychological-Review&isbn=&issn=0033-295X&date=2004&volume=111&issue=4&spage=1061&pid=%3CAN%3E2004-19012-010%3C/AN%3E%3CAU%3EBorsboom,-Denny%7C$%7CMell
Cosmides, L., & Tooby, J. (1996). Are humans good intuitive statisticians after all? Rethinking some conclusions from the literature on judgment under uncertainty. Cognition, 58(1), 1–73. https://doi.org/10.1016/0010-0277(95)00664-8
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–302. https://doi.org/10.1037/h0040957
Crutzen, R., & Peters, G.-J. Y. (2017). Scale quality: Alpha is an inadequate estimate and factor-analytic evidence is needed first of all. Health Psychology Review, 11(3). https://doi.org/10.1080/17437199.2015.1124240
Fishbein, M., & Ajzen, I. (2010). Predicting and Changing Behavior: The Reasoned Action Approach. Taylor & Francis Group.
Gigerenzer, G. (1996). Why do frequency formats improve Bayesian reasoning? Cognitive algorithms work on information, which needs representation. Behavioral and Brain Sciences, 19(01), 23. https://doi.org/10.1017/S0140525X00041248
Hoffrage, U. (2002). Representation facilitates reasoning: What natural frequencies are and what they are not. Cognition, 84(3), 343–352. https://doi.org/10.1016/S0010-0277(02)00050-1
Kane, M. (2013). The Argument-Based Approach to Validation. School Psychology Review, 42(4), 448–457. https://doi.org/10.1080/02796015.2013.12087465
Wolf, M. G., Ihm, E. D., Maul, A., & Taves, A. (2019). Survey Item Validation [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/k27w3

  1. Hoewel je vaak wel zelf data toevoegt in een databestand om aan te geven of deelnemers een manipulatie ontvingen.↩︎

  2. Tenzij ontspanning volgens de definitie van het doelconstruct (vrolijkheid) deel uitmaakt van dat doelconstruct. Zie voor meer achtergrond hoofdstuk Constructen.↩︎

  3. Belangrijk in deze definitie is de causaliteit: validiteit is geen uitspraak over verbanden, maar over causaliteit.↩︎

  4. hier komt nog veel meer bij kijken; zie voor details (Fishbein & Ajzen, 2010)↩︎