Hoofdstuk 6 Constructen meten

In dit hoofdstuk wordt besproken:
  • Operationaliseren versus meten
  • Items
  • Validiteit en betrouwbaarheid
  • Meetmodellen
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspractium cross-sectioneel onderzoek (PB0812)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Wetenschap
  • Psychologie
  • Stimuli
  • Constructen

6.1 Inleiding

Omdat de menselijke psychologie niet rechtstreeks onderzocht kan worden, worden constructen gedefinieerd die dan vervolgens gemeten kunnen worden (zie hoofdstukken Psychologie, Stimuli, en Constructen).

6.2 Operationaliseren versus meten

Dit proces bestaat uit twee stappen. De eerste stap is operationalisatie van het construct: het specificeren van een of meer dingen die wél rechtstreeks gemeten kunnen worden die informatief zijn voor het construct. De tweede stap is het selecteren of ontwikkelen van een meetinstrument om die operationalisatie te meten. Een gegeven construct met een gegeven definitie kan dus meerdere operationalisaties hebben; en voor een gegeven operationalisatie kunnen meerdere meetinstrumenten bestaan.

Temperatuur, bijvoorbeeld, kun je operationaliseren als “het volume van kwik”. Dit kun je vervolgens meten door een bepaalde hoeveelheid kwik in een dun buisje te stoppen, zodat je kunt zien of de kwik uitzet. Je hebt dan een meetinstrument gemaakt voor die specifieke operationalisatie van temperatuur. Omdat je de afmetingen van je buisje kent, weet je voor een gegeven niveau van kwik hoeveel volume dat is. Je kunt nu bepaalde volumes definiëren als bepaalde temperaturen: je kunt bijvoorbeeld het buisje in water laten zakken, en als het water kookt, besluiten dat het volume dat het kwik op dat moment inneemt staat voor 100 graden. Of 212 graden (de Fahrenheit schaal). Of 373.2 graden (Kelvin).

Je had ook een andere operationalisatie kunnen kiezen - bijvoorbeeld “het volume van alcohol”. Het volume van alcohol als het de temperatuur heeft waarbij water kookt is echter anders dan het volume van kwik als het de temperatuur heeft waarbij water kookt. Je zou dus een ander buisje moeten gebruiken, en andere streepjes moeten zetten om die temperatuur (100 graden, of 212 graden, of 373.2 graden - of misschien kies je er wel voor om die temperatuur 0 graden te noemen) te markeren.

Bij temperatuur heb je het voordeel dat er een “natuurlijke soort” bestaat die je kunt gebruiken om meetinstrumenten te calibreren. Hoewel het waar is dat je verschillende definities kunt hebben van wanneer de temperatuur waarmee water kookt wordt bereikt (bij het eerste luchtbelletje? Als de luchtbelletjes een bepaalde omvang hebben? Als er een bepaalde hoeveelheid damp wordt geproduceerd?), maken die uiteindelijk maar relatief weinig uit voor waar je je markering zet. De kans dat je de markering voor de temperatuur waarmee water kookt bij, bijvoorbeeld, 0 graden celcius zet, is verwaarloosbaar. Je komt misschien uit op 97 graden celsius, of 106 graden celsius, maar dat is tenminste grofweg in dezelfde richting, omdat het kookpunt van water een “natuurlijke soort” is.

In de psychologie bestaan dergelijke natuurlijke soorten niet (zie Constructen). Mensen hebben geen kookpunt (tenminste, de meeste mensen niet). Laten we als voorbeeld het psychologische construct “attitude” nemen, specifiek, “attitude ten opzichte van het eten van een ijsje”. Dit kunnen we operationaliseren als “de mate waarin iemand het eten van een ijsje slecht of goed vindt”.

Die operationalisatie maakt het al een stuk concreter, maar om tot een meetinstrument te komen, moeten we meer keuzes maken: we moeten een “buisje” kiezen. Laten we die keuzes zodanig maken dat we een vraag krijgen waarbij mensen een van vijf vakjes aankruisen. Dit is hieronder geïllustreerd:

Voor mij is het eten van een ijsje… Heel slecht 🔾 🔾 🔾 🔾 🔾 Heel goed

We nemen nu aan dat mensen die het eten van een ijsje goed vinden, een vakje aan de rechterkant aankruisen, en mensen die het eten van een ijsje slecht vinden, een vakje aan de linkerkant. Maar we hebben geen manier om deze schaal te ijken. Bij temperatuur kunnen natuurlijke soorten (e.g. het kookpunt van water) worden gebruikt om de schaalverdeling te calibreren, maar in de psychologie kan dat niet. Daarom worden in de psychologie geen meeteenheden gedefinieerd, zoals graden celsius, grammen, of liters. Wel worden vaak getallen gebruikt om de verschillende mogelijke responsen te representeren: de vijf hokjes hierboven zouden bijvoorbeeld kunnen corresponderen met 1 tot en met 5.

Het gebrek aan meeteenheden en mogelijkheden om te ijken maken het meten van constructen problematisch. Zonder mogelijkheid om een meetinstrument te calibreren is het niet mogelijk om te weten of twee meetinstrumenten hetzelfde meten of niet, en of ze goed zijn geijkt of niet. Dit maakt het extra belangrijk om bij het meten van psychologische constructen eerst twee zaken kraakhelder te hebben voordat het mogelijk wordt om na te denken over meetinstrumenten.

Ten eerste moet de een duidelijke definitie van het betreffende construct zijn. Die definitie moet duidelijk aangeven welke aspecten van de menselijke psychologie onder dat construct vallen, en welke niet. Zonder duidelijke definitie weet je immers niet waar je het precies over hebt, laat staan dat je een zinnige operationalisatie kunt specificeren.

Dat is het tweede: je moet een duidelijke operationalisatie hebben gedefinieerd. Als je een duidelijke operationalisatie hebt gedefinieerd die helemaal consistent is met de definitie van het construct, kun je gaan nadenken over een meetinstrument om die specifieke operationalisatie te meten.

Meetinstrumenten van psychologische constructen bestaan uit een procedure, nul of meer stimuli, en bovendien een responsregistratie. Het doel van meetinstrumenten is om informatie te krijgen over een construct: het doel is om iets te meten, en niet te veranderen. Dit wordt bereikt door mensen bloot te stellen aan een procedure (en eventueel aan stimuli) en vervolgens een respons te registreren. Een voorbeeld is een vragenlijst, waarbij stimuli worden aangeboden (vragen en antwoordopties) volgens een procedure (bijvoorbeeld in een online vragenlijst, of op papier), waarbij het de bedoeling is dat de procedure en stimuli op een bepaalde manier worden verwerkt door de deelnemers, zodat de respons die de mensen vertonen informatie geeft over een psychologisch construct (meestal is het idee dat de antwoordoptie die mensen aankruisen iets zegt over dat construct).

In dit boek noemen we een onderdeel van een meetinstrument dat een enkel datapunt5 oplevert een “item”. Het simpelste meetinstrument bevat maar één item, en levert dus maar één datapunt op. Laten we het voor nu bij zo’n één-item-meetinstrument houden.

6.3 Een item

We definiëren een item als een enkele responsregistratie, meestal vergezeld van een procedure om die toe te passen, en bovendien bijna altijd vergezeld van een of meerdere stimuli. Voorbeelden van items zijn:

  • een afbeelding die in een computertaakje wordt getoond en waarbij de reactietijd wordt geregistreerd;
  • een hartslagmeting; of
  • het antwoord van een deelnemers op een vijf-keuze-vraag.

Hoewel de informatie in dit hoofdstuk over alle soorten items gaat, zijn vragen in een vragenlijst het makkelijkst als voorbeeld. We zullen daarom verder uitgaan van vragen in een vragenlijst. Voor een vraag in een papieren vragenlijst zijn de drie componenten bijvoorbeeld als volgt ingevuld:

  • De responsregistratie gebeurt door middel van een pen en geprinte vakjes: deelnemers kruisen het vakje aan dat correspondeert hem het antwoord dat ze in gedachten hebben. De repons (het gemeten gedrag) is dus het aankruisen van dat vakje.
  • De stimuli zijn:
    • de vraag (gedrukt in een bepaald lettertype, in een bepaalde kleur, op een bepaalde plek op het papier)
    • de vakjes die kunnen worden aangekruist om de respons te registreren
    • eventuele labels bij die vakjes
    • een eventuele inleiding of uitleg bij de vraag
  • De procedure betreft in dit geval informatie over, bijvoorbeeld, de relatieve positionering van de stimuli, of de manier waarop het item moet worden aangeboden.[^Zoals hier al duidelijk is, is de indeling in stimuli en procedure soms arbitrair; je zou kunnen stellen dat lettertype onderdeel is van de procedure, of van de stimulus.]

Voor een vraag in een online vragenlijst zijn de drie componenten bijvoorbeeld als volgt ingevuld:

  • De responsregistratie gebeurt door middel van een “human computer interface”, zoals een toetsenbord, muis, of touchscreen. Hiermee selecteren deelnemers een van meerdere opties door de cursor erheen te bewegen en te bevestigen met de spatiebalk, een muisklik, of door op de juiste positie het scherm aan te raken.
  • De stimuli zijn:
    • de vraag (weergegeven in een bepaald lettertype, in een bepaalde kleur, op een bepaalde plek op het scherm)
    • de afbeeldingen die aangeven welke respons is geregistreerd
    • eventuele labels bij die afbeeldingen
    • een eventuele inleiding of uitleg bij de vraag
  • De procedure betreft weer informatie over de manier waarop het item moet worden aangeboden en infomratie over de relatieve positionering van de stimuli.

Bij psychologisch onderzoek worden items ontwikkeld of geselecteerd om informatie te krijgen over psychologische constructen). Het idee is daarom dat als mensen worden blootgesteld aan de stimuli in het item volgens de procedure van dat item, dat hun respons die wordt geregistreerd iets zegt over dat construct.

6.4 Validiteit en betrouwbaarheid

De procedure, stimuli, en responsregistratie bepalen samen welke aspecten van de psychologie een rol spelen bij het uiteindelijk produceren van de respons. Deze bepalen daarom de zogenaamde validiteit van het item: of het item het doelconstruct ook echt meet. Dit wordt in meer detail besproken in hoofdstuk Validiteit van Meetinstrumenten. Een valide item vereist eerst zogenaamde cognitive validiteit: dat de stimulus, procedure, en responsregistratie door de deelnemers worden geïnterpreteerd zoals ze zijn bedoeld. Dit wordt in meer detail besproken in hoofdstukken Validiteit van Meetinstrumenten en Cognitieve Validiteit; zie ook de Respons Proces Evaluatie methode (hoofdstuk Respons Proces Evaluatie en Wolf et al., 2019).

Omdat de menselijke psychologie complex en uitgebreid is (zie hoofdstuk Constructen), en omdat een enkel item maar één respons registratie bevat, en vaak maar weinig stimuli (bijvoorbeeld een enkele vraag), is er vaak maar een heel klein aspect van de menselijke psychologie betrokken bij het produceren van de respons. De meeste constructen zijn op een algemener niveau gedefinieerd dan zo’n aspect, dus de meeste meetinstrumenten bevatten meerdere items. Maar voor nu blijven we even bij ons ene item.

Als je uitgaat van een item dat helemaal valide is (dat dus wordt geïnterpreteerd zoals bedoeld, en waarbij de geregistreerde respons afhangt van het betreffende construct, en niet van andere constructen), zal de respons toch nog willekeurig variëren van meting tot meting. Dat komt omdat er net zoals bij meting van gewicht, lengte, of temperatuur, ook bij het meten van psychologische constructen meetfout is. Door toeval geven mensen soms net een wat ander antwoord. Meetfout is het complement6 van betrouwbaarheid. Als een item dus 20% meetfout heeft, wordt gesteld dat de betrouwbaarheid \(.8\) (dus, \(80\%\)) is. Dit wordt meer in detail besproken in hoofdstuk Betrouwbaarheid.

Validiteit en betrouwbaarheid zijn geen kenmerken van een item, maar van een specifieke toepassing van dat item. Neem bijvoorbeeld dit item om de attitude ten opzichte van het eten van een ijsje te meten:

Voor mij is het eten van een ijsje… Heel slecht 🔾 🔾 🔾 🔾 🔾 Heel goed

Het idee van dit item is dat mensen het lezen en dan het antwoord aankruisen dat voor hen geldt. Als het goed is speelt in dat proces het relevante construct (de attitude van mensen jegens het eten van een ijsje) een rol, maar ook andere psychologische constructen spelen een rol: een bepaald niveau van Nederlandse taalvaardigheid is nodig om de stimuli te verwerken, en een zekere mate van abstract denken is nodig om de responsregistratie te begrijpen.

Dit item is dus niet voor iedereen even valide. Als dit item wordt ingevuld door iemand die geen Nederlands spreekt, is de validiteit waarschijnlijk heel laag. De validiteit kan ook lager zijn voor mensen die wel Nederlands spreken maar minder geletterd zijn. Niet alleen validiteit, maar ook betrouwbaarheid is geen eigenschap van het item op zich, maar van een gegeven toepassing van het item. Als dit item bijvoorbeeld wordt ingevuld in een zeer rumoerige omgeving is de meetfout wellicht groter.

6.5 Meerdere items: meetmodellen

Veel constructen zijn relatief breed, en hun operationalisaties zijn daarom vaak niet met een enkel item te meten. Daarom bestaan psychologische meetinstrumenten vaak uit meerdere items, bijvoorbeeld meerdere vragen. Als attitude ten opzichte van het eten van een ijsje breder zou zijn gedefinieerd, en dus ook breder zou zijn geoperationaliseerd, dan zou ons meetinstrument bijvoorbeeld kunnen bestaan uit deze twee items:

Voor mij is het eten van een ijsje… Heel slecht 🔾 🔾 🔾 🔾 🔾 Heel goed
Voor mij is het eten van een ijsje… Heel onprettig 🔾 🔾 🔾 🔾 🔾 Heel prettig

Elk item levert per toepassing bij een deelnemer een datapunt op, en meerdere items leveren dus meerdere datapunten op. De responsen op de items uit het voorbeeld hierboven kunnen bijvoorbeeld worden gerepresenteerd met \(1\), \(2\), \(3\), \(4\), of \(5\), en elke keer als we dit meetinstrument toepassen op een deelnemer aan een studie krijgen we dus twee getallen. We hanteren hierbij de aanname dat iemand die het eten van een ijsje heel slecht en heel onprettig vindt, twee keer het meest linkse vakje aankruist, waardoor de twee datapunten die we krijgen twee keer een \(1\) zijn; terwijl iemand die het eten van een ijsje heel goed en heel prettig vindt, twee keer het meest rechtse vakje aankruist, waardoor de twee datapunten die we voor die deelnemer krijgen juist twee keer een \(5\) zijn.

Op dit moment wordt de vraag hoe we die twee getallen aggregeren. De simpelste manier is om ze te middelen of op te tellen, maar dat gaat niet zo makkelijk: we zouden dan allerlei aannames maken, en die moeten wel kloppen. Hiervoor wordt een zogenaamde meetmodel opgesteld. Een meetmodel beschrijft wat voor soort construct we meten, op basis van onze ontologische positie ten opzichte van dat construct (zie hoofdstuk Constructen).

Als wordt aangenomen dat een psychologisch construct een (onobserveerbare oftwel latente) natuurlijke soort of een sociaal geconstrueerde soort is betekent dat vaak dat een zogenaamd reflectief meetmodel wordt gebruikt. Er wordt dan aangenomen dat de scores op de items worden veroorzaakt door dat construct: de aanname is dat de scores op de items een “reflectie” zijn van het onderliggende latente construct, zoals geïllustreerd in Figuur 6.1. Maar, validiteit en betrouwbaarheid kunnen verschillen van item tot item, dus niet elk item telt noodzakelijkerwijs even zwaar mee. Het ‘gewicht’ van elk item moet dus worden bijgesteld afhankelijk van de meetfout en validiteit van dat item.

Een reflectief meetmodel.

Figuur 6.1: Een reflectief meetmodel.

Als er geen aannames zijn over een onderliggend latent construct dat de scores op de items veroorzaakt, maar het construct een praktische soort is, dan wordt het meetmodel omgedraaid. In dat geval wordt het construct gedefinieerd als de scores op de items. In het zogenaamde formatieve meetmodel vormen de scores het construct, zoals geïllustreerd in Figuur 6.2. In dat geval worden de gewichten toegekend op basis van het aandeel dat het item in dat construct moet hebben.

Een formatief meetmodel.

Figuur 6.2: Een formatief meetmodel.

Tot slot kan worden aangenomen dat het construct een complexe soort is. In dat geval wordt niet aangenomen dat de scores op de items worden veroorzaakt door een onderliggend latent construct; en het construct wordt ook niet gedefinieerd door de scores op de items. In plaats daarvan wordt gesteld dat het construct bestaat uit een patroon van samenhang tussen verschillende aspecten van de menselijke psychologie die elkaar wederzijds beïnvloedden. In dat geval is het meetmodel een netwerkmodel, waar het construct bestaat uit de relaties tussen de items, zoals geïllustreerd in Figuur 6.3.

Een netwerk-meetmodel.

Figuur 6.3: Een netwerk-meetmodel.

Hoewel Figuren 6.1 en 6.2 beiden een expliciete representatie van het construct hebben, geldt dat niet voor Figuur 6.3: daar bestaat het construct in de regelmatigheden in de invloeden tussen de items.7

6.6 Meetmodellen en aggregeren

Het meetmodel dat je hanteert bepaalt hoe je de scores op de items aggregeert. Die aggregatie representeert de aannames over hoe de items en het construct samenhangen:

  • Bij een reflectief meetmodel is de aanname dat het construct onafhankelijk van de items bestaat, en dat de scores op de items worden veroorzaakt door dat latente construct;
  • Bij een formatief meetmodel is het construct gedefinieerd als het aggregaat van de items, en kan dus niet onafhankelijk van de items bestaan;
  • Bij een netwerk-meetmodel is het construct gedefinieerd als regelmatigheden in hoe de items elkaar beïnvloeden, en bestaat het dus alleen in die verbanden.

Als een netwerk-meetmodel wordt gebruikt wordt er meestal niets geaggregeerd: in plaats daarvan wordt juist vaak naar de netwerken gekeken. Netwerk-modellen verschillen fundamenteel van de andere benaderingen in dit boek, en worden in deze versie van het boek daatom verder niet behandeld.8

Als een reflectief of formatief meetmodel wordt verondersteld is aggregatie vaak wel gangbaar. Zoals hierboven is uitgelegd heeft elk item een bepaalde validiteit en een bepaalde betrouwbaarheid: in principe kan elk item worden beschouwd alsof het een sub-construct meet.

Als een reflectief meetmodel wordt gebruikt, wordt veronderstelt dat dat sub-construct voor elk item hetzelfde is. In dat geval geldt dat de mate waarin elk item samenhangt met de andere items indicatief is voor hoe valide en betrouwbaar het item is. Als een item bijvoorbeeld veel meetfout heeft, en dus een lage betrouwbaarheid, dan worden de scores op dat item voor een groot deel bepaald door toeval. Omdat toeval niet systematisch is, kan zo’n onbetrouwbaar item niet sterk samenhangen met de andere items. Als een item weinig meetfout heeft (en dus betrouwbaar is), maar (voor een deel) een ander construct meet dan de bedoeling is (en dus minder valide is), kan dat item ook niet sterk samenhangen met de andere items.

In zo’n situatie kunnen de verbanden tussen items worden bekeken om te kijken hoe zwaar elk item mee moet tellen om de beste indruk van het doelconstruct te krijgen. Dit kan met factor-analyse, die wordt behandeld in hoofdstuk Validiteit schatten en verhogen). Het idee is dat een item dat sterk samenhangt met de meeste andere items het dan het veronderstelde latente construct beter representereert dan een item dat minder samenhang vertoont. Op basis van de relevante gewichten worden de scores op de items dan gemiddeld of opgeteld [afhankelijk van het meetmodel kunnen de gewichten ook allemaal op \(1\) worden gezet; dat is echter lang niet altijd een houdbare benadering; McNeish & Wolf (2019)].

Als een formatief meetmodel wordt gebruikt wordt niet aangenomen dat er een onderliggend construct is: het construct wordt juist gedefinieerd door de items. In dat geval levert de bijbehorende theorie als het goed is een model voor aggregatie. Die theorie kan bijvoorbeeld stellen welke items zwaarder moeten tellen, welke lichter moeten tellen, en of de items worden opgeteld of dat er een ander algoritme wordt toegepast (bijvoorbeeld: “het aggregaat is het gemiddelde van de scores op de items, behalve als er \(1\) wordt gescoord op item 1 of op item 2, dan is het aggregaat altijd \(0\)”).

6.7 Betrouwbaarheid en validiteit schatten en verhogen

Elke keer dat een meetinstrument wordt toegepast, heeft die toepassing een gegeven validiteit en betrouwbaarheid. In elk studie is het dus nodig om die te schatten om te verifiëren of ze voldoende hoog zijn. Er zijn geen meetinstrumenten die altijd goed werken, dus soms zal dat niet het geval zijn, en in zulke situaties kunnen de scores niet beschouwd worden als informatief over de corresponderende doelconstructen.

In dit verband is het handig om onderscheid te maken tussen schalen en indices (Peters, 2014b). Bij een schaal is de bedoeling dat alle items precies hetzelfde construct meten. Het aggregaat van de items in zo’n schaal worden daarom beschouwd als een maat voor het corresponderende doelconstruct. Als een meetinstrument als schaal wordt gezien wordt dus vaak bedoeld dat er een reflectief meetmodel wordt gebruikt.

Bij een index wordt juist gesteld dat alle items niet hetzelfde construct meten. Dit correspondeert juist eerder met een formatief meetmodel (hoewel er sprake kan zijn van een index zonder dat er een doelconstruct bij hoort, of een index die meerdere doelconstructen combineert).

Dat bij een index de items niet hetzelfde meten, en bij een schaal wel, heeft implicaties voor het soort analyses dat uitgevoerd kunnen worden. In hoofdstukken Betrouwbaarheid schatten en verhogen en Validiteit schatten en verhogen wordt besproken hoe betrouwbaarheid en validiteit van een meetinstrument geschat kunnen worden.

Referenties

McNeish, D., & Wolf, M. G. (2019). Thinking Twice About Sum Scores. https://doi.org/10.31234/osf.io/3wy47
Peters, G.-J. Y. (2014b). The alpha and the omega of scale reliability and validity: Why and how to abandon Cronbach’s alpha and the route towards more comprehensive assessment of scale quality. European Health Psychologist, 16(2), 56–69. https://doi.org/10.17605/osf.io/tnrxv
Wolf, M. G., Ihm, E. D., Maul, A., & Taves, A. (2019). Survey Item Validation [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/k27w3

  1. Een datapunt is meestal een getal. Als je meet wat iemands reactietijd is als ze op een knop moeten drukken als ze een geluid horen, dan levert dat een getal op, meestal een aantal milliseconden. Een datapunt kan ook ook categorisch zijn. Haarkleur bijvoorbeeld is kwalitatief: dit kan bijvoorbeeld “zwart” of “bruin” zijn. Overigens worden dergelijke categorische datapunten in een databestand vaak toch als nummers opgeslagen in een databestand.↩︎

  2. Een complement is het “andere deel”. Het complement van yin is bijvoorbeeld yang; het complement van \(40%\) is \(60%\); en het complement van “publieke grond” is “private grond”, als je het over plattegronden hebt.↩︎

  3. In principe zou je kunnen stellen dat elk item correspondeert met een eigen sub-construct, en dat die elkaar beïnvloeden.↩︎

  4. Om meer te lezen over netwerkbenaderingen is https://psych-networks.com/ een uitstekend startpunt. Deze site wordt onderhouden door Eiko Fried, en de nadruk ligt hier op psychopathologie. Jonas Dalege gebruikt netwerken om attitudes te onderzoeken, en zijn publicaties met een korte samenvatting staan op https://jdalege.com/publications/.↩︎