Hoofdstuk 5 Moderatie-analyse
Peter Verboon
Laatste update: 31 januari 2023
5.1 Inleiding
Als er een verband bestaat tussen twee variabelen, dan kan het zo zijn dat dit effect alleen aanwezig is bij een bepaalde groep mensen of dat het verband sterker is bij de ene groep in vergelijking tot een andere groep. De variabele die het verschil tussen de groepen aangeeft (bijvoorbeeld opleiding of sekse) wordt dan een moderator genoemd. Een moderator is dus een variabele die het verband tussen twee variabelen beïnvloedt. Dit betekent dat voor mensen die hoog scoren op de moderator het effect van de predictor op de afhankelijke variabele anders is dan voor mensen die laag scoren op de moderator. Een moderator kan een groepsindeling representeren, zoals bij opleiding of sekse. De moderator is dan een categorische of dichotome (twee categorieën) variabele, maar een moderator kan ook een intervalvariabele zijn, zoals een eigenschap die iemand in meer of mindere mate bezit (bijvoorbeeld veerkracht). Bij een intervalvariabele zijn er geen natuurlijke groepen, maar we kunnen nog steeds mensen onderscheiden die relatief hoog scoren op zo’n variabele en mensen die er relatief laag op scoren.
Theoretisch gezien kan een moderatie-effect verschillende vormen aannemen: een moderator kan een effect of een verband laten verschijnen of versterken. De tegenhanger daarvan is dat een moderator een verband kan afzwakken of laten verdwijnen. In de derde situatie kan het verband positief of negatief worden afhankelijk van de waarde van de moderator.
Een moderatiemodel wordt meestal gevisualiseerd als een conceptueel model zoals in figuur 5.1.

Figure 5.1: Moderatie model.
In figuur 5.1 staan de moderatiemodellen in hun algemene vorm weergegeven. De variabele X is hierbij de predictor en Y is de afhankelijke variabele. De variabele Z is de moderator in dit model. Figuur 5.1 suggereert dat moderatiemodellen een causaal proces veronderstellen: de moderator verorozaakt dan het verchil in het verband tussen X en Y. Als dit de aanname is dan moet hier in het onderzoeksdesign rekening mee worden gehouden. Idealiter worden dan zowel de predictor als de moderator experimenteel gemanipuleerd en worden subjecten random toegedeeld aan de verschillende condities. Het is echter ook mogelijk dat er geen causaal verband wordt verondersteld met betrekking tot de moderatie. Je veronderstelt simpelweg dat het verband tussen X en Y anders is voor verschillende waarden van Z, waarbij in het midden wordt gelaten hoe dat verschil precies ontstaat. Het is dan puur een kwantitatieve beschrijving van wat wordt waargenomen in de data.
In dit hoofdstuk wordt op dit onderscheid en op de eventuele eisen aan het design niet ingegaan, omdat het doel van dit hoofdstuk is om een praktische handleiding te presenteren over hoe je een moderatie-analyse uitvoert. Bedenk dus altijd eerst of een moderatie-analyse wel bij je onderzoekvraag en het daarbij behorende onderzoeksdesign past.
5.2 Illustratie van een moderatie
In figuur 5.2 is een situatie weergegeven waarbij de moderator een verband versterkt. Dat wil zeggen: het verband tussen X en Y wordt sterker naarmate de waarde van de moderator toeneemt. Wanneer de Z (de moderator) hoog is of anders gezegd voor mensen die hoog scoren op de moderator (bijvoorbeeld empathisch vermogen) is er een relatief sterk verband tussen de predictor X (bijvoorbeeld de waargenomen mate van lijden van andere mensen) en de afhankelijke variabele Y (bijvoorbeeld de mate waarin men zelf lijdt). Voor mensen die laag scoren op Z (de moderator is dan laag) is het verband tussen X en Y afwezig. Voor mensen die gemiddeld scoren op de moderator is er een relatief zwak verband tussen X en Y. Mensen met veel empathisch vermogen lijden zelf meer naarmate ze meer lijden van anderen ervaren, terwijl dit verband bij mensen met een laag empathisch vermogen afwezig is.

Figure 5.2: Illustratie moderatie van het effect van X op Y door Z.
De figuur illustreert ook een belangrijke regel: als er sprake is van moderatie, dan kan je de hoofdeffecten niet zonder meer interpreteren, maar moet je de moderator hierin betrekken. In deze illustratie betekent dit dat je niet meer over het verband tussen X en Y kan praten, omdat dit verschilt voor de waarden van Z. In de figuur staan bijvoorbeeld al drie verschillende verbanden tussen X en Y aangegeven.
Zoals in de volgende thema’s verder zal worden uitgelegd en geillustreerd, is het voor de berekening van een moderatie altijd nodig om een interactieterm op te nemen in het model. Een interactieterm wordt gevormd als het product van twee variabelen, in dit geval de moderator en de predictor. Om de parameters (regressiecoefficienten) van een moderatiemodel te berekenen is er minimaal een predictor (X), een moderator (Z) en een interactieterm (XZ) nodig. Het programma dat deze berekening uitvoert (bijvoorbeeld jamovi, R, SPSS), maakt in principe geen onderscheid tussen moderator en predictor, de interactieterm is simpelweg het product van twee variabelen. Het is de onderzoeker die op basis van theoretische argumenten zijn conceptueel model ontwerpt, en daarbij dus bepaalt welke variabele een moderator is en welke een predictor.
In formulevorm ziet het meest eenvoudige moderatiemodel er zo uit:
\[\begin{equation} Y = b_0 + b_1X + b_2Z + b_3XZ + \epsilon \tag{5.1} \end{equation}\]
Hierbij is \(XZ\) het product van de twee variabelen \(X\) en \(Z\). Om nu te zien hoe het verband tussen X en Y afhangt van Z, kunnen we deze formule herschrijven als
\[\begin{equation} Y = b_0 + (b_1 + b_3Z)X + b_2Z + \epsilon \tag{5.2} \end{equation}\]
De term \(b_1 + b_3Z\) vormt bij een moderatieanalyse de richtingscoefficient van X, die dus afhangt van de waarde van \(Z\). Als de moderatie helemaal \(0\) is, hetgeen betekent dat \(b_3 = 0\) of als de moderator de waarde \(Z = 0\) heeft, dan hebben we het eenvoudige regressiemodel weer terug met twee predictoren X en \(Z\).
Tevens laat de term \(b_1 + b_3Z\) zien dat de richtingscoefficient per definitie lineair afhankelijk is van \(Z\) (tenzij \(b_3\) gelijk is aan nul, maar dan is er geen moderatie). In figuur 5.2 werden drie regressielijnen, dus drie richtingscoefficienten getoond, corresponderend met drie waarden van \(Z\). Maar \(Z\) kan ook een continue (interval) variabele zijn die heel veel waarden heeft (bijvoorbeeld leeftijd). In feite kunnen we voor iedere waarde van de moderator dan een lijn tekenen zoals in figuur 5.2. Bij iedere waarde van \(Z\) hoort dus een andere richtingscoefficient, namelijk \(b_1 + b_3Z\). Ook dit kunnen we grafisch weergeven, zie 5.3.

Figure 5.3: Richtingscoefficient predictor als functie van moderator.
In deze figuur staan op de horizontale as de waarden van de moderator en op de verticale as wat de bijbehorende richtingscoefficient wordt als \(b_1 = 1\) en \(b_3 = 0.5\). De richtingscoefficient is dus lineair afhankelijk van \(Z\). Uit deze figuur lezen we af dat bij de waarde van de moderator van bijvoorbeeld \(Z = 8\) een richtingscoefficient (verband tussen X en Y) hoort van \(5\) en bij \(Z = 28\) hoort een richtingscoefficient van \(15\). Op deze manier kan dus een figuur zoals figuur 5.2 worden gemaakt voor willekeurige waarden van de moderator. Merk op dat, als er geen moderatie is, dus \(b_3 = 0\), dat dan de punten allemaal op een horizontale lijn liggen. De richtingscoefficient van X is dan altijd hetzelfde, ongeacht de waarde van \(Z\).
5.3 Moderatie met dichotome variabelen
De situatie waarbij de afhankelijke variabele van intervalniveau is en er twee dichotome predictorvariabelen zijn, wordt meestal geanalyseerd met variantieanalyse (ANOVA). Een voorbeeld is de vraag of een managementbaan invloed heeft op de ervaren stress en of deze invloed verschilt tussen mannen en vrouwen. Met andere woorden: modereert sekse het effect dat het soort werk op stress heeft? Het soort werk is in dit voorbeeld de predictor en heeft twee categorieën: leidinggevend en niet-leidinggevend. De afhankelijke variabele is de gerapporteerde stress op het werk en sekse is de moderator. In tabel 5.1 staan de numerieke variabelen uit het voorbeeldbestand samengevat. Daarna worden de niet-numerieke variabelen beschreven. Merk op dat de variabele sekse is gecodeerd als dummyvariabele, dat wil hier zeggen: mannen en vrouwen hebben respectievelijk de waarden 0 en 1. De codering maakt voor de interpretatie van de regressieanalyses, die later worden getoond, geen verschil, alleen voor de waarde van het intercept.
minimum | maximum | mean | stdev | |
---|---|---|---|---|
leeftijd | 23.00 | 62.00 | 40.59 | 8.96 |
salaris | 1.00 | 10.00 | 5.50 | 2.88 |
stress | 1.00 | 13.00 | 6.13 | 2.29 |
werkdruk | -2.45 | 2.19 | 0.00 | 1.00 |
veerkracht | -3.07 | 3.10 | 0.00 | 1.00 |
betrokkenheid | -2.36 | 2.18 | 0.00 | 1.00 |
autonomie | -2.73 | 2.60 | 0.00 | 1.00 |
bevlogenheid | -2.66 | 3.75 | 0.00 | 1.00 |
arbeidstevredenheid | 1.25 | 11.14 | 6.55 | 1.80 |
variabele | frequentie | |
---|---|---|
1 | sekse | man :127 |
2 | sekse | vrouw:193 |
5 | opleiding | lager beroepsonderwijs : 11 |
6 | opleiding | middelbaar beroepsonderwijs:176 |
7 | opleiding | hoger beroepsonderwijs :101 |
8 | opleiding | wetenschappelijk onderwijs : 32 |
9 | soortWerk | niet-leidinggevend:189 |
10 | soortWerk | leidinggevend :131 |
De variabelen bevlogenheid en arbeidstevredenheid zijn gemeten drie maanden na de andere variabelen, hierdoor is dit een longitudinale dataset. Het bovengenoemde voorbeeld is overigens geen voorbeeld van longitudinale data, omdat de predictor (soort werk of sekse) en afhankelijke variabele (stress
) op hetzelfde moment zijn gemeten. In dit voorbeeld is het voorgestelde causale model verdedigbaar aangezien sekse
nooit een afhankelijke variabele kan zijn. De pijl in het conceptueel model (hier niet getoond) die de causale relatie aangeeft (van sekse
naar stress
) kan hier logischerwijs niet omgedraaid worden. Het omdraaien van de pijl van soort werk naar stress
is logisch gezien wel mogelijk, maar lijkt ver gezocht.
Om dit model te analyseren is een ANOVA met twee factoren de geschikte aanpak, wat neerkomt op een regressieanalyse met twee dichotome variabelen. We hebben namelijk te maken met dichotome predictoren.
Dit model kunnen we als volgt weergegeven.
Model A: Afhankelijke = stress
/DESIGN = soorWerk sekse soortWerk*sekse.
Bij het design staan de effecten opgesomd die geschat moeten worden. Dat zijn allereerst de hoofdeffecten van het soort werk en sekse. Daarna volgt de interactie tussen deze twee variabelen (soortWerk
*sekse
) en een dergelijke interactieterm vormt de essentie van een moderatieanalyse.
Wanneer dit interactie-effect significant is, dan is dit een aanwijzing dat er sprake is van moderatie. Of de interactie ook belangrijk is, kunnen we zien aan de grootte van het interactie-effect en zichtbaar maken in een figuur. Verder is het van belang om naar de effectgrootte \(\eta^2\) (eta-kwadraat) te kijken, een maat die aangeeft hoe groot het effect van een variabele is.
Dit voorbeeld geeft de volgende output (tabel 5.3), waarin we zien dat sekse, en de interactie tussen sekse en het soort werk significant zijn.
Sum Sq | Df | F value | Pr(>F) | part_etasq | |
---|---|---|---|---|---|
(Intercept) | 2218.424 | 1 | 640.012 | 0.000 | 0.000 |
sekse | 19.723 | 1 | 5.690 | 0.018 | 0.017 |
soortWerk | 3.827 | 1 | 1.104 | 0.294 | 0.255 |
sekse:soortWerk | 185.092 | 1 | 53.399 | 0.000 | 0.145 |
Residuals | 1095.327 | 316 | NA | NA | NA |
Er lijkt dus sprake van moderatie; om beter te begrijpen hoe deze moderatie er precies uitziet, kan er ook een figuur worden gemaakt, met de gemiddelden van de twee variabelen, zie figuur 5.4.

Figure 5.4: Moderatie effect gevisualiseerd.
In deze figuur wordt duidelijk dat vrouwen in het algemeen vergelijkbare stress ervaren als mannen, want de vrouwen liggen gemiddeld net zo hoog als de mannen. Verder wordt duidelijk dat leidinggevend werk in het algemeen wat meer stress geeft dan de andere soorten werk, en dat mannen met leidinggevend werk slechts een beetje meer stress ervaren dan mannen zonder leidinggevend werk. Bij vrouwen daarentegen geeft leidinggevend werk juist veel meer stress dan niet leidinggevend werk. Het patroon van ervaren stress over de verschillende soorten werk is dus anders voor mannen dan voor vrouwen. Met andere woorden: de hypothese dat sekse het verband modereert tussen het soort werk en stress lijkt te worden ondersteund. Het moderatie-effect is niet alleen statistisch significant maar ook substantieel van grootte want bij vrouwen neemt de stress maar liefst 4 punten toe (op een schaal van 1 tot 13), terwijl de toename bij de mannen verwaarloosbaar is. In tabel 5.3 staat dat de \(\eta^2\) van de interactie gelijk is 0.145, wat ook wijst op een substantieel moderatie-effect.
Een waarschuwing is hier op zijn plaats. Kijk bij een figuur goed naar de schaalwaarden van de y-as (afhankelijke variabele), want een as kan natuurlijk opgerekt of ingekrompen worden, waardoor zo’n figuur een effect kan suggereren dat er in werkelijkheid nauwelijks is.
5.4 Moderatieanalyse met predictor op intervalniveau
We bekijken nu de situatie waarin de predictor op intervalniveau is gemeten, terwijl de moderator een nominale (in dit voorbeeld dichotome) variabele is. Als voorbeeld nemen we de volgende vraagstelling is: hangt arbeidstevredenheid af van het maandsalaris? Vervolgens kunnen we ons afvragen of dit verband voor mannen anders is dan voor vrouwen. Een hypothese zou kunnen zijn: ‘Bij mannen bestaat er een sterk positief verband tussen maandsalaris en arbeidstevredenheid’, en ook: ‘Bij vrouwen bestaat er een zwak positief verband tussen maandsalaris en arbeidstevredenheid’.
Men wil arbeidstevredenheid
voorspellen uit de hoogte van het salaris
en sekse
. Dus we gaan uit van het volgende regressiemodel:
\[\begin{equation} arbeidtevredenheid = b_0 + b_1sekse + b_2salaris \tag{5.3} \end{equation}\]
waarbij \(b_0\) het intercept weergeeft, en \(b_1\) en \(b_2\) de regressiecoëfficiënten zijn die de sterkte van het effect van respectievelijk salaris
en sekse
op arbeidstevredenheid
aangeven. Arbeidstevredenheid is gemeten op een schaal van 1 tot 12, waarbij 12 maximale tevredenheid aangeeft. Salaris is een variabele die is gemeten op een intervalmeetniveau, en in 10 gelijke groepen ingedeeld met stappen van 300 euro, waarbij de groep tussen 1000 en 1300 euro gelijk is aan 1 (het laagste salaris) en de groep tussen 3700 en 4000 euro gelijk is aan 10 (het hoogste salaris). Om de interpretatie te verbeteren en omdat we deze stap in vervolganalyses nodig hebben, gaan we de variabele salaris
centreren en noemen deze gecentreerde variabele salaris_c
. Meestal wordt er rondom het gemiddelde gecentreerd, maar in dit voorbeeld centreren we om de waarde \(5\) omdat dit de middelste waarde van de schaal en een rond getal is. Iemand die in de hoogste salarisgroep valt krijgt dus op de gecentreerde variabele de waarde \(5\) (\(10-5\)) en iemand die oorspronkelijk in groep 5 viel krijgt de waarde 0. Zie tabel 5.4.
categorie | betekenis | gecentreerd |
---|---|---|
1 | 1000-1300 | -4 |
2 | 1300-1600 | -3 |
3 | 1600-1900 | -2 |
4 | 1900-2200 | -1 |
5 | 2200-2500 | 0 |
6 | 2500-2800 | 1 |
… | … | … |
10 | 3700-4000 | 5 |
Met een regressieanalyse kan dit model worden geanalyseerd.
Model B: Afhankelijke = arbeidstevredenheid
/DESIGN = sekse salaris_c.
Bij de resultaten staan de regressiecoëfficiënten met hun 95%-betrouwbaarheidsinterval BI (in het Engels CI, confidence interval). Bij sekse
staat ook de categorie genoemd die als \(1\) is gecodeerd.
95% CI, lo | 95% CI, hi | estimate | se | t | p | |
---|---|---|---|---|---|---|
(Intercept) | 5.929 | 6.410 | 6.169 | 0.122 | 50.413 | 0.000 |
seksevrouw | -0.015 | 0.598 | 0.292 | 0.156 | 1.872 | 0.062 |
salaris_c | 0.362 | 0.467 | 0.415 | 0.027 | 15.620 | 0.000 |
De \(R^2\) van dit model is 0.44, dus het model kan 44% van de variantie in arbeidstevredenheid
verklaren.
Wat is op basis van dit model nu de voorspelde arbeidstevredenheid van een vrouw, die 1700 euro verdient? De 1700 euro valt in salarisklasse \(3\), maar daarvan is \(5\) afgetrokken vanwege het centreren, dus deze salarisklasse correspondeert met de waarde \(-2\).
De waarde \(-2\) invullen in de regressievergelijking voor salaris_c
, \(1\) voor sekse (want de categorie vrouw is gecodeerd als \(1\)) en de drie geschatte coëfficiënten geeft:
\[\begin{equation} arbeidstevredenheid = 6.169 + 0.292 \cdot (1) + 0.415 \cdot (-2) = 5.631 \tag{5.4} \end{equation}\]
Een man met hetzelfde salaris zal volgens dit model 0.292 lager scoren op arbeidstevredenheid dan deze vrouw, omdat man is gecodeerd als \(0\). Het effect van salaris
op arbeidstevredenheid
in dit model is voor mannen en vrouwen gelijk. Zouden we de regressielijnen van salaris
op arbeidstevredenheid
tekenen voor mannen en vrouwen apart dan lopen die parallel aan elkaar waarbij het lijntje van de vrouwen iets hoger loopt, namelijk 0.292 hoger.
5.4.1 Interactieterm toevoegen
Stel dat in het bovenstaand voorbeeld sekse
de relatie tussen salaris
en arbeidstevredenheid
zou modereren. We veronderstellen dat het salaris voor vrouwen maar een geringe invloed heeft op hun arbeidstevredenheid, maar dat salaris voor mannen een grote rol speelt. Een hypothese zou kunnen zijn: Bij mannen bestaat er een sterk positief verband tussen salaris
en arbeidstevredenheid
, en bij vrouwen bestaat er een zwak positief verband tussen salaris
en arbeidstevredenheid.
De regressielijn voor mannen loopt dan dus relatief stijl omhoog (de regressiecoëfficiënt van salaris
voor mannen is relatief groot) en die voor vrouwen relatief vlak (de regressiecoëfficiënt van salaris
voor vrouwen is relatief klein). De regressievergelijking die bij dit moderatiemodel hoort bevat nu een interactieterm:
\[\begin{equation} arbeidstevredenheid = b_0 + b_1sekse + b_2salaris\_c + b_3sekse\cdot salaris\_c \tag{5.5} \end{equation}\]
Voor mannen (sekse = 0) is het model:
\[\begin{equation} arbeidstevredenheid = b_0 + b_1(0) + b_2salaris\_c + b_3(0)salaris\_c = b_0 + b_2salaris\_c \tag{5.6} \end{equation}\]
En voor vrouwen (sekse = 1) is het model:
\[\begin{equation} arbeidstevredenheid = b_0 + b_1(1) + b_2salaris\_c + b_3(1)salaris\_c = (b_0 + b_1) + (b_2 + b_3)salaris\_c \tag{5.7} \end{equation}\]
Als de interactie significant is dan is \(b_3\) ongelijk aan nul en dan lopen de lijnen voor mannen en vrouwen nu niet meer parallel omdat ze verschillende regressiecoëfficiënten hebben. Het effect van salaris op arbeidstevredenheid
hangt niet meer alleen van \(b_1\) af (de parameter die bij het simpele hoofdeffect hoort) maar ook van \(b_3\) (de parameter van de interactie). De belangrijke les die hieruit volgt is dat bij een significante interactie de interactieterm altijd betrokken moet worden bij de interpretatie van de hoofdeffecten.
Om dit moderatiemodel te toetsen moeten we de interactie term tussen sekse
en salaris_c
toevoegen aan het model. We kunnen dit doen door de interactieterm sekse*salaris_c te berekenen als het product van beide variabelen (met bijvoorbeeld de naam interactie
of een meer betekenisvolle naam). Deze term wordt vervolgens aan het regressiemodel toegevoegd als extra predictor (model C).
Model C: Afhankelijke = arbeidstevredenheid
/DESIGN = sekse salaris_c sekse*salaris_c.
Dit geeft de regressieresultaten, getoond in tabel 5.6.
95% CI, lo | 95% CI, hi | estimate | se | t | p | |
---|---|---|---|---|---|---|
(Intercept) | 5.687 | 6.021 | 5.854 | 0.085 | 68.928 | 0 |
seksevrouw | 0.489 | 0.915 | 0.702 | 0.108 | 6.485 | 0 |
salaris_c | 0.769 | 0.879 | 0.824 | 0.028 | 29.467 | 0 |
seksevrouw:salaris_c | -0.775 | -0.631 | -0.703 | 0.037 | -19.182 | 0 |
Allereerst is de \(R^2\) gestegen naar 0.74, dit model verklaart arbeidstevredenheid
dus veel beter dan het model zonder interactie. Het interactie-effect is inderdaad vrij sterk vergeleken met de coëfficiënt van salaris
en is statistisch significant (\(b_4\) = -0.703; \(SE\) = 0.037).
We kunnen de moderatie ook grafisch weergeven door twee regressielijnen (een voor de mannen en een voor de vrouwen) te tekenen die het verband verbeelden tussen salaris en arbeidstevredenheid (zie figuur 5.5). De oorspronkelijke schaalwaarden van de variabele salaris
zijn gebruikt in deze figuur.

Figure 5.5: Illustratie van moderatie effect met dichotome moderator.
De regressielijn bij de mannen loopt stijl, dus een toename van salaris draagt sterk bij aan de arbeidstevredenheid en dat van de vrouwen is vrij vlak, dus bij vrouwen draagt een toename van het salaris weinig bij aan de arbeidstevredenheid. De richtingscoëfficiënten van de lijn is voor de mannen:
\[\begin{equation} b_3 + (0)b_4 =0.824 \tag{5.8} \end{equation}\]
en voor de vrouwen:
\[\begin{equation} b_3 + (1)b_4 = 0.824 + (1)\cdot -0.703 = 0.121 \tag{5.9} \end{equation}\]
Bij mannen loopt de lijn dus steiler.
5.5 Moderatie met interval variabelen
In het vorige voorbeeld zagen we dat het effect van salaris op de arbeidstevredenheid afhing van de sekse. In dit voorbeeld bestuderen we een andere moderator die is gemeten op intervalniveau, namelijk affectieve betrokkenheid bij de organisatie. Het model is weergegeven in 5.6.

Figure 5.6: Moderatie model met interval variabelen.
We veronderstellen dat er een verband bestaat tussen autonomie
in het werk en bevlogenheid
. Werknemers die meer autonomie ervaren in het werk zijn in het algemeen meer bevlogen in hun werk. Maar dit verband geldt vooral voor werknemers die zich affectiefbetrokken voelen bij de organisatie. Ontbreekt de betrokkenheid
dan zal autonomie
geen of een minder sterk positief effect hebben op de bevlogenheid
. Om deze hypothese te toetsen moeten we de volgende interactieterm in het model opnemen: betrokkenheid x autonomie.
Model D: Afhankelijke = bevlogenheid
/DESIGN = autonomie betrokkenheid autonomie*betrokkenheid.
Dit geeft dan het volgende regressiemodel:
\[\begin{equation} bevlogenheid = b_0 + b_1 autonomie + b_2 betrokkenheid +\\ b_3 (betrokkenheid \cdot autonomie) \tag{5.10} \end{equation}\]
De interactieterm kan aan het regressiemodel worden toegevoegd door de extra term betrokkenheid*autonomie op nemen, die het product is van deze variabelen. Om de interpretatie van het interactie-effect gemakkelijker te maken, zijn alle variabelen gestandaardiseerd, dat wil zeggen dat van de oorspronkelijke variabele het gemiddelde wordt afgetrokken (net als bij centreren) en dat deze gecentreerde variabele wordt gedeeld door zijn standaardafwijking. Een gestandaardiseerde variabele heeft (dus) een gemiddelde van \(0\) en een variantie (en standaardafwijking) van \(1\). Alle variabelen zijn na standaardisatie gemeten in standaardafwijkingen! Dat wil zeggen: één eenheid in autonomie omhoog, betekent één standaardafwijking (SD) in autonomie omhoog. De waarde +1 van een gestandaardiseerde variabele correspondeert met een score die 1 SD boven het gemiddelde ligt en de waarde -1 met een score die 1 SD onder het gemiddelde ligt. Het maakt bij gestandaardiseerde variabelen niet uit waarin de oorspronkelijke variabelen zijn gemeten (euro’s, centimeters, kilo’s, of een psychologische schaal), want na standaardisatie zijn alle variabelen gemeten in dezelfde eenheid (namelijk standaardafwijkingen) en zijn daardoor dus goed vergelijkbaar.
Het is belangrijk om de variabelen te centreren of standaardiseren alvorens de interactieterm te berekenen. Wordt dit niet gedaan dan kan de interactieterm in sommige gevallen sterk gaan samenhangen met een van de predictoren. Dit wordt collineariteit genoemd en moet vermeden worden in een regressieanalyse. Tevens worden de effect-grootten van alle effecten direct zichtbaar door te standaardiseren.
Om nu het effect van autonomie
op bevlogenheid
te vinden, moeten we eerst kijken of de interactieterm (\(b_3\)) voldoende groot en statistisch significant is. Als de interactie namelijk gering is en niet significant (\(b_3\) ligt dan in de buurt van 0), dan mogen we \(b_1\) gewoon beschouwen als het effect van autonomie
op bevlogenheid
. Is de interactie wel significant, dan is de interpretatie complexer. De regressieformule kan als volgt worden herschreven, met bevlogenheid (BVL), autonomie (AUT) en betrokkenheid (BTR):
\[\begin{equation} BVL = b_0 + (b_1 + b_3 BTR) AUT + b_2 BTR \tag{5.11} \end{equation}\]
Hieruit blijkt dat de regressiecoëfficiënt van autonomie
(die gelijk is aan \(b_1 + b_3BTR\)) afhangt van de waarde van betrokkenheid
.
In de volgende tabel staan de resultaten van de regressieanalyse van model D.
95% CI, lo | 95% CI, hi | estimate | se | t | p | |
---|---|---|---|---|---|---|
(Intercept) | -0.055 | 0.055 | 0.000 | 0.028 | -0.009 | 0.993 |
autonomie | 0.520 | 0.630 | 0.575 | 0.028 | 20.534 | 0.000 |
betrokkenheid | 0.436 | 0.546 | 0.491 | 0.028 | 17.571 | 0.000 |
autonomie:betrokkenheid | 0.437 | 0.543 | 0.490 | 0.027 | 18.254 | 0.000 |
De output laat zien dat alle drie de termen vrij hoge regressiecoëfficiënten hebben en dat hun BI’s duidelijk aangeven dat alle effecten groot en statistisch significant zijn. Omdat het interactie-effect vrij sterk en significant is, hangt het effect van autonomie op bevlogenheid af van de betrokkenheid. We gaan nu het effect van autonomie bekijken voor drie groepen (denkbeeldige) personen: een groep met een gemiddelde betrokkenheid (die hebben de waarde 0 op BTR, want deze variabele is gestandaardiseerd), een groep die 1 standaardafwijking boven het gemiddelde betrokkenheidsniveau scoort (waarde +1) en een groep die 1 standaardafwijking onder het gemiddelde betrokkenheidsniveau scoort (waarde -1).
Als we dit samen met de gevonden regressiecoëfficiënten invullen in de regressieformule, dan krijgen we (het intercept is 0 vanwege de standaardisatie van alle variabelen dus dat negeren we voor het gemak) de zogenaamde simple slopes (slope = richtingscoëfficiënt) vergelijkingen:
\[\begin{equation} BVL = 0.58 AUT + 0.49 BTR + 0.49 (BTR \cdot AUT) \tag{5.12} \end{equation}\]
Bij BTR = -1 (mensen met relatief weinig betrokkenheid) geldt:
\[\begin{equation} BVL = 0.58 AUT + 0.49 (-1) + 0.49 (-1 \cdot AUT) = 0.09 AUT + -0.49 \tag{5.13} \end{equation}\]
Bij deze groep ligt de bevlogenheid onder het gemiddelde (-0.49) en is het effect van autonomie op bevlogenheid vrij gering.
Bij BTR = 0 (mensen met gemiddelde betrokkenheid) geldt:
\[\begin{equation} BVL = 0.58 AUT + 0.49 (0) + 0.49 (0 \cdot AUT) = 0.58 AUT \tag{5.14} \end{equation}\]
Bij deze groep hangt de bevlogenheid volledig af van hun autonomie: een SD meer autonomie levert 0.58 meer bevlogenheid op.
Bij BTR = +1 (mensen met relatief veel betrokkenheid) geldt:
\[\begin{equation} BVL = 0.58 AUT + 0.49(+1) + 0.49(+1 \cdot AUT) = 1.07 AUT + 0.49 \tag{5.15} \end{equation}\]
Bij deze groep ligt de bevlogenheid een SD boven het gemiddelde (0.49) en hangt de bevlogenheid sterk af van hun autonomie: een SD meer autonomie levert ruim een SD (1.07) meer bevlogenheid op.
De conclusie is dat bij mensen met relatief weinig affectieve betrokkenheid het effect van autonomie op bevlogenheid afwezig is. Bij mensen met veel betrokkenheid is het effect van autonomie juist heel sterk. Bij mensen met een gemiddelde affectieve betrokkenheid ligt het effect ertussenin. De analyse bevestigt dus de hypothese over het moderatie-effect van affectieve betrokkenheid op de relatie tussen autonomie en bevlogenheid.
Het moderatie-effect is grafisch weergegeven in figuur 5.7. De figuur toont een sterk verband bij mensen met veel betrokkenheid (+1 SD) en een zwak verband bij mensen met relatief weinig betrokkenheid (-1 SD). De groep die gemiddeld scoort op betrokkenheid ligt tussen beide andere groepen in. Omdat betrokkenheid een interval variabele is en in principe heel veel waarden heeft, kan je ook heel veel lijntjes maken. Hier zijn er dus drie gekozen voor drie karakteristieke waarden van de moderator.

Figure 5.7: Illustratie van moderatie effect interval moderator.
Wanneer de variabelen niet zijn gestandaardiseerd, kan het effect van de predictor op de afhankelijke variabele nog steeds worden onderzocht voor verschillende waarden van de moderator, zoals voor het gemiddelde en voor plus en min de waarde die correspondeert met 1 SD afwijking van het gemiddelde. In dit geval zijn de waarden die moeten worden ingevuld in de regressieformule niet de waarden -1, 0 en +1, maar het daadwerkelijke gemiddelde en het gemiddelde ± de waarden die corresponderen met één standaardafwijking. Overigens kan het effect van de predictor voor iedere waarde van de moderator worden uitgerekend. In plaats van de gebruikelijke gekozen waarden van plus of min 1 SD kunnen ook andere waarden worden gekozen die een inhoudelijke interpreteerbare betekenis hebben. Stel bijvoorbeeld dat leeftijd een moderator is, dan zou men de waarden kunnen onderzoeken bij leeftijden van 21 en 50 jaar, hoewel deze mogelijk niet overeenkomen met de grenzen die met plus of min 1 SD corresponderen, maar puur omdat men deze leeftijden interessant vindt om het effect bij te onderzoeken.
5.6 Aanname van lineariteit bij moderatie
Het is belangrijk om te beseffen dat bij numerieke variabelen waarbij de moderatie wordt getoetst door een interactieterm zoals hierboven is beschreven, er sprake is van lineaire moderatie. Dit wil zeggen dat het verband tussen X en Y lineair afhangt van de waarde van de moderator Z. Als je een plotje zou maken met op de x-as de waarden van Z en op y-as het verband (regressiecoefficient) tussen X en Y, dan zouden de punten in deze plot op een rechte lijn liggen, vandaar de term lineair.
Maar bedenk dat er ook hele andere vormen van moderatie mogelijk zijn: bijvoorbeeld als voor lage en hoge waarden van Z het verband tussen X en Y relatief hoog is, maar voor de midden waarden van Z het verband juist laag. Dit zou betekenen dat het verband tussen X en Y bijvoorbeeld quadratische afhangt van de waarde van de moderator Z. Wil je een dergelijke moderatie of nog complexere vormen toetsen, dan heb je een ander model nodig, waarbij de interactieterm op een complexere manier wordt gevormd dan het simpelweg vermenigvuldigen van de predictor met de moderator.
Bij nominale variabelen (zoals factoren in een experimenteel design) speelt dit probleem niet, dus de aanname van lineaire moderatie is afwezig bij experimentele studies. Bij nominale variabelen is de vorm van de interactie volledig vrij.
5.7 Stappenplan voor een moderatieanalyse
Om een moderatiehypothese te toetsen, zetten we in deze sectie alle stappen bij elkaar die nodig zijn om de moderatieanalyse uit te voeren.
- Stap 1 Formuleer de moderatiehypothese zorgvuldig.
Bij moderatie gaat het om het effect dat de moderator heeft op het verband tussen een predictor en een afhankelijke variabele. Het moet in de formulering duidelijk worden wat de rol van elke variabele is en hoe het moderatie-effect er precies uitziet. Meestal bestaat de hypothese uit twee deelhypothesen, waarbij eerst het hoofdeffect wordt geformuleerd en daarna de specifieke rol van de moderator daarin. Voorbeeld: regelmatig appels eten bevordert de gezondheid, behalve bij mensen met een appelallergie. Of: het effect van het regelmatig eten van appels op de gezondheid hangt af van het hebben van een appelallergie. Bij allergische mensen is er een negatief verband tussen het eten van appels en de gezondheid, bij niet-allergische mensen een positief verband. De eerste zin geeft het algemene moderatie-effect aan en in de tweede zin wordt dat effect nader gespecificeerd.
- Stap 2 Voer een betrouwbaarheidsanalyse uit op de schalen.
Vaak zullen de begrippen (variabelen) die in de hypothese worden gebruikt, bestaan uit scores die zijn samengesteld uit meerdere gemeten variabelen of indicatoren. Voer hiervoor eerst een betrouwbaarheidsanalyse (met eventueel een factoranalyse) uit om te kijken of de beoogde operationalisatie van het begrip correct is. Construeer daarna de nieuwe variabele als het gemiddelde van de gemeten variabelen waaruit de schaal bestaat.
- Stap 3 Centreer of standaardiseer de variabelen.
In het algemeen wordt aangeraden om de variabelen die bij een moderatie zijn betrokken te centreren. Maak dus nieuwe variabelen die bestaan uit de eventueel in stap 2 geconstrueerde begrippen min hun gemiddelde (of een andere waarde waarom je wilt centreren). Bij centreren wordt meestal het gemiddelde van de variabele afgetrokken; daardoor is het gemiddelde van de nieuwe gecentreerde variabele \(0\). Soms wordt er dan ook nog gedeeld door de standaardafwijking (SD). De nieuwe variabele is dan gestandaardiseerd, wat betekent dat die niet alleen een gemiddelde van nul heeft maar ook een SD van 1.
- Stap 4 Bereken de interactieterm.
De interactieterm wordt berekend door de predictor en de moderator met elkaar te vermenigvuldigen. Let erop dat dan wel de gecentreerde (of gestandaardiseerde) versies van de variabelen worden vermenigvuldigd. Als een van beide variabelen een dummy variabele is (met waarden 0 of 1), dan is centreren minder relevant.
- Stap 5 Voer een regressieanalyse uit.
In de regressieanalyse worden de predictor en de moderator opgegeven als onafhankelijke variabelen, evenals de interactieterm. Let erop dat voor de predictor en moderator exact dezelfde variabelen worden gebruikt als waarmee de interactieterm is berekend. Dus als de interactieterm is berekend met gecentreerde variabelen, gebruik dan in de regressie ook de gecentreerde variabelen. De interactieterm zelf moet niet worden gecentreerd of gestandaardiseerd.
- Stap 6 Interpreteer de resultaten van de analyse.
Kijk in de tabel met de regressiecoëfficiënten niet alleen naar de significantie, maar vooral naar de grootte (effect size) en het betrouwbaarheidsinterval en uiteraard naar het teken (plus of min) van de coëfficiënten. Interpreteer het resultaat zoals in dit hoofdstuk is gedaan aan de hand van de voorbeelden. Check zorgvuldig of de resultaten overeenkomen met de verwachtingen.
Maak eventueel een figuur van het moderatie-effect om de interactie te visualiseren en daardoor beter te begrijpen, wanneer het interactie-effect statistisch significant of redelijk groot is. Bereken eventueel de simple slopes met de hand of met een softwarepakket.
- Stap 7 Schrijf de resultaten op conform de APA-regels.
De APA-manual schrijft voor hoe een regressietabel eruit moet zien en geeft nog veel andere regels over hoe resultaten moeten worden gerapporteerd. Probeer deze regels zo goed mogelijk te volgen. Belangrijk is om de regressiecoëfficiënten, de gestandaardiseerde regressiecoëfficiënten en de betrouwbaarheidsintervallen te rapporteren. Vergeet niet om de resultaten ook te interpreteren, dus geef aan wat de verschillende uitkomsten betekenen.
5.8 Conditioneel hoofdeffect
Een conditioneel effect is een effect dat afhangt van de waarde van een andere variabele. Uit de formule:
\[\begin{equation} BVL = b_0 + (b_1 + b_3 BTR) AUT + b_2 BTR \tag{5.16} \end{equation}\]
volgt dat \(b_1\) geen simpel hoofdeffect meer weergeeft van AUT op BVL. Er is nu sprake van een conditioneel hoofdeffect, dat wil zeggen dat het hoofdeffect ergens van afhangt. De \(b_1\) is alleen het hoofdeffect van AUT op BVL als betrokkenheid
(BTR) precies gelijk is aan \(0\). Hetzelfde geldt voor \(b_2\). Dat is een conditioneel hoofdeffect dat het effect van BTR op BVL aangeeft als autonomie
(AUT) gelijk is aan \(0\). We kunnen dit laatste zien omdat we de bovenstaande formule ook kunnen schrijven als:
\[\begin{equation} BVL = b_0 + b_1AUT + (b_2 + b_3 AUT)BTR \tag{5.17} \end{equation}\]
De conclusie hiervan is dat bij een significante interactie de interactieterm altijd betrokken moet worden bij de interpretatie van de conditionele hoofdeffecten.
5.9 Verdieping: Toetsen van de “simple slopes”
Na het uitvoeren van een regressieanalyse met een interactieterm kunnen we voor elke waarde van Z (de moderator) de regressiecoëfficiënten van X op Y uitrekenen. Maar dat kan ook via een omweg worden gedaan (als dit niet meteen uit de software komt) en dan weten we ook de BI’s van deze coëfficiënten (simple slopes) en daarmee of deze \(b\)’s statistisch significant zijn. Voor de berekening gaan we uit van gestandaardiseerde variabelen. Om de simple slopes uit te rekenen en te toetsen, passen we de volgende stappen toe:
Maak een nieuwe variabele door bij de scores op Z er één bij te tellen. Dus de nieuwe variabele wordt: \(Zp1 = Z + 1\). Mensen die gemiddeld (dus \(0\)) op Z scoren, krijgen nu op Zp1 de waarde \(+1\) en mensen die \(Z = -1\) scoorden, krijgen nu op Zp1 de waarde \(0\).
Maak een interactieterm door X te vermenigvuldigen met Zp1.
Voer een regressieanalyse uit, waarbij Z wordt vervangen door Zp1 en met de interactieterm uit stap 2.
Eerder is uitgelegd dat bij significante interacties de regressiecoëfficiënt (b1) van X op Y het effect van X op Y aangaf voor mensen die \(0\) scoorden op de andere variabele. Die andere variabele is hier Zp1 en mensen die \(0\) scoren op Zp1 zijn dus mensen die -1 scoorden op Z vanwege de relatie: Zp1 = Z + 1. Kortom, als we bovenstaande regressieanalyse uitvoeren voor het eerder gegeven voorbeeld dan moet de simple slope van AUT hetzelfde zijn als die we eerder met de hand hebben berekend voor mensen die laag scoren op BTR. We kunnen daar dan meteen een BI en een p waarde bij krijgen. Op dezelfde manier kunnen we de coëfficiënt krijgen voor mensen die \(1\) SD boven het gemiddelde van Z scoren. Hiervoor moeten we weer een nieuwe variabele maken:
Maak een nieuwe variabele: \(Zm1 = Z-1\). Mensen die 1 SD boven het gemiddelde van Z scoorden (\(Z = 1\)), scoren nu \(0\) op de nieuwe variabele Zm1.
Maak een interactieterm (het product van X en Zm1).
Voer weer een regressieanalyse uit, maar nu met Zm1 en de interactie uit de vorige stap.
Dit geeft de simple slope met BI voor mensen die hoog scoren op Z .
5.10 Moderatiemodellen met drieweginteracties
In de voorgaande paragrafen is het meest eenvoudige moderatiemodel behandeld, met naast de afhankelijke variabele slechts één predictor en één moderator. Het eventuele interactie-effect speelt zich af tussen twee variabelen: we spreken daarom van een tweeweginteractie. Een complexere uitbreiding is om drieweginteractie-effecten te onderzoeken. Bij tweeweginteractie hangt het hoofdeffect van een predictor af van de moderator, en bij een drieweginteractie hangt het moderatie-effect af van een tweede moderator. In figuur 5.8 staat dit model afgebeeld.

Figure 5.8: Moderatiemodel met drieweginteractie.
Hierin is de variabele Z de primaire moderator en W een andere (secundaire) moderator die het primaire moderatie-effect van Z modereert. Een voorbeeld van een model met een drieweginteractie staat afgebeeld in figuur 5.9. In dit model wordt verondersteld dat stress een effect heeft op depressie, en dat sociale steun dit effect kan verzachten. Het effect van stress op depressie is kleiner bij mensen die veel sociale steun ervaren in vergelijking met mensen met weinig sociale steun. Maar we kunnen dit moderatie-effect nog verder specificeren. Mogelijk treedt het verzachtende effect van sociale steun alleen op bij mensen die zich erg eenzaam voelen en heeft sociale steun een zwakker modererend effect bij degenen die zich niet eenzaam voelen. De variabele eenzaamheid is hier de secundaire moderator en sociale steun de primaire. Ook sekse zou in dit voorbeeld een moderator kunnen zijn, bijvoorbeeld in plaats van eenzaamheid. Het verzachtende effect van sociale steun op de invloed van stress op depressie wordt dan verondersteld anders te zijn voor mannen dan voor vrouwen. Een hypothese zou kunnen zijn dat sociale steun belangrijker is voor vrouwen dan voor mannen.

Figure 5.9: Voorbeeld moderatiemodel met drieweginteractie.
Nog een voorbeeld ter verduidelijking. In het eerder genoemde voorbeeld waarin betrokkenheid het effect van autonomie op bevlogenheid modereerde, kan het ambitieniveau van mensen een secundaire moderator zijn. Het primaire moderatie-effect door betrokkenheid zou zich bijvoorbeeld alleen kunnen voordoen bij ambitieuze mensen en niet bij weinig ambitieuze mensen. Ambitie is hier de secundaire moderator.
Om een model met een drieweginteractie te toetsen moet de drieweginteractieterm (XZW) in het regressiemodel worden meegenomen, dat is het product van de drie (gecentreerde of gestandaardiseerde) variabelen. Om tot een correcte schatting van het drieweginteractie-effect te komen moeten ook alle tweeweginteractietermen (van de variabelen die in de drieweginteractieterm zitten, dat zijn XZ, XW, ZW) worden meegenomen in het regressiemodel. Het model met een drieweginteractie ziet er in formulevorm als volgt uit:
\[\begin{equation} Y = b_0 + b_1 X + b_2 Z + b_3 W + b_4 XZ + b_5 XW + b_6 ZW + b_7 XZW. \tag{5.18} \end{equation}\]
Bij het toetsen van de drieweginteractie is dus van belang om naar de grootte en naar de significantie van \(b_7\) te kijken. Net als bij de tweeweginteractie kunnen we nu ook het effect van X op Y bekijken voor verschillende typische waarden van Z en W. Bij gestandaardiseerde variabelen zijn de gebruikelijke typische waarden: -1, 0 en +1.
De interpretatie van een drieweginteractie is lastiger dan van een tweeweginteractie. Dit komt omdat het effect van de moderator zelf ook weer afhangt van een moderator, wat betekent dat er niet alleen sprake is van conditionele hoofdeffecten, maar ook van conditionele tweeweginteracties.
Bij een tweeweginteractie wordt het moderatie-effect inzichtelijk gemaakt door twee of drie lijnen te tekenen die de regressielijnen voorstellen van Y op X voor twee of drie typische waarden van de moderator (zie bijvoorbeeld figuur 5.7). Bij een drieweginteractie zijn er twee gebruikelijke mogelijkheden om de moderatie te visualiseren. Ten eerste een figuur maken met daarin vier lijnen, waarbij elke lijn een combinatie van typische waarden van de moderatoren voorstelt (Z = laag, W = laag), (Z = laag, W = hoog), (Z = hoog, W = laag) en (Z = hoog, W = hoog).
Ten tweede, op de meer gebruikelijke manier, waarbij er twee figuren worden gemaakt met elk twee lijnen, een figuur voor elke typische waarde van W, de secundaire moderator. Elke figuur geeft de tweeweginteractie weer van de primaire moderator. Dit idee kan ook worden uitgebreid naar drie typische waarden van de moderatoren: er ontstaat dan een figuur met negen lijnen of drie figuren met drie lijnen.
In figuur 5.10 staat de drieweginteractie weergegeven van het hierboven besproken voorbeeld over stress en depressie met de moderatoren sociale steun en geslacht. De figuur laat bij vrouwen een interactie-effect zien tussen stress en sociale steun op depressie. Sociale steun heeft een verzachtende werking op het effect van stress op depressie. De groene lijn (veel sociale steun) loopt vlak: bij veel steun is er geen effect van stress, maar de rode lijn (weinig steun) loopt vrij steil omhoog. Bij weinig steun is er dus wel een effect van stress. Bij de mannen daarentegen zien we zo’n interactie-effect niet. Het effect van stress hangt daar niet af van sociale steun, wat we kunnen zien aan de lijnen die parallel aan elkaar lopen. Geslacht is hier een secundaire moderator die de primaire interactie specificeert. De primaire interactie (sociale steun x stress) treedt namelijk alleen op bij de vrouwen en niet bij de mannen.

Figure 5.10: Illustratie van drieweginteractie.
Het is belangrijk om te beseffen dat de rol van predictor, primaire of secundaire moderator niet wordt bepaald door de analyse, maar door de onderzoeker. In de analyse worden alleen conditionele hoofdeffecten en interactie-effecten getoetst. Het is dus belangrijk om een goede theorie te hebben die verklaart waarom de ene variabele het effect van een andere modereert. Bij complexere regressiemodellen is dit nog belangrijker dan bij eenvoudige modellen omdat het aantal mogelijke onderliggende conceptuele modellen veel groter is. Theoretisch zijn ook modellen met interacties op een nog hoger niveau (vierweg) mogelijk, maar in de praktijk komen deze vrijwel niet voor omdat ze nauwelijks meer te interpreteren zijn.