Hoofdstuk 25 Multipele regressie

Auteurs: Gjalt-Jorn Peters en Peter Verboon; laatste update: 2023-08-17

In dit hoofdstuk wordt besproken:
  • regressie-analyse met meerdere voorspellers
  • collineariteit
  • conceptuele overlap tussen voorspellers.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum cross-sectioneel onderzoek (PB0812)
  • Onderzoekspracticum longitudinaal onderzoek (PB1712)

25.1 Inleiding

Multipele of meervoudige regressie-analyse is een uitbreiding van enkelvoudige of simpele regressie-analyse naar een model met meerdere voorspellers. Het conceptuele model ziet er uit zoals weergegeven in Figuur 25.1.

Het structurele model bij multipele regressie-analyse: links drie ellipsen met labels 'x1', 'x2' en 'x3', rechts een ellips met label 'y', en drie pijl die van de linker ellipsen naar de rechter ellips lopen.

Figuur 25.1: Het structurele model bij multipele regressie-analyse: links drie ellipsen met labels ‘x1’, ‘x2’ en ‘x3’, rechts een ellips met label ‘y’, en drie pijl die van de linker ellipsen naar de rechter ellips lopen.

Vanuit statistisch oogpunt is multipele regressie-analyse relatief eenvoudig te begrijpen als je enkelvoudige regressie-analyse eenmaal onder de knie hebt. Die basisuitleg over regressie-analyse wordt behandeld in hoofdstuk Regressie. De aansturing in statistische software is meestal hetzelfde en de manier waarop de resultaten worden gepresenteerd ook. Vanuit theoretisch en methodologisch oogpunt zitten er wel een aantal haken en ogen aan multipele regressie-analyse; deze worden verderop in dit hoofdstuk besproken.

25.2 De regressievergelijking

De regressievergelijking voor multipele regressie is een uitbreiding van de regressievergelijking voor enkelvoudige regressie. Deze uitbreiding staat in vergelijking (25.1).

\[\begin{equation} \hat{y} = b_0 + b_1 x_1 + b_2 x_2 + \dots + b_n x_n \tag{25.1} \end{equation}\]

In deze vergelijking is \(\hat{y}\) de voorspelling van de afhankelijke variabele (\(y\): het dakje staat voor “voorspelde waarde van”) en is \(b_0\) het intercept (het punt waar de lijn de y-as snijdt, dus de waarde van \(y\) als \(x\) gelijk is aan \(0\)). Tot slot staat elke \(b\) voor een regressiecoëfficiënt die bij een gegeven voorspeller (de bijbehorende \(x\)) hoort. Dit model kan worden opgesteld voor een arbitrair aantal voorspellers (dit wordt gerepresenteerd door de \(\dots\) en de \(b_n x_n\)).

25.3 De multipele correlatie en de proportie verklaarde variantie

Net als bij enkelvoudige regressie-analyse wordt bij multipele regressie-analyse de proportie verklaarde variantie (\(R^2\)) uitgerekend. Bij enkelvoudige regressie-analyse is er slechts één voorspeller, en is \(R^2\) gelijk aan \(r^2\), oftewel het kwadraat van de correlatiecoëfficiënt. Bij multipele regressie-analyse zijn er meerdere correlatiecoëfficiënten en gaat dat niet langer op.

De proportie verklaarde variantie heet \(R^2\) omdat het eigenlijk het kwadraat is van de zogenaamde multipele correlatie: de correlatie van alle voorspellers in het model met de afhankelijke variabele. Als je een regressie-model hebt met vier voorspellers, is \(R\) dus de correlatie van alle vier die voorspellers, oftewel van het hele model, met de afhankelijke variabele.

Deze multipele correlatie (\(R\)) is de correlatie tussen de beste voorspelling van de afhankelijke variabele (\(\hat{y}\)) met de geobserveerde waarden van de afhankelijke variabele (\(y\)). Dit wordt weergegeven in vergelijking (25.2).

\[\begin{equation} R^2 = r_{y \hat{y}}^2 \tag{25.2} \end{equation}\]

Bij multipele regressie-analyse wordt de proportie verklaarde variantie dus berekend door de voorspelde waarden (tijdelijk, en in de meeste softwarepakketten achter de schermen) op te slaan, en de correlatie met de geobserveerde waarden van de afhankelijke variabele te berekenen. Die \(R\) wordt vervolgens gekwadrateerd.

25.4 Steekproevenverdelingen

Zoals alles dat kan worden berekend uit een steekproef hebben ook de parameters in het regressiemodel (\(b_0\), \(b_1\), \(b_2\), \(b_n\)), en de proportie verklaarde variantie (\(R^2\)), een steekproevenverdeling. De steekproevenverdeling van de \(b\)’s is de zogenaamde \(t\)-verdeling. Hoewel \(R^2\) een eigen steekproevenverdeling heeft, is deze niet makkelijk met de hand uit te rekenen. Omdat \(R^2\) echter de proportie verklaarde variantie is, wordt vaak de \(F\)-verdeling gebruikt als men de \(p\)-waarde uit wil rekenen die uitdrukt hoe groot de kans op de gevonden \(R^2\) is als de voorspeller in de populatie niet samenhangt met de voorspelde variabele. Dit wordt bijvoorbeeld gedaan als men werkt binnen het kader van nulhypothesesignificantietoetsing (NHST).

25.5 Een voorbeeld

Om multipele regressie-analyse te illustreren gebruiken we een versimpeld voorbeeld waarin we schoolcijfer willen voorspellen op basis van IQ en leermotivatie. De dataset die we gebruiken is verkleind tot er slechts \(80\) deelnemers in zitten: dit is prima voor een voorbeeld, maar zou in het echt een veel te kleine steekproefomvang zijn. Met slechts \(80\) deelnemers is het \(95\%\) betrouwbaarheidsinterval om een correlatiecoëfficiënt of een regressiecoëfficiënt heel breed, en de resultaten uit een gegeven steekproef zijn zo sterk onderhevig aan toeval dat je er niet goed conclusies mee kunt trekken. Om mee te oefenen zijn kleine datasets echter wel geschikt.

25.5.1 De variabelen

De hoofdvariabelen uit deze dataset staan in Tabel 25.1.

Tabel 25.1: Beschrijvingsmaten voor de voorbeeld-dataset.
min mean max sd
Grade 2.4 5.4 9.6 1.5
IQ 64.1 98.8 135.2 15.3
motivationToLearn 1.0 9.9 20.0 3.6

25.5.2 Correlaties

In de dataset vinden we het gemiddeld schoolcijfer (Grade) in het voortgezet onderwijs; een score die aangeeft in hoeverre men gemotiveerd is om te leren (motivationToLearn), gebaseerd op een test die is afgenomen op de basisschool; en een score op een intelligentietest (IQ). Het doel van de regressie-analyse is om het schoolcijfer te voorspellen uit de motivatie om te leren en het IQ. Om een idee te krijgen van de onderlinge samenhang tussen deze variabelen is het belangrijk om eerst de bivariate correlaties en de bijbehorende scatterplots te bestuderen. Deze staan in Figuur 25.2.

Een scattermatrix van de drie variabelen in de voorbeelddataset.

Figuur 25.2: Een scattermatrix van de drie variabelen in de voorbeelddataset.

Hier is te zien dat de correlatie tussen IQ en cijfer uitzonderlijk hoog is, met een \(95\%\) betrouwbaarheidsinterval van \([.62; .82]\). Het \(95\%\) betrouwbaarheidsinterval voor de correlatie tussen motivatie om te leren en cijfer is een stuk lager: \([.08; .48]\). Dit betrouwbaarheidsinterval is consistent met een correlatie van minder dan \(.1\): dan zouden de variabelen slechts \(1\%\) of minder van elkaar verklaren (\(.1^2 = .01 = 1\%\)). Er lijkt zelfs helemaal geen verband te zijn tussen IQ en motivatie om te leren: dit \(95\%\) betrouwbaarheidsinterval is \([-.16; .28]\), en is dus consistent met zowel lage negatieve correlaties, lage positieve correlaties, als een correlatie van \(0\).

25.5.3 De regressie-analyses

De vraag is nu hoe we dit patroon aan samenhang tussen deze drie variabelen kunnen gebruiken om het schoolcijfer te voorspellen uit motivatie om te leren en IQ.

In dit voorbeeld gebruiken we de gecentreerde versies van IQ en motivationToLearn. Het voordeel hiervan is dat het intercept dan een zinvolle interpretatie heeft: dat representeert dan het voorspelde schoolcijfer voor iemand met een gemiddeld IQ en een gemiddelde motivatie om te leren (gemiddeld in de steekproef; dat is niet noodzakelijk hetzelfde als gemiddeld in bredere zin).

We voeren eerst twee enkelvoudige regressie-analyses uit: eentje voor elke voorspeller.

25.5.3.1 Regression analysis

Summary

Formula: Grade ~ IQ_centered
Sample size: 80
Multiple R-squared: [.4; .68] (point estimate = 0.54, adjusted = 0.54)
Test for significance:
(of full model)
F[1, 78] = 92.52, p < .001

Raw regression coefficients

95% conf. int. estimate se t p
(Intercept) [5.15; 5.59] 5.37 0.11 47.7 <.001
IQ_centered [0.06; 0.09] 0.07 0.01 9.6 <.001
a These are unstandardized beta values, called ‘B’ in SPSS.

Hier zien we dat het \(95\%\) betrouwbaarheidsinterval voor \(R^2\) gelijk is aan \([.4; .68]\): we kunnen dus ongeveer de helft van schoolcijfer verklaren met IQ (het zou ook ‘slechts’ \(40\%\) kunnen zijn, maar evengoed tweederde van de variantie). De puntschatting voor schoolcijfer als een deelnemer een gemiddeld IQ heeft is \(5.37\), en het bijbehorende \(95\%\) betrouwbaarheidsinterval is \([5.15; 5.59]\).

Voor elk punt dat iemands IQ stijgt, neemt de voorspelling van schoolcijfer toe met een waarde van ongeveer \([0.06; 0.09]\) (\(95\%\) betrouwbaarheidsinterval), met een puntschatting van \(0.07\).

25.5.3.2 Regression analysis

Summary

Formula: Grade ~ motivationToLearn_centered
Sample size: 80
Multiple R-squared: [.01; .23] (point estimate = 0.09, adjusted = 0.07)
Test for significance:
(of full model)
F[1, 78] = 7.36, p = .008

Raw regression coefficients

95% conf. int. estimate se t p
(Intercept) [5.05; 5.69] 5.37 0.16 33.7 <.001
motivationToLearn_centered [0.03; 0.21] 0.12 0.04 2.7 .008
a These are unstandardized beta values, called ‘B’ in SPSS.

Voor motivatie om te leren zien we dat het \(95\%\) betrouwbaarheidsinterval voor \(R^2\) gelijk is aan \([.01; .23]\): we kunnen veel minder variantie verklaren, in het slechtste geval bijna niets, en in het beste geval nog minder dan een kwart. De puntschatting voor schoolcijfer als een deelnemer een gemiddeld IQ heeft is hetzelfde (\(5.37\)), maar het bijbehorende \(95\%\) betrouwbaarheidsinterval is iets breder: \([5.05; 5.69]\). Dat komt omdat er meer onverklaarde variantie in de afhankelijke variabele overblijft: we verklaren die immers minder goed. Daardoor kunnen we het intercept ook minder goed schatten.

Voor elk punt dat iemands motivatie om te leren stijgt, neemt de voorspelling van schoolcijfer toe met een waarde van ongeveer \([0.03; 0.21]\) (\(95\%\) betrouwbaarheidsinterval), met een puntschatting van \(0.12\).

Nu combineren we beide voorspellers in een meervoudig regressiemodel.

25.5.3.3 Regression analysis

Summary

Formula: Grade ~ IQ_centered + motivationToLearn_centered
Sample size: 80
Multiple R-squared: [.47; .73] (point estimate = 0.6, adjusted = 0.59)
Test for significance:
(of full model)
F[2, 77] = 58.56, p < .001

Raw regression coefficients

95% conf. int. estimate se t p
(Intercept) [5.16; 5.58] 5.37 0.11 50.9 <.001
IQ_centered [0.06; 0.08] 0.07 0.01 10.0 <.001
motivationToLearn_centered [0.04; 0.16] 0.10 0.03 3.4 .001
a These are unstandardized beta values, called ‘B’ in SPSS.

Scaled regression coefficients

95% conf. int. estimate se t p
(Intercept) [-0.14; 0.14] 0.00 0.07 0.0 1.000
IQ_centered [0.58; 0.86] 0.72 0.07 10.0 <.001
motivationToLearn_centered [0.1; 0.39] 0.25 0.07 3.4 .001
a These are standardized beta values, called ‘Beta’ in SPSS.

Als we schoolcijfer voorspellen met beide voorspellers samen bereiken we een \(R^2\) met een \(95\%\) betrouwbaarheidsinterval van \([.47; .73]\) en een bijbehorende puntschatting van \(R^2 = .6\) (hoewel het brede betrouwbaarheidsinterval gelijk de beperkte bruikbaarheid van die puntschatting aantoont).

In vergelijking met het model met alleen IQ als voorspeller is het dus zowel mogelijk dat we meer variantie verklaren (als de populatiewaarde van \(R^2\) in het eerste model lager ligt, en de \(R^2\) die we daar vonden dus door toeval relatief hoog is uitgevallen; terwijl in dit meervoudige regressiemodel de populatiewaarde van \(R^2\) hoger ligt, en deze \(R^2\) dus dichter in de buurt van de populatiewaarde ligt, of misschien zelfs een onderschatting is), as dat we evenveel variantie verklaren: de betrouwbaarheidsintervallen zijn consistent met gelijke populatiewaarden.

We zien verder dat de schattingen voor de hellingscoëfficiënten iets lager zijn dan in de enkelvoudige regressiemodellen, hoewel de betrouwbaarheidsintervallen overlappen en deze schattingen dus consistent zijn met dezelfde populatiewaarden. Dat de schattingen in het multipele regressiemodel lager zijn komt omdat de voorspellers met elkaar samenhangen: kennelijk hangen ze ook met elkaar samen in hun voorspelling van de afhankelijke variabele. In het eerste model en het tweede model werd het stukje verklaarde variantie in de afhankelijke variabele die door beide voorspellers werd verklaard steeds aan de enige voorspeller in het model toegekend. In dit multivariate regressiemodel kan dat niet: de variantie van het criterium kan maar een keer worden verklaard. Een statistisch model kan nooit achterhalen aan welke voorspeller dat stukje verklaarde variantie moet worden toegekend, en in de praktijk wordt die dan op onvoorspelbare en ondoorzichtige wijze verdeeld. In dit geval betreft het maar een kleine beetje overlap, dus dat niet duidelijk is wat ermee gebeurt is niet zo erg.

25.5.4 De voorspellingen

Met deze puntschattingen kunnen we nu de regressievergelijking opstellen. Deze is zichtbaar in vergelijking (25.3).

\[\begin{equation} \text{Voorspeld cijfer} = 5.37 + 0.07 \cdot \text{IQ} + 0.1 \cdot \text{motivatie om te leren} \tag{25.3} \end{equation}\]

Als iemand dus een IQ heeft van \(103.82\) (dus \(5\) punten boven het gemiddelde) en \(5\) scoort op de schaal die motivatie om te leren meet (dus \(4.86\) onder het gemiddelde), dan kunnen we deze vergelijking invullen en voorspellen wat voor cijfer die persoon haalt, zoals voorgedaan in vergelijking (25.4).

\[\begin{equation} \text{Voorspeld cijfer} = 5.37 + 0.07 \cdot 5 + 0.1 \cdot -4.86 = 5.23 \tag{25.4} \end{equation}\]

Het werken met een regressievergelijking werkt makkelijker als de voorspellers niet zijn gecentreerd: nu moeten we de waarden van deze persoon op de voorspellers eerst omrekenen naar het verschil ten opzichte van het gemiddelde. Als we niet hadden gecentreerd hadden we die waarden rechtstreeks in kunnen vullen. Als je doel is om voorspellingen te doen, centreer je daarom de voorspellers meestal niet (sowieso is dat niet gebruikelijk, overigens).

25.6 Aannames van multipele regressie-analyse

De aannames van multipele regressie-analyse zijn hetzelfde als van enkelvoudige regressie-analyse (zie hoofdstuk Regressie). Er komt een zachte aanname bij: er mag geen sprake zijn van zogenaamde multicollineariteit. Multicollineariteit betekent dat de voorspellers goed uit elkaar te voorspellen zijn. Met andere woorden: als je een regressie-analyse doet waarbij je de ene voorspeller voorspelt uit de ándere voorspellers (waarbij dus de afhankelijke variabele buiten beschouwing wordt gelaten), en de \(R^2\) is hoog, dan is er sprake van multicollineariteit.

Multicollineariteit is geen groot probleem: het betekent alleen dat er minder informatie in je regressie-model beschikbaar is. Dit manifesteert zich als grotere standaardfouten. Anders dan bij schending van de harde aannames (zie hoofdstuk Regressie) staat de zuiverheid van de voorspelling dus niet op het spel. Wel betekenen die grotere standaardfouten dat de betrouwbaarheidsintervallen breder worden. Dit betekent dat je niet goed meer conclusies kunt trekken over hoeveel variantie je kunt verklaren en dat je geen betrouwbare regressievergelijking meer op kunt stellen.

Vaak is dit op te lossen door meer deelnemers te werven, maar dat vereist wel dat je van te voren verwachtingen hebt over de samenhang tussen je voorspellers. Als je die hebt kun je deze meenemen in je berekeningen voor de vereiste steekproefomvang. Als je twee voorspellers hebt kun je de effectieve steekproefomvang die je overhoudt berekenen door je steekproefomvang te vermenigvuldigen met \(1-r^2\). Andersom kun je ook het aantal deelnemers dat je nodig zou hebben als je voorspellers niet met elkaar samen zouden hangen delen door \(1-r^2\) om te berekenen hoeveel je er nodig hebt gegeven een bepaalde samenhang.

Als je dus twee voorspellers hebt waarvoor geldt dat \(r = .5\), en je had berekend dat je voor je regressie-analyse \(379\) deelnemers nodig had uitgaande van ongecorreleerde voorspellers, dan betekent dat dat die \(379\) eigenlijk maar de data van \(284\) deelnemers leveren, zoals berekend in vergelijking (25.5).

\[\begin{equation} 379 \cdot (1-r^2)=379 \cdot (1-.5^2) = 379 \cdot (1-.25)=379 \cdot .75 = 284 \tag{25.5} \end{equation}\]

Om toch voldoende data te krijgen heb je niet \(379\) deelnemers nodig, maar \(506\), zoals berekend in vergelijking (25.6).

\[\begin{equation} \frac{379}{(1-r^2)}=\frac{379}{.75}= \tag{25.6} \end{equation}\]

Als je zulke correcties niet toepast, betekent dat dat je schattingen onvoldoende accuraat zijn, en als je nulhypothesesignificantietoetsing toepast, betekent het dat je te weinig power hebt in vergelijking met je onderzoeksvoorstel. Omdat zulke onderzoeksvoorstellen ethisch worden getoetst waarbij het aantal benodigde deelnemers, de daarmee behaalde precisie of power, en de onderzoeksvragen samen worden afgewogen, is nalatigheid op dit vlak een serieuze zaak. Het is dus belangrijk om bij de planning van het aantal benodigde deelnemers goed onderzoek te doen naar de te verwachten samenhang tussen de voorspellers.

25.6.1 Multicollineariteit onderzoeken

Om te inspecteren in welke mate er in jouw steekproef sprake is van multicollineariteit (er is áltijd sprake van multicollineariteit in een bepaalde mate; alleen merk je pas een effect van die samenhang tussen je voorspellers als die sterker wordt) kun je in statistische software de informatie over multicollineariteit bestellen (dit heet vaak ‘multicollinearity diagnostics’). Er zijn er twee: de ‘variance inflation factor’ (VIF) en de tolerantie.

Deze twee zijn elkaar reciproke: als je \(1\) deelt door de toleratie krijg je de VIF en vice versie. De toleratie wordt berekend door die regressie-analyse die we net noemden uit te voeren. De tolerantie van voorspeller is \(1 - R^2\), waarbij die \(R^2\) de \(R^2\) is die je krijgt als je die voorspeller berekent uit alle andere voorspellers. Als je dus \(33\%\) van een voorspeller kunt voorspellen uit de andere voorspellers, dan is de tolerantie gelijk aan \(1 - R^2 = 1 - .33 = .67\).

De variantie-inflatiefactor (de VIF) is de reciproke van de tolerantie, dus als de tolerantie gelijk is aan \(.67\), dan is de VIF gelijk aan \(\frac{1}{.67} = 1.5\). De variantie-inflatiefactor heet zo omdat het de factor is waarmee de varianties van je schattingen toenemen in vergelijking met wanneer je voorspellers onafhankelijk waren geweest. Met een variantie-inflatiefactor van 1.5 worden je schattingen dus anderhalf keer minder accuraat.

Omdat multicollineariteit de zuiverheid van je schattingen niet bedreigt, en op te lossen is door grotere steekproeven te gebruiken (als je het ziet aankomen), is het vanuit statistisch oogpunt niet zo’n groot probleem. Echter, als je onderzoek doet naar mensen, bijvoorbeeld in de psychologie, onderwijswetenschappen, of managementwetenschappen, dan zijn correlaties tussen je voorspellers vaak wel degelijk problematisch, maar om een andere reden.

25.7 Overlap in voorspellers

Als voorspellers in een multivariate analyse met elkaar correleren, kan dat zijn omdat ze constructen representeren die conceptueel overlappen. Als in het voorbeeld dat in dit hoofdstuk werd gebruikt bijvoorbeeld niet motivatie om te leren en IQ waren onderzocht, maar motivatie om te leren en de mate waarin iemand de lesstof interessant vond, dan zouden de twee voorspellers waarschijnlijk zo zijn gedefinieerd dat ze overlappende delen van de menselijke psychologie zouden beschrijven. Of dat zo is hangt af van de precieze definitie van de constructen, van de manier waarop ze zijn geoperationaliseerd, en van de meetinstrumenten die worden gebruikt.

Laten we om dit te illustreren aannemen dat de meetinstrumenten voor motivatie om te leren en voor interesse in de leerstof elk vier items bevatten (zie hoofdstuk Constructen voor de introductie van deze wijze om over constructen na te denken).

De vier items voor motivatie om te leren zijn als volgt (de ankers voor de antwoordschaal staan tussen rechte haken, gescheiden door een sluisteken).

  1. Ik heb [ heel weinig discipline | heel veel discipline ]
  2. Ik wil de stof [ absoluut niet leren | heel graag leren ]
  3. Ik vind de leerstof [ helemaal niet leuk | heel erg leuk ]
  4. Deze leerstof is [ nutteloos | heel nuttig ]

Dit correspondeert met een definitie van het construct die visueel kan worden weergegeven zoals is gedaan in Figuur 25.3.

Een illustratie van de definitie van construct 'motivatie om te leren'.

Figuur 25.3: Een illustratie van de definitie van construct ‘motivatie om te leren’.

De vier items voor interesse in de leerstof zijn als volgt (de ankers voor de antwoordschaal staan tussen rechte haken, gescheiden door een sluisteken).

  1. Ik vind dit onderwerp [ niet boeiend | fascinerend ]
  2. Ik vind dit onderwerp [ heel saai | heel interessant ]
  3. Ik vind dit onderwerp [ niet leuk | heel leuk ]
  4. Ik vind dit onderwerp [ nutteloos | heel nuttig ]

Dit correspondeert met een definitie van het construct die visueel kan worden weergegeven zoals is gedaan in Figuur 25.4.

Een illustratie van de definitie van construct 'interesse in de leerstof'.

Figuur 25.4: Een illustratie van de definitie van construct ‘interesse in de leerstof’.

Als deze meetinstrumenten worden toegepast bij deelnemers kunnen de aspecten van de menselijke psychologie die ze meten in dezelfde figuur worden getekend. Beide representaties van de constructen kunnen dan worden gecombineerd, zoals is gedaan in Figuur 25.5. In deze figuur zijn de aspecten van de psychologie die binnen de definitie van motivatie om te leren te herkennen aan een grijze achtergrond, terwijl de aspecten die binnen de definitie van interesse in de leerstof vallen te herkennen zijn aan een dikgedrukt omlijnde cirkel.

Een illustratie van overlap tussen twee voorspellers.

Figuur 25.5: Een illustratie van overlap tussen twee voorspellers.

Hier is duidelijk dat beide constructen zo zijn gedefinieerd dat ze voor de helft overlappen. Of mensen iets leuk en nuttig vinden maakt deel uit van de definitie van beide constructen. Dat is in zichzelf niet problematisch: dat psychologische constructen overlappende definities hebben is eerder regel dan uitzondering. Iemands evaluatie van de ‘leukheid’ en ‘nuttigheid’ van leerstof kan prima zowel in de definitie van motivatie om te leren als van interesse voor de leerstof vallen.

Als ‘leukheid’ en ‘nuttigheid’ nu bovendien samenhangen met het cijfer dat deelnemers halen, geldt dat deze twee constructen ook samenhangen in hun verklaring van de afhankelijke variabele in het regressiemodel. Zoals gezegd is zulke overlap eerder regel dan uitzondering, en is die in beginsel niet problematisch vanuit theoretische of methodologische oogpunt.

Echter, statistische analyses kunnen hier niet mee omgaan. Zulke overlap is geen probleem bij bivariate analyses, maar bij multivariate analyses (met meerdere voorspellers), zoals multipele regressie-analyse, ontstaat er wel een probleem.

Dat komt omdat de verklaarde variantie in de afhankelijke variabele tegelijkertijd bij beide voorspellers hoort. Het is bijvoorbeeld niet zo dat de variantie in cijfer die wordt verklaard door het item dat ‘leukheid’ meet alleen bij ‘motivatie om te leren’ hoort, terwijl de variantie in cijfer die wordt verklaard door ‘nuttigheid’ alleen bij ‘interesse in de leerstof’ hoort. De definitie van ‘motivatie om te leren’ omvat zowel ‘leukheid’ als ‘nuttigheid’, en als je een van beide items uit het meetinstrument zou halen, of als je de variantie die bij een van beide items uit het meetinstrument zou halen, dan zou die datareeks niet langer een valide meting van dat construct representeren.

In een multipele regressie-analyse moet de regressiecoëfficiënt van ‘motivatie om te leren’ dus betrekking hebben op de variantie in het cijfer die wordt verklaard door alle alle vier de items ‘intentie’, ‘discipline’, ‘leukheid’, en ‘nuttigheid’; en de regressiecoëfficiënt van ‘interesse in de leerstof’ moet betrekking hebben op de variantie in het cijfer die wordt verklaard door alle vier de items ‘interessantheid’, ‘fascinerendheid’, ‘leukheid’, en ‘nuttigheid’.

Dat kan echter niet in regressie-analyse: de variantie in cijfer kan maar een keer worden ‘uitgedeeld’. De variantie van de items ‘leukheid’ en ‘nuttigheid’ wordt dus op een ondoorzichtige en onvoorspelbare manier opgedeeld tussen ‘motivatie om te leren’ en ‘interesse in de leerstof’. Als direct gevolg hiervan hebben deze twee regressiecoëfficiënten niet langer betrekking op de datareeksen zoals die zijn gemeten voor die twee constructen.

Gegeven dat je in wetenschappelijk onderzoek alleen de hoofdanalyses uitvoert nadat je hebt geverifieerd of de meetinstrumenten valide zijn toegepast in je steekproef, weten we dat de oorspronkelijke datareeksen valide representaties waren van de doelconstructen. We weten dus zeker dat de items in de meetinstrumenten goed de definitie van de constructen afdekken, en dus geldt dat als we items verwijderen, of als we variantie die bij die items hoort verwijderen, die datareeksen geen valide representaties van die doelconstructen meer zijn.

Dat betekent noodzakelijkerwijs dat als we in deze situatie regressie-analyse gebruiken, de regressiecoëfficiënten betrekking hebben op onbekende, invalide subsets van die twee constructen. We kunnen dus geen conclusies over ‘motivatie om te leren’ en ‘interesse in de leerstof’ trekken op basis van die regressiecoëfficiënten.

De \(R^2\) is wel nog waardevol: deze geeft aan hoeveel we in totaal begrijpen van het behaalde cijfer met beide constructen samen. De overlap zit hierin verdisconteerd, en dat is precies wat we willen.

Als in multipele regressie (of andere multivariate analyses) voorspellers correleren, dan is het belangrijk om je ervan te vergewissen dat de definities van de constructen, de operationalisaties, en de items in de meetinstrumenten niet dezelfde aspecten van de menselijke psychologie afdekken. Als dat wel zo is, zijn de schattingen uit multivariate modellen geen zuivere schattingen (ze zijn gebiased), en kun je beter bivariate analyses gebruiken, zoals correlaties.

25.8 Categorische voorspellers: dummycodering

Soms zijn voorspellers bij lineaire regressie niet continu (gemeten op interval- of rationiveau), maar categorisch (gemeten op nominaal of ordinaal niveau). Zoals eerder gesteld dienen de covariaten (de onafhankelijke variabelen) en het criterium (de afhankelijke variabele) in een lineaire regressie analyse gemeten te zijn op een continu meetniveau.

Er is echter een manier om toch categorische voorspellers op te nemen. Hierbij wordt gebruikt gemaakt van het gegeven dat categorische variabelen met slechts twee mogelijke meetwaarden (dichotome variabelen; ook wel binaire of logische variabelen genoemd) als interval-variabelen beschouwd kunnen worden.

25.8.1 Dichotome voorspellers

Bij categorisch voorspellers die dichotoom zijn (en dus slechts twee mogelijke meetwaarden hebben) wordt de ene meetwaarde vaak gerepresenteerd door een \(0\) en de andere door een \(1\). Neem bijvoorbeeld de variabele of deelnemers in een stad met minstens \(100 000\) inwoners wonen of niet. Door deelnemers die in zo’n stad wonen kunnen een \(1\) toe te kennen, en deelnemers die in een kleinere woonplaats wonen een \(0\) toe te kennen, kan die nieuwe datareeks worden opgenomen als voorspeller in een regressie-analyse.

In dat geval representeert de bijbehorende regressiecoëfficiënt het verschil tussen die twee groepen. In de regressievergelijking voor mensen in een kleinere woonplaats wordt deze regressiecoëfficiënt vermenigvuldigd met \(0\), en draagt deze dus niet bij aan de voorspelde waarde. Voor mensen in een grotere woonplaats wordt die regressiecoëfficiënt vermenigvuldigd met \(1\), en wordt hij dus opgeteld bij hun voorspelde waarde.

Hoewel deze benadering intuïtief is, kleven er een aantal problemen aan (Kraemer & Blasey, 2004). Een hiervan is dat het uitmaakt welke categorie op \(0\) wordt gezet en welke op \(1\). Wanneer we een dummy-gecodeerde variabele opnemen in een multipele regressie analyse, dan dienen we rekening te houden met de codering van de variabele bij het interpreteren van de berekende parameters.

Stel dat we een enkelvoudige regressie analyse uitvoeren met Woonplaats als voorspeller (met als codering: \(0\) = kleine woonplaats en \(1\) = grote woonplaats) en als criteriumvariabele Gemeenschapsgevoel. Als we terugdenken aan de betekenis van het intercept, dan zou dit inhouden dat het intercept de gemiddelde waarde van Gemeenschapsgevoel voorstelt voor inwoners van een kleine woonplaats (dat is namelijk de categorie waarbij Woonplaats de waarde \(0\) heeft).

Wanneer we de codering van Woonplaats omkeren, zullen we dus een andere waarde voor het intercept krijgen. Om dit te voorkomen, is het vaak beter om de variabelen zo te coderen dat de parameters worden berekend voor de groep ‘in het midden’ (dus inwoners van kleine en grote woonplaatsen gecombineerd). We kunnen dit doen door aan deelnemers uit een kleine woonplaats \(-0.5\) toe te kennen en aan deelnemers uit een grote woonplaats \(+0.5\). Het intercept wordt hierdoor onafhankelijk van de codering van de variabele. In een multipele regressie analyse worden hierdoor ook alle andere parameters onafhankelijk van de codering van eventuele dichotome variabelen. Dit maakt vooral de interpretatie van modellen met een interactie met een dichotome variabele eenduidiger.

25.8.2 Voorspellers met meer categorieën

Als er meer dan twee mogelijke meetwaarden zijn (dus meer dan twee categorieën) wordt er één referentiecategorie gekozen, en worden de overige categorieën gerepresenteerd met een nieuwe datareeks elk: ze krijgen elk een eigen dummy. Ook hier geldt dat het gangbaar is om \(0\)/\(1\)-codering toe te passen.

Stel bijvoorbeeld dat er in een studie onder middelbare scholieren drie meetwaarden zijn voor opleidingstype: ‘praktisch’ (vmbo en praktijkonderwijs), ‘algemeen’ (havo), en ‘theoretisch’ (vwo), die zijn opgeslagen in een variabele die educationType heet met als waarden practical, general, en theoretical. Een typische dummycodering zou zijn om op basis van deze datareeks met drie mogelijke waarden twee nieuwe datareeksen te produceren, bijvoorbeeld educationType_practical en educationType_theoretical. De eerste, educationType_practical, wordt op \(0\) gezet voor alle deelnemers behalve de deelnemers die waarde practical hebben voor variabele educationType: voor hen wordt hij op \(1\) gezet. De tweede, educationType_theoretical, wordt ook op \(0\) gezet voor alle deelnemers, maar nu zijn de deelnemers die waarde theoretical hebben voor variabele educationType de uitzondering: voor hen wordt hij op \(1\) gezet.

Als deze twee dummyvariabelen nu in een multipele regressieanalyse worden gebruikt representeren ze samen het effect van de variabele opleidingstype. Voor deelnemers die havo doen staan beide dummyvariabelen op \(0\). Als een deelnemer vmbo doet, komt de waarde van de regressiecoëfficiënt voor dummyvariabele educationType_practical bij hun voorspelde waarde; en als een deelnemer vwo doet, komt de waarde van de regressiecoëfficiënt voor dummyvariabele educationType_theoretical bij hun voorspelde waarde. De drie mogelijke opleidingstypes corresponderen dus elk met unieke voorspellingen.

Echter, deze benadering wordt ook afgeraden (Kraemer & Blasey, 2004). In plaats daarvan is het beter om ook deze dummyvariabelen te centreren. Omdat er meerdere meetwaarden worden gerepresenteerd wordt echter niet \(-0.5\) en \(+0.5\) gebruikt: dit coderingsschema is eigenlijk de specifieke invulling van een iets generieker coderingsschema. Dat coderingsschema stelt dat de ene categorie niet \(0\) krijgt, maar \(\frac{-1}{m}\), en de andere categorie \(1-\frac{1}{m}\), waarbij \(m\) staat voor het totale aantal categorieën (meetwaarden).

Bij een dichotome variabele zijn er twee mogelijke meetwaarden (categorieën), dus \(m=2\), dus de ene groep deelnemers krijgt \(\frac{-1}{m}=\frac{-1}{2}=-0.5\), en de andere groep deelnemers krijgt \(1-\frac{1}{m}=1-\frac{1}{2}=1-0.5=0.5\). Bij een dichotome variabele kom je dus weer uit op een codering met \(-0.5\) en \(+0.5\).

Als er een categorische variabele is met drie meetniveaus krijg je \(\frac{-1}{m}=\frac{-1}{3}=-0.33\) en \(1-\frac{1}{m}=1-\frac{1}{3}=1-0.33=0.67\). In het voorbeeld hierboven wordt dan educationType_practical, wordt op \(-0.33\) gezet voor alle deelnemers behalve de deelnemers die waarde practical hebben voor variabele educationType: voor hen wordt hij op \(0.67\) gezet. De tweede, educationType_theoretical, wordt ook op \(-0.33\) gezet voor alle deelnemers, maar op \(0.67\) voor deelnemers die waarde theoretical hebben voor variabele educationType.

25.8.3 Dummycodering

Dummycodering wordt vaak in verband gebracht met het ‘opsplitsen’ van categorisch voorspellers om ze op te kunnen nemen in een regressiemodel zoals uitgelegd in de vorige paragraaf. Echter, dummycodering heeft een bredere betekenis: het is de naam voor het numeriek representeren van niet-numerieke data. Alle categorische variabelen zijn eigenlijk ‘kwalitatief’ of ‘discreet’: hun meetwaarden hebben geen numerieke representatie. Of iemand een enig kind is of niet, of graag naar de kermis gaat of niet, of iemand haarkleur zijn geen getallen. Elke numerieke representatie heet dummycodering, en elke dummycodering betekent dat er een subjectief besluit is genomen welk coderingsschema wordt gehanteerd.

Veel datasets bevatten dus gedummycodeerde variabelen. Het is daarom belangrijk om voordat je met zo’n dataset aan de slag gaat, je ervan te vergewissen dat je het coderingsschema dat is toegepast begrijpt, en het te veranderen als je denkt dat het geen handig coderingsschema is.

Het advies om altijd te dummycoderen met \(\frac{-1}{m}\) en \(1-\frac{1}{m}\) geldt overigens alleen in de context van regressie-analyse. Het kan zelden kwaad om dat dummycoderingsschema standaard toe te passen, maar buiten de context van lineaire modellen kunnen andere dummycoderingsschema’s vaak ook weinig kwaad.

25.9 Situaties waarin multipele regressie wordt gebruikt

Er zijn vier veelvoorkomende situaties waarin multipele regressie-analyse wordt gebruikt.

Ten eerste is er de pragmatische situatie waarin je simpelweg de best mogelijke voorspelling van een bepaalde variabele wil hebben (dat is dan in het regressie-model de afhankelijke variabele). In dit geval maakt het niet uit of de regressiecoëfficiënten valide schattingen geven van de unieke bijdrage van de voorspellers: het gaat er alleen om dat de voorspelde waarden zo accuraat mogelijk zijn en dat de proportie voorspelde variantie, oftewel \(R^2\), goed wordt geschat. Vanwege dit pragmatische karakters is het vaak niet nodig om rigoreus te snoeien in voorspellers: hoewel in de wetenschap naar het meest spaarzame model wordt gestreefd, is dat minder belangrijk nodig als alleen het best voorspellende model wordt gezocht. Het gaat in deze situatie dus niet om begrip maar om voorspelling. Deze situaties komen daarom in de wetenschap meestal niet voor. Een voorbeeld zou kunnen zijn dat je zo goed mogelijk wil voorspellen welk cijfer schoolkinderen gaan halen. Als dat je enige doel is, is het niet erg om een model met \(20\) voorspellers te hebben als je voorspelling maar goed is; en is het geen probleem om een \(21\)ste voorspeller toe te voegen als je voorspelling daar ietsje beter van wordt.

Ten tweede is er de toegepaste situatie waarin je wil schatten hoeveel van een variabele je begrijpt aan de hand van een serie voorspellers. In dit geval maakt het ook niet uit of de regressiecoëfficiënten valide schattingen geven van de unieke bijdrage van de voorspellers: je wil alleen de proportie voorspelde variantie, dus \(R^2\), weten. Eventuele conceptuele overlap tussen voorspellers is dan niet problematisch. Een voorbeeld is onderzoek voor gedragsveranderingsinterventies. Bij de ontwikkeling van dergelijke campagnes is het eerst nodig om in kaart te brengen welke psychologische constructen (determinanten) het gedrag verklaren. Deze constructen hebben vaak overlappende definities, en dus overlappende operationalisaties, die hetzelfde stukje psychologie verklaren. Je kunt de correlaties van de determinanten met het gedrag dus niet zomaar optellen om een schatting te krijgen van hoeveel van het gedrag je verklaart: maar in multipele regressie-analyse geeft de \(R^2\) daar wel een goede schatting van. Vanwege de overlap kun je de regressiecoëfficiënten in zo’n geval niet interpreteren (zie sectie ‘Overlap in voorspellers’ hierboven).

Ten derde is er de situatie waarin je wél geïnteresseerd bent in de unieke bijdrage van elke voorspeller en waarin de voorspellers niet met elkaar samenhangen. Dit is de meest eenvoudige situatie, maar bij onderzoek met mensen (psychologie, onderwijswetenschappen, managementwetenschappen, etc) is dit ook heel zeldzaam. In die situatie kun je regressiecoëfficiënten rechtstreeks interpreteren: het zijn dan zuivere schatters van het effect van elke voorspeller.

Ten vierde is er de situatie waarin je voorspellers met elkaar samenhangen, maar je weet dat ze niet conceptueel overlappen. In dat geval representeren de voorspellers en de afhankelijke variabele elk apart te onderscheiden stukjes van de wereld, en de samenhang die er tussen hen bestaat is het gevolg van causale verbanden. Niet noodzakelijk causale verbanden van de voorspellers naar de afhankelijke variabele: als je die wil onderzoeken, kun je beter een experimenteel ontwerp gebruiken. Meestal betreft het verbanden tussen andere variabelen, die niet in je studie-ontwerp zitten. In sommige gevallen kun je dan zogenaamde ‘directed acyclic graphs’ opstellen, oftewel DAGs. Als dat mogelijk is, kan het zijn dat je alsnog conclusies over causaliteit kunt trekken. Zie voor meer informatie hierover hoofdstuk Causaliteit.

Referenties

Kraemer, H. C., & Blasey, C. M. (2004). Centring in regression analyses: A strategy to prevent errors in statistical inference. International Journal of Methods in Psychiatric Research, 13(3), 141–151. http://www.ncbi.nlm.nih.gov/pubmed/15297898