Hoofdstuk 37 Multilevel-analyse-2

In dit hoofdstuk wordt besproken:
  • multilevel-modellen met meerdere voorspellers
  • cross-level interactie
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspractium longitudinaal onderzoek (PB1712)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Multiple-regressie
  • Multilevel-analyse-1

37.1 Inleiding

In de meeste modellen worden naast de voorspellende en de afhankelijke variabelen ook andere variabelen meegenomen die van invloed kunnen zijn op de afhankelijke variabelen. Deze variabelen noemen we covariaten. Denk aan de leeftijd en het geslacht van de leerling, de ervaring van de leerkracht of het wiskundeboek dat op school gebruik wordt. Door het opnemen van een covariaat in het model verwacht men de relatie tussen de predictor en de afhankelijke variabele zuiverder te kunnen schatten.

Meestal voegt men een covariaat als een fixed effect toe aan het multilevelmodel. Maar als een onderzoeker wil onderzoeken of het effect van de covariaat op de afhankelijke variabele afhankelijk is van de groepen in de onderzoekspopulatie, dan is het nodig om de covariaat ook als random effect mee te nemen.

Voordat we covariaten als random effect meenemen, moeten we bedenken dat de power voor het schatten van de random effecten afhankelijk is van het aantal groepen in de steekproef, zoals eerder besproken. Het is daarom verstandig om het aantal random effecten zo klein mogelijk te houden. Als we bepaalde variabelen dus alleen meenemen om hier in het algemeen voor te corrigeren, dan voegen we deze als fixed effect toe aan het model. Alleen als er echt gegronde reden zijn om te verwachten dat de invloed van deze variabele varieert over de verschillende groepen, neemt men deze als random effect mee.

37.2 Model B: covariaat op niveau 1

In onderstaand voorbeeld zullen we u eerst laten zien hoe u het geslacht van de student (sekseLeerling) als fixed covariaat (covariaat op het eerste niveau) mee kunt nemen in het model. Dit is een covariaat van het eerste niveau omdat hij varieert per leerling, en leerlingen vormen het eerste niveau. Deze variabele wordt toegevoegd aan het model met het random intercept en random slope over de klassen (model A2). Als we de variabele sekseLeerling toevoegen aan het model A2 dan ziet het nieuwe model (B) er als volgt uit:

\[\begin{equation} wiskunde = b_{0j} + b_{1j}intelligentie + b_2sekseLeerling + \epsilon_{ij} \end{equation}\]

Omdat het intercept en de slope van intelligentie random coëfficiënten zijn, kunnen we net als bij model A2 ook schrijven:

\[\begin{equation} wiskunde = \gamma_{00} + u_{0j} + (\gamma_{10} + u_{1j})intelligentie + b_2sekseLeerling + \epsilon_{ij} \end{equation}\]

Er is dus een extra fixed effect \(b_2\) bijgekomen in vergelijking met model A2. Deze covariaat wordt toegevoegd aan het model in het volgende modelschema:

ModelB: Afhankelijk = wiskunde
      / Fixed = intercept intelligentie sekseLeerling
      / Random = intercept intelligentie (klasnummer)

Wanneer we een analyse doen op dit model dan komt de interpretatie van de resultaten overeen met het voorgaande model. In de resultaten staan de schattingen van zes parameters. Drie daarvan, zijn fixed effecten, namelijk een algemeen gemiddelde (het fixed-deel van het intercept:\(\gamma_{00}\)) en twee regressiecoëfficiënten (het fixed deel van \(b_1\) (\(\gamma_{10}\)) ,en \(b_2\)) behorend bij de variabelen intelligentie en sekseLeerling. Drie zijn random parameters (\(u_{0j}\), \(u_{1j}\), en \(\epsilon_{ij}\)).

De resultaten van de fixed effecten staan in de volgende tabel.

Tabel 37.1: Schattingen fixed effecten model C
Value Std.Error DF t-value p-value lower upper
intercept 5.72 0.18 184 31.25 0.00 5.36 6.09
intelligentie 1.14 0.19 184 5.86 0.00 0.76 1.52
sekse_jongen 0.29 0.12 184 2.35 0.02 0.05 0.53

De deviance van model B is \(527.6\).

Als we kijken naar de variabele sekseLeerling, dan zien we dat deze een significant effect heeft op de wiskundescore (0.29, \(p =\) 0.02). Kijken we naar de deviance, dan blijkt dat deze lager is dan die van model A2. De LR-toets geeft echter aan dat de verbetering ten opzichte van model A2 niet significant is, want de \(\chi^2(1)=\) 3.1 (dat is 530.7 - 527.6) is statistisch niet significant.

De schattingen van de varianties van de random effecten staan hieronder.
Tabel 37.2: Schattingen random effecten model B
random effect
(Intercept) 0.259
intelligentie 0.339
Residual 0.680

37.3 Model C: covariaat op niveau 2

Stel dat we naast het intelligentie van de leerling ook beschikken over informatie op het tweede niveau, dus informatie over de klassen. We weten bijvoorbeeld het aantal jaren ervaring in het lesgeven van de leerkracht. Deze informatie staat in de variabele ervaringLeerkracht, die binnen een klas altijd dezelfde waarde heeft, maar tussen klassen kan variëren. De coëfficiënt van ervaringLeerkracht varieert niet op een hoger niveau dan klas (want klas is in deze data het hoogste niveau) en kan dus in principe geen random coëfficiënt zijn in dit model.

De syntax is volledig vergelijkbaar met de syntax van Model B, waarbij sekseLeerling vervangen is door ervaringLeerkracht. In deze analyse gebruiken we de gecentreerde versie van ervaringLeerkracht (ervaringLeerkracht_c) in plaats van ervaringLeerkracht zelf.

ModelC: Afhankelijk = wiskunde 
      / Fixed = intercept intelligentie ervaringLeerkracht_c
      / Random = intercept intelligentie (klasnummer)
Tabel 37.3: Schattingen fixed effecten model C
Value Std.Error DF t-value p-value lower upper
intercept 5.87 0.16 185 36.98 0.0 5.56 6.18
intelligentie 1.14 0.20 185 5.84 0.0 0.76 1.53
ervaring 0.07 0.04 8 1.85 0.1 -0.02 0.15

De deviance van model C is \(532.32\).

De resultaten tonen eveneens de schattingen van zes parameters. Drie daarvan zijn fixed effecten, namelijk een algemeen gemiddelde (het fixed-deel van het intercept: \(\gamma_{00}\)) en twee regressiecoëfficiënten (het fixed deel van \(b_1\) (\(\gamma_{10}\)) ,en \(b_2\)) behorend bij de variabelen intelligentie en ervaringLeerkracht. Er zijn wederom drie random parameters (\(u_{0j}\), \(u_{1j}\), en \(\epsilon_{ij}\)). De resultaten staan samengevat in de volgende tabel. In de tabel is te zien dat ervaringLeerkracht geen significant effect heeft op de wiskundescore en de deviance (532.32) is hoger dan de deviance van model A2, wat betekent dat het toevoegen van ervaringLeerkracht het model niet beter maakt.

De schattingen van de varianties van de random effects staan hieronder.
Tabel 37.4: Schattingen random effecten model C
random effect
(Intercept) 0.213
intelligentie 0.344
Residual 0.694

De residuele variantie is niet omlaag gegaan ondanks het toevoegen van een extra predictor.

37.4 Model D: Een interactie-effect tussen niveau 1 en 2

Model A veronderstelde dat de wiskundescores afhingen van de intelligentie van de leerling (niveau 1). Model C voegde daar de ervaring van de leerkracht (ervaringLeerkracht_c, niveau 2) als covariaat aan toe. Hieruit bleek dat de ervaring van de leraar weinig of geen invloed had op de wiskundescore. Het is echter ook mogelijk dat niet de wiskundescore zelf, maar wel de relatie tussen intelligentie en wiskundescore beïnvloed wordt door de ervaring van de leraar. Een ervaren leerkracht slaagt er mogelijk beter in ook leerlingen met een lagere intelligentie goede scores te laten halen, terwijl bij een onervaren leerkracht de intelligentie veel bepalender is voor de wiskundescores. Anders geformuleerd: het effect van inteligentie op de wiskundescores wordt mogelijk gemodereerd door de ervaring van de leerkracht. In het algemeen geldt dat wanneer we een variabele op niveau 1 hebben waarbij we een random effect veronderstellen en we veronderstellen tevens dat dit random effect afhangt van een andere variabele dan is er sprake van moderatie. Dit wordt onderzocht met model D, waarbij dus sprake is van een zogenaamde “cross-level” interactie. Dat is dus een interactie tussen variabelen die op een verschillend niveau zijn gemeten.

Als er een interactie (moderatie) is tussen twee variabelen, dan moeten we het product van deze variabelen opnemen in het model. In dit geval moeten we dus het product ervaringLeerkracht_c x intelligentie opnemen. Zoals we in bovenstaand model ervaringLeerkracht_c toevoegden als fixed effect, voegen we bij model D de interactie tussen ervaringLeerkracht_c en intelligentie toe als fixed effect. Dit kunnen we uitdrukken in de volgende formule:

\[\begin{align*} wiskunde = b_{0j} + b_{1j}intelligentie + b_2sekseLeerling +\\ b_3ervaringLeerkracht\_c*intelligentie + \epsilon_{ij} \end{align*}\]

Het symbool “\(*\)” geeft het product van de twee variabelen aan, met andere woorden dat is de interactieterm. Dit model heeft in totaal zeven termen (bedenk dat zowel \(b_{0j}\) als \(b_{1j}\) een fixed en een random term vertegenwoordigen) waarvan we er zes al eerder zijn tegengekomen. Alleen de interactieterm (ervaringLeerkracht_c*intelligentie) is nieuw. Er zijn vier fixed effecten: het algemene intercept, de regressiecoëfficiënt van ervaring, de regressiecoëfficiënt van intelligentie en de regressiecoëfficiënt van de interactie tussen ervaringLeerkracht en intelligentie. Verder zijn er dezelfde drie random effecten als in model C.

In schematische notatie ziet het model er als volgt uit:

ModelD: Afhankelijk = wiskunde 
      / Fixed = intercept intelligentie ervaringLeerkracht_c
                intelligentie*ervaringLeerkracht_c
      / Random = intercept intelligentie (klasnummer)

De fixed effecten laten naast een significant intercept een significant effect van intelligentie zien, net als bij model C. Het effect van de interactie tussen intelligentie en ervaring is niet statistisch significant. De ervaring van de leerkracht lijkt geen modererend effect te hebben op het verband tussen het intelligentie en de wiskundescores. De resultaten van het random deel zijn vergelijkbaar met de voorgaande analyse.

Tabel 37.5: Schattingen fixed effecten model D
Value Std.Error DF t-value p-value lower upper
intercept 5.86 0.16 184 36.74 0.00 5.55 6.18
intelligentie 1.13 0.18 184 6.40 0.00 0.78 1.48
ervaring 0.07 0.04 8 1.75 0.12 -0.02 0.15
interactie 0.07 0.04 184 1.73 0.08 -0.01 0.15

De deviance van dit model is 534.05 (aantal parameters = 7). Vergeleken met model C levert dit model dus geen verbetering, hetgeen ook bevestigt dat het opnemen van de interactie geen verbetering oplevert.

De schattingen van de varianties van de random effects staan hieronder.
Tabel 37.6: Schattingen random effecten model D
random effect
(Intercept) 0.216
intelligentie 0.273
Residual 0.694

37.5 Verdieping: model D afgeleid

Een andere manier om model D af te leiden is door ervan uit te gaan dat de random parameters (\(b_{0j}\) en \(b_{1j}\)) worden voorspeld door de variabele ervaringLeerkracht_c. Voor een wat handzamere notatie vervangen we de variabelenaam intelligentie door IQ en ervaringLeerkracht_c door EL. In formules wordt dit, allereerst op niveau 1:

\[\begin{equation} wiskunde = b_{0j} + b_{1j}IQ + \epsilon_{ij} \end{equation}\]

En op niveau 2 de voorspelling van de random parameters (\(b_{0j}\) en \(b_{1j}\)):

\[\begin{align*} b_{0j} = \gamma_{00} + \gamma_{01}EL + u_{0j} \\ b_{1j} = \gamma_{10} + \gamma_{11}EL + u_{1j} \end{align*}\]

Als we de uitdrukkingen van niveau 2 invullen in de eerste formule, dan krijgen we het volgende resultaat:

\[\begin{equation} wiskunde = (\gamma_{00} + \gamma_{01}EL + u_{0j}) + (\gamma_{10} + \gamma_{11}EL+ u_{1j})IQ + \epsilon_{ij} \end{equation}\]

En dit kan verder worden uitgewerkt tot:

\[\begin{equation} wiskunde = \gamma_{00} + \gamma_{01}EL + u_{0j} + \gamma_{10}IQ + \gamma_{11}EL*IQ + u_{1j}IQ + \epsilon_{ij} \end{equation}\]

Op de naamgeving van de parameters na en de uitsplitsing van het random effect in een random en een fixed deel, is bovenstaande formule gelijk aan de in de tekst gegeven formule van model D.