Hoofdstuk 38 multilevel-analyse-longitudinaal

In dit hoofdstuk wordt besproken:
  • multilevel-modellen voor longitudinale data
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspractium longitudinaal onderzoek (PB1712)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Multiple-regressie
  • Multilevel-analyse-1
  • Multilevel-analyse-2

38.1 Inleiding

Multilevelanalyse is ook geschikt voor data afkomstig van herhaalde metingen bij personen. Bijvoorbeeld bij mensen die een aantal keer per dag moeten aangeven of ze zin hebben in een sigaret of wat hun stemming is. Omdat de herhaalde metingen (zin in sigaret) bij dezelfde persoon worden gedaan, zijn de metingen (binnen deze persoon) niet onafhankelijk, net zoals de metingen bij leerlingen in dezelfde klas niet onafhankelijk zijn. De data zien er dus hetzelfde uit als in de vorige voorbeelden, waarbij de persoon nu de rol van de variabele klas heeft en de herhaalde metingen de rol van de leerlingen in de klas. Het databestand is nu zo geconstrueerd dat elke regel in het bestand een meetmoment voorstelt. Een persoon komt nu dus meerdere keren (meerdere regels) voor in het bestand.

Dit type data komt voor bij zogenaamde dagboekstudies die tegenwoordig heel populair zijn, omdat de dagboeken nu elektronisch via een app op de mobiele telefoon kunnen worden ingevuld. Het vaak (meerdere keren per dag) meten van een concept, zoals stemming, geeft een inzicht in het verloop van zo’n construct gedurende dag. Dit kan een voordeel zijn ten opzichte van andere methoden waar men vaak aangeeft wat in het verleden speelde, bijvoorbeeld “hoe voelde u zich vandaag”. Momentopnames worden verondersteld dit soort constructen zuiverder te meten. In het Engels worden dit soort dataverzamelmethoden Experience Sampling method (ESM) of Ecological Momentary Assessment (EMA) genoemd.

38.1.1 Voorbeeld data: zin in roken

Ter illustratie geven we het volgende voorbeeld. De data bestaan uit herhaalde metingen bij 20 personen (RESPONDENT) die wilden stoppen met roken. Gedurende een dag moesten deze personen 15 keer aangeven hoeveel zin ze in een sigaret hadden en hoe gestrest zij zich voelden. De variabele METING (met waarden 1 tot en met 15) geeft aan om welke observatie het gaat. Bij iedere persoon zijn er dus 15 observaties over zin in roken (ZIN), mate van stress (STRESS) en of men in gezelschap is of alleen ( SAMEN). De variabelen ZIN en STRESS zijn gemeten op een schaal van 1 (helemaal geen zin, c.q. helemaal geen stress) tot 7 (heel veel zin, c.q. heel veel stress). De variabele SAMEN heeft de mogelijke waarden 0, ‘ik ben nu alleen’ en 1 ‘ik ben nu in gezelschap’. Verder werd gevraagd of de respondent in de afgelopen periode (vanaf de vorige meting) een sigaret had gerookt. Zie de volgende tabel voor een overzicht van de variabelen.

Tabel 38.1: Variabelen in Roken data
Naam Omschrijving Bereik
RESPONDENT nummer respondent 1-20
LEEFTIJD leeftijd 21-80
METING nummer van meting 1-15
ZIN zin in sigaret 1-7
STRESS mate ervaren stress 0-7
ROKEN wel of niet gerookt ja - nee
SAMEN bent u nu in gezelschap? alleen - samen

De observaties zijn niet onafhankelijk omdat ze herhaalde metingen bij één persoon betreffen. We gaan daarom een multilevelanalyse uitvoeren op deze data. Hierbij nemen we aan dat het intercept random varieert over de personen, wat betekent dat gemiddeld genomen niet iedereen evenveel zin heeft in een sigaret. Ook nemen we aan dat het eventuele effect van de gerapporteerde stress op de zin in een sigaret verschilt per persoon. Het effect van de variabele stress beschouwen we dus ook als een random effect. Het metingnummer is de variabele die we gebruiken om de herhaalde metingen te coderen. In deze casus wordt meting tevens onderzocht als een fixed effect, het model gaat er dus van uit dat de zin in een sigaret afhangt van de stress en van het moment dat de meting is gedaan.

38.2 Analyse

De onderzoeksvraag is of stress en het tijdstip van de dag invloed hebben op de zin in roken. Voorafgaand aan de analyse centreren we de variabele STRESS in afwijking van zijn algehele gemiddelde, dit wordt STRESS_c.
Het model dat hier wordt besproken kan schematisch als volgt worden weergegeven:

ModelE: Afhankelijk = ZIN 
      / Fixed = intercept STRESS_C METING
      / Random = intercept STRESS_C (RESPONDENT)
      / Time = METING (RESPONDENT)

Dit model lijkt op de modellen die we eerder hebben gezien. Er is een afhankelijke variabele gedefinieerd, en er zijn fixed en random effecten. Maar in dit model staat een extra regel (Time), waarin een variabele wordt gedefinieerd die de codering van de afhankelijkheid in de tijd aangeeft. In dit geval heet deze variabele “METING”. De variabele METING is ook genest binnen de respondenten, aangegegeven door “(RESPONDENT)”, net als bij het random effect.

De aanname bij data die in de tijd zijn geordend is dat opeenvolgende datapunten (observaties, metingen) meer op elkaar lijken dan data punten die verder uit elkaar liggen. De samenhang tussen punten die dicht bij elkaar in de tijd noemen we autocorrelatie, vaak angeduid met symbool \(\rho\) (de griekse letter “rho”). Dit is dus een correlatie van een variabele met zichzelf, die alleen in de tijd verschoven is. Net als bij de andere random effecten is dit een afhankelijkheid tussen datapunten waar het model rekening mee kan houden. Dit gebeurt door het schatten van de autocorrelatie.

In dit voorbeeld is de variabele ZIN de afhankelijke variabele en zijn METING en STRESS_c de predictorvariabelen, die we opvatten als gemeten op intervalniveau. STRESS_c en METING nemen we mee als een fixed effect. Daarnaast nemen we in deze analyse aan dat zowel het intercept als het effect van STRESS_c varieert over de respondenten. Daarom staan deze genoemd bij de random effecten. Tenslotte, geven aan dat de data in de tijdgeordend zijn, gespecificeerd door de variabele METING.

Dit model heeft zeven geschatte parameters: drie fixed effecten (intercept, STRESSc en METING), twee random effecten (intercept en STRESSc), de autocorrelatie als gevolg van de herhaalde metingen, en het residu.

De resultaten van deze analyse staan in de volgende tabel.

Tabel 38.2: Schattingen fixed effecten model E
Value Std.Error DF t-value p-value lower upper
intercept 3.614 0.30 278 12.16 0.00 3.03 4.20
stress 0.368 0.10 278 3.81 0.00 0.18 0.56
meting -0.023 0.03 278 -0.88 0.38 -0.07 0.03

Stress blijkt positief samen te hangen met zin in een sigaret. Het moment van meting heeft geen verband met zin in een sigaret: het lijkt erop dat het tijdstip van de dag dus niet systematisch varieert met de zin in een sigaret.

De schattingen van de random variantie-effecten staan in de volgende tabel.

Tabel 38.3: Schattingen random effecten model E
random effect
(Intercept) 0.601
STRESS_c 0.115
Autocorrelatie 0.491
Residual 1.745

Zin in roken heeft een vrij hoge variantie, en varieert dus over de personen, wat vrij logisch is. Ook het effect van stress op de zin in roken varieert per persoon. De autoregressieve correlatie is hoog: \(\rho =\) 0.491, wat betekent dat er een vrije sterke samenhang is tussen de opeenvolgende waarnemingen.

38.2.1 Modellen vergelijken

De deviance (-2LL) van dit model is 989.64 met zeven geschatte parameters. Dit kunnen gebruiken om te vergelijken met andere geneste modellen. Als voorbeeld vergelijken we model E met twee geneste modellen die dezelfde fixed effecten hebben, maar minder random effecten. Allereerst definieren we model E1 met alleen een random intercept, en daarna model E2 met een random intercept en een random effect van stress. In beide modellen ontbreekt de autocorrelatie, de afhankelijkheid van de metingen in de tijd wordt dus niet in deze modellen gespecificeerd.

In schematische notatie:

ModelE1: Afhankelijk = ZIN 
      / Fixed = intercept STRESS_C METING
      / Random = intercept (RESPONDENT)
ModelE2: Afhankelijk = ZIN 
      / Fixed = intercept STRESS_C METING
      / Random = intercept STRESS_C (RESPONDENT)
Tabel 38.4: Model vergelijking
df AIC BIC logLik Test L.Ratio p-value
Model E1 5 1069.45 1087.91 -529.72 NA NA
Model E2 6 1054.84 1077.01 -521.42 1 vs 2 16.6 0
Model E 7 1003.64 1029.50 -494.82 2 vs 3 53.2 0

De tabel laat zien dat het toevoegen van de random slope een significante verbetering oplevert: de deviance van model E2 is significant lager dan van model E1. Het toevoegen van de autocorrelatie verbetert het model ook significant: de deviance van model E is namelijk significant lager dan van model E2. Alle fitmaten zijn aanzienlijk lager in model E, hetgeen duidelijk aantoont dat het belangrijk is om bij deze data de tijdsafhankelijkheid op te nemen in het model.