Hoofdstuk 19 Ontbrekende waarden

In dit hoofdstuk wordt besproken:
  • welk proces ten grondslag kan liggen aan ontbrekende waarden
  • hoe je met ontbrekende waarden kan omgaan
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum bachelorthesis (PB9916)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Datascreening

19.1 Inleiding

Ontbrekende gegevens (missings) zijn gegevens die niet zijn geregistreerd voor een variabele voor de betreffende respondent. Ontbrekende gegevens verminderen de statistische power van de analyse, wat de validiteit van de resultaten kan verstoren.

Bij het omgaan met ontbrekende gegevens kunnen twee methoden worden gebruikt: imputatie of verwijdering van gegevens.De imputatiemethode probeert redelijke schattingen voor ontbrekende gegevens te vinden en vervangt de ontbrekende gegevens door deze schattingen. Dit is vooral handig wanneer het percentage ontbrekende gegevens laag is. Als het percentage ontbrekende gegevens hoog is, dan wordt het resultaat van imputeren onbetrouwbaar.

De andere optie is om gegevens te verwijderen. Bij het omgaan met gegevens die willekeurig ontbreken, kunnen de bijbehorende gegevens van dezelfde respondent worden verwijderd om eventuele vertekening te verminderen. Het verwijderen van gegevens is meestal niet de beste optie als er niet genoeg waarnemingen zijn om een betrouwbare analyse uit te voeren.

Dan is er nog een derde optie en dat is niets doen. Deze optie komt in de praktijk meestal neer op het verwijderen van gegevens, aangezien de analysesoftware automatisch personen met ontbrekende waarden buiten de analyse zal houden.

19.2 Het proces achter ontbrekende waarden

Alvorens te beslissen welke aanpak moet worden gebruikt, moet men begrijpen waarom de gegevens ontbreken, dus welk proces er aan de missings ten grondslag ligt: het missing proces. Ontbrekende data kunnen voorkomen in verschillende situaties, die we hieronder bespreken.

19.2.1 Missing Completely At Random (MCAR)

In de MCAR-situatie ontbreken gegevens, ongeacht de verwachte waarde of de waarden van andere variabelen. Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om te verwachten dat hoge dan wel lagere waarden vaker ontbreken dan andere waarden. Met andere woorden: het missing proces is onafhankelijk van de uitkomst van de meting en van alle andere geobserveerde dan wel niet-geobserveerde karakteristieken van respondenten. Ieder persoon (rij van de de dataset) heeft een even grote kans om een ontbrekende waarde te hebben op een bepaalde variabele. Er kunnen bijvoorbeeld gegevens ontbreken door testontwerp of fouten in de software die de gegevens moest vastleggen. Dit patroon van ontbrekende waarden wordt gezien als MCAR omdat de redenen voor het ontbreken ervan extern zijn en niet gerelateerd aan de waarde van de waarneming.

Het is doorgaans veilig om MCAR-gegevens te verwijderen omdat de resultaten geen systematische vertekening zal geven. De statistische tests hebben dan meestal minder power, maar de resultaten zullen wel betrouwbaar zijn.

19.2.2 Missing at Random (MAR)

Wanneer het proces waardoor de ontbrekende waarden zijn ontstaan willekeurig (missing at random) is, wordt aangenomen dat de missings niet afhangen van de “werkelijke” waarden zelf, maar wel af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere karakteristieken van de respondent. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende karakteristieken. Binnen een groep gedefinieerd door de waarden van geobserveerde variabelen is de kans voor iedereen gelijk om een ontbrekende waarde te hebben. De ontbrekende gegevens kunnen in principe worden geschat op basis van de volledig waargenomen gegevens, hetgeen wordt aangeduid met de term “imputeren”.

Bij zowel MCAR als MAR wordt ook wel gesteld dat het proces waarmee de ontbrekende waarden zijn ontstaan ignorable is. De aanname van een ignorable proces stelt dat er voldoende informatie in de data aanwezig is om voor de ontbrekende waarden te corrigeren. In het algemeen is het dan beter deze informatie te gebruiken in plaats van ontbrekende data te verwijderen.

19.2.3 Missings Not At Random (MNAR)

De categorie MNAR is van toepassing wanneer de ontbrekende gegevens een structuur hebben of we simpelweg niet weten waarom waarden ontbreken. Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn, het missing proces wordt dan nonignorable genoemd. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende karakteristieken van de respondenten.

Men moet de ontbrekende gegevens eerst nauwkeurig modelleren om een goede data-analyse te kunnen doen. Het simpelweg verwijderen van waarnemingen met ontbrekende gegevens die MNAR zijn, kan resulteren in een model met vertekening.

19.3 Verwijderen van ontbrekende waarden

Er zijn in principe drie methoden voor het verwijderen van gegevens bij het omgaan met ontbrekende gegevens: personen lijstgewijs (complete case analysis) of paarsgewijs verwijderen, en variabelen volledig verwijderen.

19.3.1 Lijstgewijs verwijderen

Bij lijstsgewijs verwijderen worden alle gegevens verwijderd van een respondent met een of meer ontbrekende waarden. Alleen respondenten blijven over voor analyse bij wie alle variabelen een waarde hebben. Deze techniek wordt vaak gebruikt omdat het de standaardoptie is in veel software. Met andere woorden als de onderzoeker niets doet met missing data, het probleem als het ware negeert, dan past hij impliciet de lijstgewijze verwijdering toe van de rijen met ontbrekende waarden.

Wanneer de ontbrekende waarden MCAR zijn is deze methode correct, maar vaak is lijstgewijs verwijderen niet de juiste methode. Dit komt omdat aan de veronderstellingen van MCAR zelden wordt voldaan. Hierdoor geeft lijstgewijs verwijderen onzuivere schattingen van de gewenste parameters. Ook kan het de power van de schattingen verlagen.

19.3.2 Paarsgewijs verwijderen

Paarsgewijze verwijdering (ook wel: analyse van beschikbare gevallen) probeert het dataverlies dat optreedt bij lijstgewijze verwijdering te minimaliseren. Een gemakkelijke manier om te bedenken hoe paarsgewijze verwijdering werkt, is door te denken aan een correlatiematrix. Een correlatie meet de sterkte van de relatie tussen twee variabelen. Voor elk paar variabelen waarvoor beide gegevens beschikbaar zijn, kan de correlatiecoëfficiënt worden berekend.

Maar wanneer bij een respondent één gegeven van een paar ontbreekt dan kan voor die respondent geen correlatie worden berekend, dus die respondent wordt “verwijderd”. Voor de correlatie tussen twee andere variabelen kan een andere respondent eventueel worden verwijderd als bij deze respondent een waarde ontbreekt.Paarsgewijze verwijdering gebruikt dus alle beschikbare gegevens voor een analyse, er wordt zo min mogelijk verwijderd.

Een sterk punt van deze techniek is dat het de power van de analyse vergroot. Hoewel deze techniek doorgaans de voorkeur heeft boven lijstgewijze verwijdering, wordt er ook van uitgegaan dat de ontbrekende gegevens MCAR zijn. Er zijn echter ook nadelen. Een nadeel van het gebruik van paarsgewijze verwijdering is dat de standaardfout niet correct kan worden berekend door een softwarepakket, wat vertekening kan geven. Soms kan een bepaalde analyse helemaal niet worden uitgevoerd omdat er een probleem kan ontstaan met de correlatiematrix, die niet voldoet aan bepaalde wiskundige eigenschappen, die in sommige analyses worden gebruikt.

Paarsgewijze verwijdering kan een geschikte optie zijn als de aanname van MCAR redelijkerwijs kan worden gedaan, en de data bij benadering multivariaat normaal verdeeld zijn met een niet al te hoge onderlinge correlatie.

19.3.3 Variabelen verwijderen

Als voor heel veel respondenten (bijvoorbeeld meer dan \(60\) procent, maar dit is ook afhankelijk van de grootte van de dataset) de gegevens voor een bepaalde variabele ontbreken, kan het verstandig zijn om deze variabele in zijn geheel te verwijderen, mits deze niet essentieel is voor de analyse.

19.4 Imputeren

Als er gegevens ontbreken, kan het zinvol zijn om gegevens te verwijderen, zoals hierboven. Maar dat is meestal niet de meest effectieve optie. Als er bijvoorbeeld te veel informatie wordt weggegooid, is het niet meer mogelijk om een betrouwbare analyse uit te voeren.

In plaats van verwijdering zijn er verschillende oplossingen om de ‘ware’ waarden van de ontbrekende gegevens zo goed mogelijk te schatten. De ontbrekende gegevens worden vervolgens vervangen door deze schattingen. Dit wordt imputeren genoemd. Afhankelijk van de reden waarom de gegevens ontbreken, kunnen imputatiemethoden redelijk betrouwbare resultaten opleveren. Er zijn heel veel imputatiemethoden, hieronder bespreken we enkele veelvoorkomende.

19.4.1 Onafhankelijke data

Allereerst noemen we enkele methoden waarbij de waarden onafhankelijk zijn van elkaar. Dit zal vaak het geval zijn bij cross-sectionele data.

19.4.1.1 Gemiddelde, mediaan en modus

Wanneer slechts een klein aantal waarnemingen ontbreekt, kan men het gemiddelde of de mediaan van de waarnemingen op een bepaalde variabele berekenen en deze waarde gebruiken om de ontbrekende waarden op deze variabele mee te schatten. Een variant voor nominale variabelen is om de modus te gebruiken om mee te imputeren. Dit is een van de meest eenvoudige methoden voor het imputeren van ontbrekende gegevens.

Als er echter relatief veel ontbrekende gegevens zijn, kan dit leiden tot verlies van variatie in de gegevens. De datareeks bevat dan namelijk veel waarden die precies het gemiddelde (of mediaan) zijn, waardoor de verdeling sterk gepiekt wordt. De lagere variantie van een dergelijke variabele zal ook leiden tot lagere standaardfouten en dus tot verkeerde toetsresultaten.

Als de ontbrekende waarden MCAR zijn, dan wordt het gemiddelde wel zuiver geschat, maar de correlaties tussen variabelen worden vertekend. Om dit probleem (deels) te verhelpen kan er willekeurige ruis worden toegevoegd aan het te imputeren gemiddelde, uiteraard verschillend voor iedere geïmputeerde waarde. De ruisterm wordt bijvoorbeeld getrokken uit een normaalverdeling met gemiddelde \(0\) en variantie gelijk aan die van de waargenomen datareeks.

19.4.1.2 Hot-deck-imputatie

Bij hot-deck-imputatie wordt de ontbrekende waarde vervangen door een willekeurige andere waarde uit de datareeks. Soms kan deze donorwaarde genomen worden van een respondent die op basis van bepaalde karakteristieken lijkt op de respondent met de ontbrekende waarde (matching), bijvoorbeeld iemand met dezelfde leeftijd en hetzelfde opleidingsniveau. Ook kan een donor worden worden gekozen met een waarde die dicht ligt bij een op regressie gebaseerde voorspelling (predictive mean matching). Hieraan ligt de aanname ten grondslag dat deze karakteristieken samenhangen met de waarden op de te imputeren variabelen.

19.4.1.3 Op regressie gebaseerde imputatie

Deze methode maakt gebruik van de samenhang tussen de variabelen. Op basis van de waargenomen waarden wordt een regressieanalyse uitgevoerd met de te imputeren variabele (\(Y\)) als afhankelijke variabele en een aantal relevante predictoren. Als voor een ontbrekende waarde van \(Y\) de waarden van de predictoren wel bekend zijn, kunnen voorspelde waarden worden uitgerekend en die kunnen worden gebruikt om de ontbrekende waarden van Y mee te imputeren.

Hieraan ligt de aanname ten grondslag dat de predictoren samenhangen met de te imputeren variabele, dus dat het gekozen regressiemodel een acceptabele fit heeft. De schattingen bij deze methode van de uiteindelijke analyse zijn niet zuiver, ze wijken dus naar verwachting af van de populatiewaarden en hebben een te klein betrouwbaarheidsinterval.

Deze methode is risicovol omdat bepaalde verbanden in de geïmputeerde dataset kunstmatig worden versterkt. Wanneer de voorspelde waarden van het model worden gebruikt om mee te imputeren spreken we van deterministische regressie-imputatie. Ook bij deze methode kan ruis worden toegevoegd, om de variantie op te hogen. De willekeurige term kan worden getrokken uit de residuen van de regressie, dit wordt stochastische regressie-imputatie genoemd.

19.4.1.4 K-Nearest Neighbours

Deze methode is complexer en kan worden gebruikt wanneer een waarde van een nominale variabele ontbreekt. Het gaat hierbij om het classificeren van een ontbrekend datapunt in een categorie. Bij deze methode selecteert men eerst variabelen die samenhangen met de te imputeren nominale variabele (\(Y\)). Vervolgens past men een techniek toe om de datapunten van de gevonden variabelen af te beelden in een bepaalde ruimte, bijvoorbeeld principale componentenanalyse (PCA). Elk punt kan worden gelabeld met de categorieën van de nominale variabele Y. Ook het punt met de ontbrekende waarde (\(Q\)) ligt in deze ruimte, maar de categorie van Q ontbreekt.

Er wordt een afstandsmaat gekozen op basis waarvan de \(k\) dichtstbijzijnde punten rondom \(Q\) worden berekend. Als \(k = 1\) dan wordt de categorie van het dichtstbij zijnde punt gekozen om Q mee te imputeren. Bij \(k > 1\) wordt de modus van de dichtstbijzijnde buren (nearest neighbours) berekend en deze wordt gebruikt om een ontbrekende waarde van \(Q\) mee te imputeren. Bij deze methode moet men dus het aantal naaste buren en de afstandsmaat kiezen.

19.4.2 Tijdreeks-specifieke methoden

Als de gegevens van een datareeks in de tijd (of plaats) geordend zijn en dus niet onafhankelijk zijn, is een andere optie om tijdreeks-specifieke methoden te gebruiken voor imputatie.

19.4.2.2 Last Observation Carried Forward (LOCF) & Next Observation Carried Backward (NOCB)

Deze methoden worden gebruikt bij longitudinale gegevens, waarin waarnemingen ontbreken. Elke ontbrekende waarde wordt vervangen door de laatst waargenomen waarde (LOCF) of door de eerstvolgende waarde (NOCB). Ook kan een combinatie van beide methoden worden toegepast door het gemiddelde te nemen van beide waarden. Verder kunnen de methoden worden uitgebreid door meerdere waarden mee te nemen, bijvoorbeeld het gemiddelde van de eerstvolgende drie waarden. Deze methoden zijn eenvoudig te begrijpen en toe te passen, maar ook hier kunnen de schattingen onzuiver zijn, ook als de ontbrekende waarden MCAR zijn.

19.4.3 Multiple imputatie

Multiple imputatie wordt beschouwd als een goede benadering voor datasets met een grote hoeveelheid ontbrekende data. In plaats van elk ontbrekend datapunt te vervangen met een enkele waarde, worden de ontbrekende waarden van een variabele geïmputeerd met meerdere waarden die de variabiliteit van de steekproef en de onzekerheid van de geimputeerde waarde weergeven. Het imputatieproces wordt \(m\) keer herhaald om meerdere geïmputeerde datasets te maken. Elke set wordt vervolgens geanalyseerd met behulp van de standaard analytische procedures en de resultaten van meerdere analyses worden gecombineerd om een algemeen resultaat te produceren.

Door herhaalde imputaties te gebruiken wordt de totale variabiliteit in de waarden van de variabelen als gevolg van de steekproeftrekking en van het schatten van de ontbrekende waarden beter benaderd dan door slechts met één waarde te imputeren. Dit is dus een belangrijke meerwaarde in vergelijking met stochastische regressie-imputatie, waarbij wel rekening wordt gehouden met de variabiliteit (onzekerheid) van het steekproefproces, maar niet met die van het imputatieproces.

Als de verschillende imputaties voor een bepaalde waarde, sterk van elkaar verschillen, dus een grote variantie hebben, dan bestaat er grote onzekerheid over de te imputeren waarde. Lijken de geïmputeerde waarden daarentegen sterk op elkaar, dan is er weinig onzekerheid. De variantie in de multipele imputaties representeert dus onzekerheid over de te imputeren waarde. Multiple imputaties kunnen statistisch geldige resultaten opleveren, zelfs als er een kleine steekproefomvang is of een grote hoeveelheid ontbrekende gegevens.

Een nadeel is de grotere complexiteit van deze methode, maar tegenwoordig is de methode standaard aanwezig in de meeste statistische software.

Traditioneel werden er bij multiple imputatie vaak maar een paar imputaties uitgevoerd, bijvoorbeeld \(m = 5\). Maar tegenwoordig wordt een hoger aantal aangeraden, zoals \(m = 50\), omdat de verdelingen dan beter kunnen worden geschat.

Meer informatie over multiple imputaties kan worden gevonden in dit boek: Flexible imputation of missing data.

19.5 Voorbeelden van imputatie

Allereerst een klein voorbeeld ter illustratie.

De data bestaan uit \(12\) subjecten met scores op \(4\) variabelen (V1 tot V4). Variabele V2 bevat één missing en de andere drie variabelen hebben elk twee missings.

De subjecten met ontbrekende waarden (\(3\), \(5\) en \(7\)) zijn in groen aangegeven (zie Tabel 19.1).

Tabel 19.1: Voorbeeld data met ontbrekende waarden.
Subject V1 V2 V3 V4
1 6 5 5 1
2 2 2 1 3
3 1 1
4 3 2 3 4
5 4 5
6 2 3 5 6
7 1
8 4 3 6 6
9 2 2 4 4
10 3 3 2 3
11 3 2 3 2
12 1 2 2 4

De gemiddelden (\(M\)) van de vier variabelen zijn respectievelijk: \(M1=2.70, M2=2.64, M3=3.20, M4=3.80\). Dit zijn de gemiddelden die berekend zijn op basis van de beschikbare gegevens van elke variabele. De gemiddelden op basis van een complete case analysis, dus waarbij alleen die subjecten worden betrokken die nergens een ontbrekende waarde hebben, zijn een beetje anders, namelijk: \(M1=2.89, M2=2.67, M3=3.44, M4=3.67\). Voor de berekening van deze gemiddelden zijn de subjecten \(3\), \(5\) en \(7\) dus voor alle variabelen volledig weggelaten.

Wanneer we de ontbrekende waarden van een variabele imputeren met het gemiddelde van de desbetreffende variabele (mean-imputatie), dan geeft dat het volgende resultaat (zie Tabel 19.2).

Tabel 19.2: Voorbeeld data met geimputeerde waarden.
Subject V1 V2 V3 V4
1 6.0 5.0 5.0 1.0
2 2.0 2.0 1.0 3.0
3 1.0 2.6 1.0 3.8
4 3.0 2.0 3.0 4.0
5 2.7 4.0 3.2 5.0
6 2.0 3.0 5.0 6.0
7 2.7 1.0 3.2 3.8
8 4.0 3.0 6.0 6.0
9 2.0 2.0 4.0 4.0
10 3.0 3.0 2.0 3.0
11 3.0 2.0 3.0 2.0
12 1.0 2.0 2.0 4.0

De gemiddelden van de geïmputeerde variabelen zijn vanzelfsprekend gelijk aan de gemiddelden van variabelen met de missings, maar andere beschrijvende statistieken kunnen wel zijn veranderd, zoals te zien is in Tabel 19.3.

Tabel 19.3: Beschrijvende statistieken voor en na imputatie.
V1 V1imp V2 V2imp V3 V3imp V4 V4imp
Min. 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1st Qu. 2.0 2.0 2.0 2.0 2.0 2.0 3.0 3.0
Median 2.5 2.7 2.0 2.3 3.0 3.1 4.0 3.9
Mean 2.7 2.7 2.6 2.6 3.2 3.2 3.8 3.8
3rd Qu. 3.0 3.0 3.0 3.0 4.8 4.2 4.8 4.2
Max. 6.0 6.0 5.0 5.0 6.0 6.0 6.0 6.0
Var 2.1 1.8 1.0 1.1 2.8 2.5 2.8 2.1
NA’s 2.0 0.0 1.0 0.0 2.0 0.0 2.0 0.0

De mediaan en het derde kwartiel verschillen tussen incomplete data en geïmputeerde data, net als de variantie. De verdeling van de variabele is dus veranderd. Ook de correlaties tussen de variabelen zijn gewijzigd.

De correlatie tussen bijvoorbeeld V2 en V3 in de incomplete data is \(0.55\) en in de geïmputeerde data \(0.4\).

19.5.1 Realistisch voorbeeld

Om de gevolgen van enkele eenvoudige imputatiemethoden te laten zien, zullen we een realistischer voorbeeld construeren met \(N = 500\) (zie Tabel 19.4).

Er zijn weer vier variabelen, maar nu getrokken uit een normale verdeling met gemiddelde \(0\) en variantie \(1\). De correlatiematrix in de populatie is gelijk aan die uit het vorige voorbeeld. We vervangen op willekeurige wijze naar verwachting \(20\) procent van de waarden door missings in deze data. Hieronder staan de beschrijvende statistieken van de vier variabelen. In de laatste rij staat aangegeven hoeveel ontbrekende waarden er in iedere variabele zijn.

Tabel 19.4: Beschrijvende statistieken.
V1 V2 V3 V4
Min. -2.64 -2.76 -3.86 -3.12
1st Qu. -0.78 -0.77 -0.64 -0.69
Median -0.12 -0.12 0.00 -0.03
Mean -0.10 -0.09 0.01 0.01
3rd Qu. 0.52 0.53 0.66 0.69
Max. 2.41 2.49 3.47 2.71
Var 0.98 0.92 1.03 1.02
NA’s 72.00 59.00 155.00 83.00

19.5.1.1 Imputatie met het gemiddelde

Ook de ontbrekende waarden in deze variabelen worden eerst geïmputeerd met hun gemiddelden. In Figuur 19.1 staat de verdeling van V3 weergegeven, zowel met en zonder geïmputeerde waarden. Het is duidelijk te zien dat de verdeling gepiekter wordt door het imputeren met het gemiddelde.

Density van incomplete en met de gemiddelden geïmputeerde data

Figuur 19.1: Density van incomplete en met de gemiddelden geïmputeerde data

In Figuur 19.2 wordt met een scatterplot van V2 en V3 getoond welke punten zijn geïmputeerd. Zij liggen allemaal op een lijn voor elk van de variabelen. De correlatie in de incomplete data is \(0.57\) en in de geïmputeerde data \(0.44\). In het algemeen geldt dat de correlatie tussen variabelen afneemt door imputatie met het gemiddelde (mean-imputatie).

Scatterplot van V2 en V3 in geimputeerde data

Figuur 19.2: Scatterplot van V2 en V3 in geimputeerde data

Tenslotte verwijzen we naar dit online boek voor de praktische kant van omgaan met missing data: Applied missing data with SPSS and R-studio.