Hoofdstuk 25 Verificatie van data-integriteit

In dit hoofdstuk wordt besproken:
  • Data integriteit
  • Afwijkende verdelingen
  • Uitbijters
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum cross-sectioneel onderzoek (PB0812)
Dit hoofdstuk bouwt voort op de volgende hoofdstukken:
  • Constructen
  • Constructen Meten
  • Interne Validiteit
  • Validiteit Schatten en Verhogen

Kwantitatieve studies hebben vaak tot doel om te schatten hoe sterk een of meer verbanden zijn of om een of meer hypothesen te toetsen. Om deze doelen te bereiken worden meestal statistische analyses uitgevoerd. Die hoofdanalyses maken echter maar een relatief klein deel uit van alle analyses die worden uitgevoerd: de meeste statistische analyses worden uitgevoerd om te verifieren of de hoofdanalyses wel uitgevoerd mogen worden.

Er zijn drie voorwaarden waaraan moet worden voldaan voordat het zinvol is om de hoofdanalyses uit te voeren:

  1. De data-integriteit moet in orde zijn;
  2. De validiteit van het studie-ontwerp en de operationalisaties van de constructen moeten in orde zijn; en
  3. De data moeten voldoen aan de voorwaarden waaronder de hoofdanalyses geïnterpreteerd kunnen worden.

Als een van deze voorwaarden wordt geschonden zijn er soms oplossingen mogelijk, of zijn er alternatieve methoden voorhanden, maar helaas niet altijd. Zodra de data onoplosbaar een der drie voorwaarden schenden betekent dit dat de verzamelde data geen antwoord kunnen geven op de onderzoeksvragen. Doorzetten met de analyse is dan niet zinvol en soms zelfs misleidend.

In dit document worden de drie voorwaarden toegelicht, en wordt bij schendingen die nog wel op te lossen zijn uiteengezet welke oplossingen voorhanden zijn. Dit document heeft het doel om de lezer af te leren om te vertrouwen op kant-en-klare oplossingen, of analyseprotocollen. In plaats daarvan hopen wij de lezer in te laten zien dat iedere ‘reparatie’ van data een afweging is van voor- en nadelen. Zodra de data een van de voorwaarden schendt is er geen beste oplossing; slechts enkele suboptimale oplossingen. Wetenschapper die gaat timmeren aan data dienen bekend te zijn met hun gereedschap om zo de juiste afweging te kunnen maken.

Bij het bespreken van de drie voorwaarden wordt waar mogelijk onderscheid gemaakt tussen twee typen voorwaarden:

  • Deal breaker”-voorwaarden, oftewel voorwaarden waarvan schending het onmogelijk maakt om een hoofdanalyse uit te voeren (op een wetenschappelijk integere manier);
  • Proceed at your own risk”-voorwaarden, oftewel voorwaarden die belangrijke gevolgen hebben voor de interpretatie van de betreffende analyse, maar waarbij de hoofdanalyse nog wel uitgevoerd kan worden en zinnig kan zijn.

In deze uitleg wordt steeds gelinkt naar de Rosetta Stats website, waar de betreffende analyses worden uitgelegd in SPSS en R. Deze uitleg blijft dus op conceptueel niveau, en bevat zelf geen voorbeelden of scripts.

25.1 Verificatie van data-integriteit

Data-integriteit heeft betrekking op de kwaliteit van de data-verzameling. Simpel samengevat: werkte alles in de studie zoals het hoorde te werken? Een verzamelde dataset heeft data-integriteit als elk datapunt correspondeert met de procedure gespecificeerd in het studie-ontwerp en de operationalisaties. Data-integriteit betreft dus enerzijds de basale kwaliteit van data, bijvoorbeeld of meetinstrumenten functioneerden of proefpersonen geen verkeerde knoppen hebben gedrukt. Maar data-integriteit betreft ook iets abstractere zaken, bijvoorbeeld of een proefpersoon in de steekproef wel een deel is van de doelpopulatie van het onderzoek, of dat de gemeten variabelen zich gedragen zoals zij aangenomen worden zich te gedragen in de populatie

Optimalisatie van de data-integriteit is een van de redenen waarom het belangrijk is om een studie vooraf te laten gaan door een pilot-studie. Pilot-studies zijn bedoeld om alles wat fout kan gaan van te voren uit te testen, zodat bijvoorbeeld niet blijkt dat deelnemers halverwege de studie te moe zijn; of dat de apparatuur om reactietijden te registreren niet goed werkt; of dat de data die worden verzameld via de smart watches van deelnemers niet kan worden gelezen door de onderzoeker. Bij het verifieren van data-integriteit worden de data geïnspecteerd op indicaties dat er iets fout is gegaan tijdens de studie.

Er zijn globaal vier zaken waarnaar gekeken kan worden om de data-integriteit te verifieren.

25.1.1 Onmogelijke waarden

De eerste is of alle waarden mogelijk zijn. Als bijvoorbeeld een vragenlijst werd gebruikt waarbij de antwoordopties van een tot en met vijf lopen, en er staat een ander getal dan 1, 2, 3, 4 of 5 in de datareeks, dan ging daar iets fout, bijvoorbeeld bij het invoeren van papieren vragenlijsten. Zeker wanneer vragenlijsten nog met de hand ingevuld worden gebeurt het dikwijls dat een databestand waarden bevat, zoals 44, of 23, terwijl de schaal kwestie een range van 1 tot 5 heeft. Als reactietijden worden gebruikt, en er wordt een reactietijd van 3 milliseconden geregistreerd, dan kan die reactietijd niet een respons zijn na verwerking van een stimulus. Maar onmogelijke waarden kunnen ook uit combinaties van responses bestaan, bijvoorbeeld als iemand specificeert al 12 jaar bij een bedrijf te werken, maar een leeftijd van 20 jaar opgeeft.

Het detecteren van onmogelijke waarden gaat in de regel het makkelijkst wanneer frequentietabellen worden opgevraagd. Hierdoor wordt niet alleen duidelijk of er onmogelijke waarden zijn, maar wordt ook direct duidelijk hoeveel. De eerste en beste oplossing bij het detecteren van onmogelijke waarden is teruggaan naar de ruwe data, dus de data die de minste bewerking heeft ondergaan. Een waarde van 44 kan bijvoorbeeld een fout reflecteren waar een onderzoeker per ongeluk tweemaal een vier drukte, maar ook een fout waarbij vergeten is een kolom op te schuiven. Enkel de fysieke vragenlijst van de respondent in kwestie kan een definitief antwoord opleveren.

Onmogelijke waarden die niet het gevolg zijn van invoerfouten zijn lastiger te detecteren. Ook hier is de eerste en beste oplossing: ga terug naar de ruwste data. Als de data verkregen worden door een computerprogramma dat automatisch videobeelden codeert, bijvoorbeeld de beweging van deelnemers door een afgesloten ruimte, dan kunnen enkel de videobeelden beantwoorden of de onmogelijke waarde een invoerfout is, mechanisch falen, of een waarde die toch niet onmogelijk blijkt.

Als onmogelijke data te herleiden zijn tot de juiste waarde, kunnen de betreffende datapunten worden vervangen. Het is belangrijk om dit dan met een analysescript te doen; het is nooit acceptabel om handmatig veranderingen aan te brengen in een reeds verzamelde dataset. Als niet bekend is wat de juiste waarde was, dan kunnen onmogelijke waarden het beste vervangen worden door een missende waarde. Als de data in het onderzoek niet anoniem verzameld is, kan het nog mogelijk zijn, naar gelang de onderzoekscontext en verkregen consent, om deelnemers te vragen naar de onmogelijke waarde. Wellicht is er een logische verklaring voor wat onmogelijke data leek, of kan de deelnemer aangeven of het datapunt een fout betreft, en wat de juiste waarde is.

25.1.2 Verdelingen

Het is belangrijk om altijd naar de verdelingen van de data te kijken. De vraag die dan moet worden beantwoord is of die verdelingen zijn zoals verwacht. Het kan niet voldoende benadrukt worden dat er meer verdelingen bestaan dan de (standaard) normale verdeling; een verdeling met het gemiddelde in het centrum waarbij steeds extremere afwijkingen van die centrale waarde steeds onwaarschijnlijker worden.

Het controleren van de dataverdeling vereist enige basiskennis van verdelingen. De verdelingsvorm van elke datareeks in een steekproef benadert in principe de verdelingsvorm van die variabele in de populatie, met steekproeftoeval en meetfout ‘toegevoegd’. Als bijvoorbeeld bekend is dat een variabele linksscheef is verdeeld in de populatie, maar de bijbehorende datareeks is rechtsscheef, normaal, of uniform, dan is dat een indicatie dat er misschien iets fout ging bij de dataverzameling. Het kan natuurlijk ook zo zijn dat de a priori verwachtingen over de vorm van de populatieverdeling niet blijken te kloppen: dat is ook belangrijk om te onthouden. Tot slot is voor sommige analyses belangrijk dat de verdeling van de afhankelijke variabele goed wordt gespecificeerd, dus dan is het goed om die te kennen.

Analyses zoals de \(t\)-toets vereisen dat de steekproevenverdeling van het gemiddelde normaal is verdeeld. De centrale limietstelling garandeert dat als steekproeven voldoende groot zijn, en steekproeven die niet underpowered zijn voor de meeste effectgroottes zijn altijd voldoende groot. Maar vroeger werden vaak underpowered steekproeven gebruikt: te klein om normale steekproevenverdelingen te garanderen. Hierom werd vaak gekeken of het aannemelijk was dat de steekproefscores afkomstig waren uit een normaal verdeelde populatieverdeling, want als de popuatieverdeling normaal is verdeeld, dan is de steekproevenverdeling dat per definitie.

Tegenwoordig is het dus vaak niet meer nodig dat data afkomstig zijn uit een normaal verdeelde steekproevenverdeling. Omdat dit lange tijd wel belangrijk was, zijn er specifieke toetsen ontwikkeld om normaliteit te toetsen. Voorbeelden hiervan zijn de Kolmogrov-Smirnov toets en Shapiro-Wilk’s toets. Het is meestal echter geen goed idee om deze te gebruiken. Hiervoor zijn twee redenen. Ten eerste wordt het toepassen van zogenaamde ‘bright-line criteria’, zoals wordt gedaan bij dergelijke toetsen, sterk afgeraden. Ten tweede gaan deze toetsen uit van puur continue data, terwijl echt continue data buiten de natuurwetenschappen zeer zeldzaam zijn. De manier waarom deze toetsen op een verdeling toetsen is door de eerst de wiskundige kansverdeling ‘uit te tekenen’ om vervolgens een schets te maken van de kansverdeling van de data. Kleine afwijkingen kunnen dan snel leiden tot schetsen die niet lijken op de wiskundige verdeling waarmee het vergeleken wordt. Deze toetsen slaan hierdoor zeer snel significant uit: ze wekken de indruk dat normale verdelingen toch niet normaal zijn.

In plaats van de beslissing over te laten aan nulhypothese toetsen is het daarom beter om meerdere informatiebronnen te combineren. De belangrijkste informatie is, zoals altijd, een visualisatie van de data. Twee hiervan zijn histogrammen en boxplots:

Deze visualisaties maken het mogelijk om de data te vergelijken met de te verwachten verdeling in de populatie. Andere hulpmiddelen zijn de scheefheid en spitheid, oftwel ‘skewness’ en ‘kurtosis’. Deze twee maten drukken kwantitatief uit hoeveel een verdeling schever of spitser is dan een normaalverdeling. Deze zijn dus alleen bruikbaar om een verdeling te vergelijken met een normaalverdeling, of om een verdeling te vergelijken met een verdeling waarvoor de scheefheid en spitsheid bekend zijn. Tot slot zijn soms toetsen zoals de Kolmogrov-Smirnov toets en Shapiro-Wilk’s toets bruikbaar, als er redenen zijn om aan te nemen dat de verdelingsvorm in de populatie de normale verdeling is. Pas dan wel op de conclusie niet te baseren op de \(p\)-waarde.

Een belangrijke vereiste voordat zinvol naar verdelingsvormen gekeken kan worden is dat bekend is welke verdelingsvorm een variabele in de populatie heeft. Hierover is een theorie nodig die dit specificeert, of voldoende empirische evidentie om een redelijke inschatting te maken. Als dit niet beschikbaar is, kan de geobserveerde verdeling van steekproefscores niet worden geinterpreteerd. Het gaat er immers om dat de steekproefscores afkomstig zijn uit de bedoelde populatie. Als een populatieverdeling scheef is, en de steekproefscores zijn normaal verdeeld, dan is er duidelijk iets fout gegaan. De scores in die steekproef kunnen dan niet zonder meer worden geinterpreteerd als informatief over de populatie.

25.1.3 Uitbijters

Naast verdelingsvormen wordt vaak gekeken naar uitbijters: individuele datapunten die uitzonderlijk hoog of laag zijn in vergelijking met de rest van de datareeks. Deze uitbijters kunnen indicatief zijn voor onmogelijke waarden. Het kan ook zijn dat ze wel degelijk mogelijke waarden representeren, maar dat ze wel een onevenredige invloed uitoefenen op de hoofdanalyses. In dat geval is het goed om de hoofdanalyses te herhalen zonder deze deelnemers, om uit te sluiten dat de resultaten alleen bepaald worden door die uitbijters.

25.1.4 Deelnemerfouten

Tot slot kan het zijn dat deelnemers niet goed opletten of zelfs opzettelijk foute data ingeven. Een bekend patroon is bijvoorbeeld ‘straightlining’, waarbij deelnemers bijvoorbeeld alle vragen in een arrayvraag met de laagste of juist de hoogste antwoordoptie beantwoorden, of soms in een kris-kras patroon de vragen beantwoorden. In R is er een package speciaal hiervoor, het careless package. In SPSS zijn geen eenvoudige oplossingen beschikbaar.

25.1.5 Studieplanning: verificatie van data-integriteit

Het verifieren van de data-integriteit wordt veel makkelijker als a priori (dus voordat de dataverzameling startte) is nagedacht over de verwachtingen die er op dat oment zijn met betrekking tot hoe de te verzamelen datareeksen eruit zullen zien. Daarom worden deze verwachtingen voor elke variabele van te voren besproken en gedocumenteerd. Bovendien is dit het moment om te besluiten welke afwijkingen van die verwachtingen acceptabel zijn of niet. De criteria die dan worden geformuleerd kunnen dan worden onderbouwd. Het is later natuurlijk mogelijk om van die planning af te wijken, ook steeds weer voorzien van een onderbouwing.

Als van te voren niet is gespecificeerd wanneer data worden aangepast of verwijderd (wat de voorwaarden precies zijn) en hoe (welke procedures zullen worden toegepast), dan kan dit ook achteraf worden besloten. Echter, omdat wetenschappers mensen zijn, en mensen vatbaar zijn voor verstoring van hun redeneringen, is er dan een aanzienlijk risico dat de keuzes die achteraf worden gemaakt deels gebaseerd zijn op de observaties in de data. Dit schaadt de betrouwbaarheid van die keuzes: de kans dat die dan bewust of onbewust anders worden gemaakt om de patronen in de data beter aan te laten sluiten bij het wereldbeeld of de verwachtingen van de onderzoeker is dan aanzienlijk. Daarom is het belangrijk om hier altijd van te voren over na te denken, en de keuzes, voorzien van onderbouwing, in een preregistratie vast te leggen.

25.1.6 Check-list

Deze check-list kan bij de planning van een studie worden gevolgd om vast te leggen wat tijdens de data-screening gedaan moet worden.

  • Bepaal voor elke datareeks die verzameld gaat worden welke waarden mogelijk zijn.
  • Bepaal welke procedure wordt gevolgd als onmogelijke waarden worden aangetroffen.
  • Bepaal voor elke variabele wanneer waarden als uitbijters worden gezien.
  • Bepaal welke procedure wordt gevolgd als uitbijters worden aangetroffen.
  • Bepaal welke verdeling elke variabele zou moeten hebben.
  • Bepaal welke procedure wordt gevolgd als variabelen anders verdeeld zijn.
  • Bepaal wanneer responsen van deelnemers worden beschouwd als deelnemerfouten.
  • Bepaal welke procedure wordt gevolgd als deelnemerfouten worden aangetroffen.

Houd er rekening mee dat bij datascreening geen nulhypothesesignificantietoetsing (NHST) kan worden gebruikt. Er worden immers geen uitspraken gedaan over de populatie, maar over de steekproef. Let daarom op dat de voorwaarden, als die in kwantitatieve termen worden vastgelegd, worden beschreven in termen van de relevante schaaleenheden, of gestandaardiseerde versies hiervan, als bijvoorbeeld met \(z\)-waarden wordt gewerkt.

Er zijn heel veel mogelijke oplossingen voor problemen met data-integriteit. Hier worden een aantal veel gebruikte oplossingen genoemd.

  • Bij onmogelijke waarden, uitbijters, of deelnemerfouten:
    • De betreffende deelnemers worden verwijderd uit de dataset;
    • De betreffende datapunten worden verwijderd uit de dataset (door ze op ‘missing’ of NA te zetten);
    • De betreffende datapunten worden beschouwd als missende data, vervangen met een methode voor imputatie van missende data.
  • Bij problematisch afwijkende verdelingsvormen:
    • De variabele wordt niet verder geanalyseerd;
    • De datareeks wordt getransformeerd.

Welke procedure ook wordt gekozen, het is belangrijk dat deze wordt uitgevoerd via commandos’ in het analyscript, en worden voorzien van commentaar met uitleg. Alle bewerkingen die op de data worden uitgevoerd, van het inladen van de ‘allerruwste’ data tot en met de analyses voor de uiteindelijke resultaten, moeten worden gedocumenteerd. Hoewel dit in principe ook beschrijvend kan, is exacte reproductie dan vaak niet mogelijk.

25.2 Verificatie van voorwaarden

De voorwaarden van analyses verschillen van analyse tot analyse. In deze sectie worden van de analyses in het bachelorprogramma Psychologie van de Open Universiteit uitgelegd aan welke voorwaarden de te analyseren data moeten voldoen om de analyse te kunnen gebruiken.

Voor deze voorwaarden geldt weer dat het belangrijk is om voordat de dataverzameling start, te bepalen wanneer de in de steekproef geobserveerde patronen worden beschouwd als indicaties dat de voorwaarden worden geschonden. Door deze criteria en de te volgen procedure in geval van schending van een of meer criteria van te voren vast te leggen in de preregistratie wordt weer voorkomen dat de criteria deels tot stand komen op basis van de geobserveerde patronen in de data. Een bijkomend voordeel is dat als deze criteria en procedures allemaal zijn vastgelegd in de preregistratie, deze alleen nog hoeven te worden uitgevoerd als de data eenmaal binnen zijn. Als de dataverzameling eenmaal start is het moeilijkste werk dus al gedaan: de preregistratie vormt een stappenplan voor de analyses, dat alleen nog uitgevoerd hoeft te worden. Natuurlijk kunnen er twijfelgevallen voorkomen, of patronen waarop niet is geanticipeerd, dus het is wel belangrijk om te blijven opletten. Bovendien is het altijd mogelijk om af te wijken van de preregistratie. Dit kan dan met onderbouwing worden uitgelegd in de analysescripts of in het manuscript.

Sommige voorwaarden golden lange tijd, maar zijn inmiddels achterhaald. Om verwarring te voorkomen (gegeven dat zulke achterhaalde voorwaarden in andere bronnen soms nog wel worden behandeld alsof ze nog geldig zijn) worden achterhaalde voorwaarden hier ook kort besproken, en wordt uitgelegd waarom ze achterhaald zijn.

25.2.1 Alle inferentiele analyses

Het doen van uitspraken over een populatie op basis van een steekproef heet ook wel inferentie (je leidt uit de steekproef iets af over de populatie). Inferentiele statistiek vereist altijd dat de steekproef aselect is gekozen uit de populatie. Met andere woorden, elk lid van de populatie moet evenveel kans hebben om in de steekproef te belanden. Als dit niet het geval is, en er is sprake van bijvoorbeeld zelfselectie omdat wordt geworden via links op websites of social media, dan is niet bekend in hoeverre de steekproef representatief is voor de populatie. Deze eerste aanname, dat de steekproef aselect is, geldt dus voor alle inferentiele analyses. Overigens is dit gelukkig geen deal-breaker, maar als een steekproef niet echt aselect is, dan is het wel heel belangrijk om je bij de interpretatie van alle analyses af te vragen of de patronen die je ziet verklaard kunnen worden door selectiebias in je steekproef.

25.2.2 Univariate analyses

Univariate analyses zijn analyses waarin maar één variabele varieert. Dit betreft dus analyses die op een enkele datareeks worden uitgevoerd. Deze analyses worden behandeld in cursus PB0202, Onderzoekspracticum inleiding data-analyse.

25.2.2.1 Centrummaten

Centrummaten zijn getallen die de centrale tendentie van een datareeks samenvatten. Zij vormen vaak een efficiënt middel om een datareeks te beschrijven, als tenminste aan de voorwaarden wordt voldaan.

Het gemiddelde

  • Deal-breakers:
    • Het gemiddelde kan alleen worden berekend voor kardinale datareeksen, dus datareeksen die het interval-niveau of het ratio-niveau hebben. Als een datareeks het ordinale of nominale meetniveau heeft, kan het gemiddelde niet worden berekend.
  • Proceed at your own risk:
    • Als een datareeks assymetrisch is verdeeld, dus linksscheef of rechtsscheef is, verschilt het gemiddelde van de modus (de top van de verdeling). Pas dus goed op bij interpretatie!
    • Bij uitzonderlijk kleine datareeksen (enkele tientallen datapunten of minder) is de steekproevenverdeling van het gemiddelde niet normaal verdeeld. In dat geval kan de reguliere methode om betrouwbaarheidsintervallen voor het gemiddelde te berekenen niet worden gebruikt, en moet in plaats daarvan bootstrapping worden gebruikt.

De mediaan

De modus

De modus kun je altijd noemen. Hier kleven geen voorwaarden aan. Hij is vaak niet heel informatief, maar er kan ook niets fout gaan.

25.2.3 Bivariate analyses

Bivariate analyses zijn analyses waarin precies twee variabelen varieren. Dit betreft dus analyses die op een twee datareeks worden uitgevoerd. Deze analyses worden behandeld in cursus PB0202, Onderzoekspracticum inleiding data-analyse. Deze zijn geordend aan de hand van het meetniveau van de twee datareeksen: kardinaal, ordinaal, of nominaal. Kardinale datareeksen zijn afkomstig van operationalisaties die hun doelconstruct op een interval of rationele schaal operationaliseren. Oridnale datareeksen zijn afkomstig van operationalisaties die hun doelconstruct op een categorische schaal operationaliseren, waarbij de mogelijke meetwaarden allemaal ten opzichte van elkaar te ordenen zijn op één dimensie, maar waarbij de onderlinge afstand tussen de meetwaarden onbekend of niet kwantificeerbaar is. Nominale datareeksen zijn afkomstig van operationalisaties die hun doelconstruct op een categorische schaal operationaliseren, waarbij de mogelijke meetwaarden niet te ordenen zijn ten opzichte van elkaar. Een speciaal geval zijn dichotome datareeksen, ook wel binaire datareeksen genoemd: omdat deze maar twee mogelijke meetwaarden betreffen, kunnen ze meestal als nominaal, ordinaal, of kardinaal worden gezien. Categorische datareeksen worden overigens ook wel discrete datareeksen genoemd, en deze termen worden meestal gebruikt voor datareeksen met meer dan twee categorieën.

25.2.3.1 Twee kardinale datareeksen: Pearson’s correlatie en enkelvoudige regressie-analyse

Enkelvoudige regressie-analyse (verwarrend genoeg ook wel ‘univariate regressie’ genoemd, niet omdat er maar een variabele bij betrokken is (dat zijn er immers twee), maar omdat er maar een voorspeller is) is simpelweg een andere benadering van de Pearson correlatie. Deze wordt dus niet apart besproken; alle aannames die gelden voor de Pearson correlatie gelden ook voor de enkelvoudige regressie-analyse. De aannames van de Pearson correlatie zijn als volgt.

Beide datareeksen hebben het kardinale niveau

Als een of twee van de datareeksen ordinaal is, kan in plaats van de Pearson correlatie de Spearman correlatie worden gebruikt. Hiervoor gelden verder dezelfde aannames. Als een of twee van de variabelen nominaal is, kan de Pearson correlatie niet worden gebruikt. Als een of twee van de variabelen dichotoom is, kan de Pearson correlatie worden berekend, maar deze heet dan de puntbiseriële correlatie, en moet anders worden geïnterpreteerd. In dat geval kan beter Cohen’s \(d\) worden berekend.

Het betreffende verband is lineair

Om te verifiëren of het verband lineair is, kan een scatterplot worden besteld. Als de punten niet op een rechte lijn liggen (met daar omheen natuurlijk willekeurige variatie, de error), maar een curvilineair patroon lijken te volgen, kan de Pearon correlatie of de Spearman correlatie het verband tussen die twee variabelen niet goed representeren.

Het verband wordt niet verstoord door uitbijters

Uitbijters kunnen univariaat zijn, maar ook bivariaat. Een bivariate uitbijter is een waarde die afwijkt van het patroon dat de andere datapunten in een datareeks volgen.

Het verband wordt niet verstoord door afwijkende verdelingen

Als twee variabelen verschillend zijn verdeeld, daalt de maximaal haalbare correlatie. Als de verdelingsvormen in de steekproef representatief zijn voor de verdelingsvormen in de populatie, dan is dit geen probleem; het verband kan dan immers nooit volledig zijn in de populatie. Als de verdelingsvormen echter afwijken van de verdelingsvormen in de populatie, dan is de correlatie die wordt gevonden in de steekproef niet langer representatief voor het verband in de populatie (hoewel dit meer een data-integriteitsprobleem of een validiteitsprobleem is).

  • Deal-breakers:
    • De datareeksen zijn ordinaal of nominaal (waarbij dichotome datareeksen, omdat ze as interval-variabelen te beschouwen zijn, een uitzondering vormen). Of een datareeks ordinaal of interval is, is bij psychologische variabelen overigens vaak niet duidelijk. De aanname is bijna altijd dat de onderliggende variabele continue is, maar een gegeven operationalisatie kan soms toch ordinaal zijn. Er bestaan analysemethoden om dit te toetsen, zoals multidimensional scaling, maar die vallen buiten dit curriculum. Je kunt altijd Spearman’s correlatie berekenen; die werkt prima voor ordinale variabelen.
    • Als een verband nonlineair is (zoals te zien in de scatterplot) kun je geen gewone correlatie gebruiken.
  • Proceed at your own risk:
    • Bij uitbijters kan de correlatie worden verstoord: bestudeer de scatterplots en herhaal de analyse zonder uitbijter(s). Je kunt ook Spearman’s correlatie berekenen; omdat die wordt berekend met de ‘ranks’ van de datapunten hebben uitbijters niet meer zo onevenredig veel invloed.
    • Bij verdelingen die verschillen (e.g. een hele linksscheve verdeling en een normale verdeling) kan de correlatie nooit 1 of -1 worden. Maar deze verdelingen representeren misschien wel de verdelingsvorm in de populatie, waardoor die schatting alsnog accuraat kan zijn.

25.2.3.2 Een dichotome datareeks en een kardinale datareeks: Cohen’s \(d\) en \(t\)-toetsen

Cohen’s \(d\) en de \(t\)-toets delen veel aannames, dus ze worden samen beschreven.

Een kardinale datareeks en een dichotome datareeks

De gemiddelden worden niet bepaald door uitbijters

Uitbijters kunnen een onevenredige invloed uitoefenen op zowel het gemiddelde als de standaard-deviatie. Als er dus uitbijters zijn, kunnen deze het gemiddelde in een groep enkelhandig zo sterk verhogen of verlagen dat er verbanden lijken te bestaan die ter niet zijn, of vice versa.

Achterhaald: de steekproevenverdelingen van de gemiddelden in de twee groepen die worden gevormd door de dichotome datareeks zijn normaal

Aan deze aanname wordt altijd voldaan vanwege de centrale limietstelling. De enige situaties waarin je hier niet aan voldoet zijn als je steekproeven heel klein zijn. Echter, met zulke kleine steekproeven (enkele tientallen deelnemers) is het onmogelijk om Cohen’s \(d\) accuraat te schatten (met twee groepen van 30 deelnemers is het 95% betrouwbaarheidsinterval voor Cohen’s \(d\) ongeveer een hele standaarddeviatie breed, dus de breedte van dat interval is al een veelvoud van de effectgroottes die gangbaar zijn in psychologisch onderzoek), en als geen effectgrootte wordt geschat maar nulhypothesesignificantietoetsing wordt toegepast, is de power om zelfs een Cohen’s \(d\) van 0.5 aan te tonen (een zeldzaam groot effect in de psychologie) lager dan 50%. Omdat zinvol onderzoek dus sowieso minstens richting de honderd deelnemers per groep vereist, garandeert de centrale limietstelling dat de steekproevenverdelingen van de gemiddelden normaal zijn verdeeld, hoe de populatieverdeling er ook uit ziet (en dus, hoe de verdeling van steekproefscores er ook uit ziet). Hoewel dit dus formeel een aanname is, speelt hij bij onderzoek met fatsoenlijke steekproefomvangen geen rol.

Achterhaald: varianties in de groepen moeten gelijk zijn

Er zijn twee \(t\)-toetsen: Student’s \(t\)-toets en Welch’s \(t\)-toets. De eerste vereist dat de varianties in beide groepen gelijk zijn. Echter, Welch’s \(t\)-toets niet - deze corrigeert voor ongelijke varianties, in de mate die nodig is (dus, bij gelijke varianties zijn beide \(t\)-toetsen aan elkaar gelijk). Gebruik daarom standaard de Welch’s \(t\)-toets, zodat het niet uitmaakt of de varianties verschillen.

  • Deal-breakers:
    • De enige deal-breaker bij de \(t\)-toets is als je niet een kardinale en een dichotome datareeks hebt (in andere woorden: als je niet twee gemiddelden wil vergelijken). Als je wel een dichotome en een kardinale datareeks hebt, kun je Welch’s \(t\)-toets uitvoeren.
  • Proceed at your own risk:
    • Als er uitbijters zijn, herhaal de analyse dan ook zonder uitbijters.
    • Als de variantie in een van beide groepen heel erg verschilt van de variantie in een andere groep, dan is dat geen probleem voor Welch’s \(t\)-toets - maar, het kan wel betekenen dat er iets fout ging, als je dit niet verwacht. Waarom lijken de deelnemers in die ene groep zoveel meer op elkaar dan de deelnemers in de andere groep? Als je dat niet kunt verklaren, dan is dat een probleem.
    • Ditzelfde geldt voor de verdelingsvormen. Dit gaat eigenlijk over de validiteit van je datareeksen: als je datareeksen niet verdeeld zijn zoals je verwacht dat de betreffende constructen in de populatie zijn verdeeld, dan ziet ofwel de populatie er heel anders uit dan je verwachtte (en moet je nadenken over de implicaties daarvan), ofwel je operationalisaties waren niet valide in jouw steekproef, en in dat geval kunnen de datareeksen die die operationalisaties hebben gegenereerd je dus niets meer vertellen over de constructen die ze hadden moeten meten (maar dus niet hebben gemeten).

25.2.3.3 Een categorische datareeks en een kardinale datareeks: Omegakwadraat en eenweg variantieanalyse

25.2.3.4 Twee categorische datareeksen: Cramer’s V en \(\chi^2\)

25.2.4 Multivariate analyses

25.2.4.1 Meerweg variantieanalyse

Tussen-proefpersonen meerweg variantieanalyse zonder covariaten Tussen-proefpersonen meerweg variantieanalyse met covariaten

Binnen-proefpersonen meerweg variantieanalyse zonder covariaten

Split-plot meerweg variantieanalyse zonder covariaten

25.2.4.2 Multivariate regressie-analyse

Voor multivariate regressie-analyse gelden dezelfde aannames die gelden voor univariate (enkelvoudige) regressieanalyse (dus: alle variabelen moeten een kardinaal meetniveau hebben (continue/interval/ratio), de verbanden moeten niet worden gedomineerd door uitbijters of verdelingen die te scheef, spits, of afgeplat zijn, en de verbanden moeten lineair zijn), plus nog een aantal aannames.

Multivariate normaliteit

Voor elke combinatie van alle voorspellers moeten de datareeksen normaal zijn verdeeld. Dit drukt de aanname uit dat er geen systematische verstoringen in de data zitten: dat er behalve de verbanden tussen de voorspellers en de afhankelijke variabele alleen ‘ruis’ is, en dat die ruis (de error) normaal is verdeeld. Deze aanname kan worden getoetst door de residuen te inspecteren: deze moeten grofweg normaal zijn verdeeld. Zie hiervoor de sectie ‘Verdelingen’ binnen ‘Verificatie van data-integriteit’.

Homoscedasciteit

Als er homoscedasciteit is, is de variantie van de ene variabele onafhankelijk van de waarde van een (of meerdere) andere variabelen. Dan is die variantie dus altijd ongeveer hetzelfde. Bij heteroscedasciteit verschilt die variantie als functie van een andere variabele. Neem bijvoorbeeld leeftijd en lengte. De variantie in lengte neemt toe naarmate kinderen opgroeien: als ze worden geboren zijn ze allemaal zo ongeveer een halve meter. Babies van 45 centimeter tot 60 centimeter komen nog wel voor, maar meer dan 20 centimeter afwijking is zeer zeldzaam. Bij pubers en volwassenen is de variantie veel groter. In dat geval is er dus heteroscedasciteit. Het probleem van heteroscedasciteit is tweeledig.

Ten eerste wordt bij regressieanalyse de best passende lijn gezocht. “Best passend” is dan gedefinieerd als de lijn waarbij de afwijkingen van de datapunten het kleinst zijn. Hierbij krijgt elk datapunt hetzelfde gewicht. Echter, als die afwijkingen ergens veel groter zijn (bijvoorbeeld bij pubers in vergelijking met babies), dan krijgen de datapunten van pubers toch meer invloed. Een oplossing hiervoor is ‘weighted least squares’ regressie (deze valt buiten het curriculum).

Ten tweede wordt de standaardfout van de regressiecoefficient die die lijn beschrijft geschat, maar die schatting is gebiased onder heteroscedasciteit. Dit is ook een meer methodologisch/theoretisch probleem: als er geen homoscedasciteit is, dan is er dus geen niet ‘een standaarfout’. De accuraatheid van de schatting van de regressielijn hangt dan immers af van de waarden van de voorspellers. Dit probleem kan ook worden opgelost met ‘weighted least squares’ regressie (die jammer genoeg dus buiten het curriculum valt).

Geen (multi-)collineariteit

Collineariteit betekent dat twee variabelen samenhangen in hun voorspelling van een derde variabele. Als bijvoorbeeld op een basisschool lengte en gewicht worden gemeten om leeftijd te voorspellen23, zullen deze drie variabelen allemaal samenhangen (in die populatie is leeftijd immers te beschouwen als een causaal antecedent, een oorzaak, van zowel lengte als gewicht). Omdat leeftijd zowel gewicht als lengte beinvloedt, is de voorspelling van leeftijd door lengte niet onafhankelijk van iemands gewicht. In een regressie-analyse waarbij lengte en gewicht als voorspellers worden opgenomen van leeftijd voorspellen lengte en gewicht dus zowel elkaar als leeftijd. Dit heet collineariteit.

Multi-collineariteit is hetzelfde fenomeen, maar dan met meer dan twee voorspellers. Het kan immers ook zo zijn dat er vier voorspellers zijn die geen van allen bivariaat sterk samenhangen, maar waarbij een van de vier door de drie anderen samen wel goed wordt voorspeld. Als het deel van die variabele dat goed wordt voorspeld door de drie anderen dan ook deel uitmaakt van het deel van die variabele dat de afhankelijke variabele voorspelt, dan is er sprake van multicollineariteit.

(Multi-)collineariteit is een probleem omdat overlap tussen voorspellers in hun voorspelling van de afhankelijke variabele door de analyse niet gescheiden kan worden. Het is immers niet bekend bij welke voorspeller dat ‘overlappende stukje voorspelling’ hoort. Dit betekent dat de overlappende voorspelling uit het model wordt verwijderd, wat zich manifesteert als een toename in de standaardfout van de voorspellers. Deze kunnen hierdoor minder goed worden geschat: ze hebben bredere betrouwbaarheidsintervallen (en, als nulhypothesesignificantietoetsing wordt toegepast, hogere p-waarden, oftewel, er is minder power). In andere woorden: deze grotere standaardfouten betekenen dat de waarden van de regressiecoefficienten van steekproef tot steekproef fors kunnen verschillen. Het wordt dus snel moeilijker om uitspraken te doen over die coefficienten, en dus over hoe sterk (en: of) de voorspellers samenhangen met de afhankelijke variabele.

Bij psychologische variabelen is een extra complicatie dat (multi-)collineariteit vaak betekent dat de operationalisaties van die variabelen deels dezelfde aspecten van de menselijke psychologie meten. Als de variantie in die overlap vervolgens uit de analyse wordt verwijderd, heeft de geschatte regressiecoefficient dus niet langer betrekking op het doelconstruct van die operationalisaties, maar van een onbekende subset van dat doelconstruct. Je weet dan dus niet meer wat de regressiecoefficienten representeren.

Multicollineariteit kan worden geinspecteerd door naar de tolerantie en de variance inflation factor (de VIF) te kijken. Deze kunnen voor elke voorspeller worden berekend, en ze zijn eigenlijk hetzelfde. De tolerantie is het complement van de \(R^2\) die je krijgt als je de betreffende voorspeller zou voorspellen uit de andere voorspellers in een aparte regressieanalyse. Als je dus \(20\%\) van een voorspeller kunt voorspellen uit de andere voorspellers, dan is de \(R^2\) in die regressieanalyse \(.20\), en dan is de tolerantie van die voorspeller in je oorspronkelijke regressieanalyse gelijk aan \(1-0.20=0.80\). De variantie inflatie factor is de reciproke van de tolerantie. In dit geval is die dus \(\frac{1}{0.80}=1.25\). Deze VIF is handig omdat hij uitdrukt hoeveel groter de standaardfout van deze voorspeller wordt door die (multi-)collineariteit. Een VIF van \(1.25\) valt nog mee: dan is de standaardfout dus ‘maar’ \(25\%\) groter.


  1. Overigens wordt soms gesteld dat in regressie-analyse de causale antecedenten (de oorzaken) de voorspellers moeten zijn, en het gevolg de afhankelijke variabele. Dit is een misverstand. Causaliteit zit in het design van een studie, niet in de analyse. Het is prima mogelijk, en soms wenselijk, om een causaal antecedent (een oorzaak) als afhankelijke variabele op te nemen; of om een casuaal consequent (een gevolg) als voorspeller op te nemen. Sterker nog, als alle variabelen psychologische variabelen zijn is dat onderscheid vaak moeilijk te maken. Als het doel van een studie is om causaliteit te onderzoeken, dan is altijd een experimenteel design nodig. Of dat wordt geanalyseerd met variantie-analyse of regressie-analyse hangt van andere dingen af, niet van de rol van een variabele in het design van de studie.↩︎