Hoofdstuk 9 Validiteit bij experimenten

In dit hoofdstuk wordt besproken:
  • bedreigingen voor de externe validideit bij experimenten
  • bedreigingen voor de interne validideit bij experimenten
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum experimenteel onderzoek (PB0422)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Experimentele designs

9.1 Inleiding

In dit hoofdstuk bespreken we de problemen die zich kunnen voordoen bij het opzetten van een experiment. Hierbij gaat het om de vraag of het experiment nog wel doet wat het beoogt te doen, oftewel de validiteit van het experimentele design. Er zijn veel manieren waarop de validiteit van een onderzoek in het geding kan zijn en elk design heeft zijn eigen problemen. Deze problemen kunnen worden onderverdeeld in twee categorieën: interne en externe validiteit.

Externe validiteit heeft betrekking op de generaliseerbaarheid van de resultaten naar de doelpopulatie. Interne validiteit gaat over de vraag of het onderzoeksdesign goed genoeg is om conclusies te trekken over causale relaties, zonder dat deze worden beïnvloed door storende variabelen.

Om zeker te stellen dat conclusies uit een onderzoek intern en extern valide zijn, moeten onderzoekers voorzorgsmaatregelen nemen bij het ontwerpen van hun experimenten. Maar deze voorzorgsmaatregelen kunnen tegenstrijdig zijn. Het oplossen van het ene probleem van validiteit kan een ander probleem van validiteit juist versterken.

Dit spanningsveld bestaat met name tussen de interne en de externe validiteit. Hoe meer externe factoren en persoonskenmerken onderzoekers controleren om de interne validiteit te waarborgen, des te minder realistisch wordt het experiment en daarmee dus ook minder extern valide. Onderzoekers moeten daarom per geval beoordelen welke bedreigingen voor de validiteit het grootste gevaar vormen.

9.2 Externe validiteit

Externe validiteit is de mate waarin de resultaten van een onderzoek gegeneraliseerd kunnen worden naar de doelpopulatie. Hierbij onderscheiden we twee soorten generaliseerbaarheid:

  1. Generaliseerbaarheid tussen situaties: de mate waarin de situaties in het experiment kunnen worden gegeneraliseerd naar situaties in het dagelijks leven. Dit wordt ook wel ecologische validiteit genoemd.

  2. Generaliseerbaarheid tussen mensen: de mate waarin de onderzoeksdeelnemers een representatieve weergave zijn van de doelpopulatie.

Ecologische validiteit wordt soms verkeerd begrepen wanneer het te letterlijk wordt geïnterpreteerd. Experimenteel onderzoek is altijd op een of andere manier onrealistisch, maar ecologische validiteit is geen synoniem voor realisme. Er zijn verschillende manieren waarop een experiment ecologisch valide kan zijn. Met een realistisch experiment wordt vaak bedoeld dat het psychologisch realistisch is, oftewel dat de psychologische processen die door het experiment worden opgeroepen vergelijkbaar zijn met hoe deze processen worden opgeroepen in het dagelijks leven.

Verder is het belangrijk om te benadrukken dat generaliseren naar de populatie niet betekent dat er altijd gegeneraliseerd moet kunnen worden naar andere populaties, of naar de mensheid in het algemeen. Als onderzoekers willen weten hoe ADHD-patiënten reageren op een behandeling, gaat het om de vraag of de onderzoeksresultaten generaliseerbaar zijn naar ADHD-patiënten, en niet of deze resultaten generaliseerbaar zijn naar patiënten met andere stoornissen. Bij elk onderzoek moeten de onderzoekers duidelijk maken welke doelpopulatie zij voor ogen hebben en de steekproef moet daar een realistische weergave van zijn.

9.3 Bedreigingen voor de externe validiteit

In de onderstaande tabel staan enkele situaties die zich bij experimenten kunnen voordoen en daarmee de externe validiteit van het experiment kunnen bedreigen.

Tabel 9.1: Overzicht van bedreigers van de externe validiteit.
Bedreiger Toelichting
Interactie voormeting en experimentele stimulus De voormeting creëert een situatie die zich buiten het experiment niet voor zou doen; bijvoorbeeld de voormeting maakt mensen meer bewust van waarnaar ze worden gevraagd.
Niet-representatieve steekproeven Selectie van proefpersonen wijkt af van de populatie waar het effect in plaats zou moeten vinden.
Reactieve experimentele locatie De proefleider, of kennis van de experimentele toewijzing maakt dat proefpersonen zich anders gedragen, vaak in lijn met wat proefpersonen denken wat van hen verwacht wordt.

9.3.1 Interactie voormeting en reactie op experimentele stimulus

In de echte wereld worden mensen niet gemeten voordat ze natuurlijk gedrag vertonen. De voormeting kan het gedrag van onderzoeksdeelnemers en hun reactie op een experimentele stimulus beïnvloeden. Daardoor zijn ze geen realistische weergave meer van de doelpopulatie. In onderzoek met een voormeting generaliseren we namelijk de onderzoeksresultaten van ‘mensen die een voormeting hebben gehad’ naar ‘mensen die in hun dagelijks doen en laten geen voormeting hebben gehad’.

Of dit interactie-effect tussen voormeting en reactie op de experimentele stimulus een bedreiging vormt voor de generaliseerbaarheid van de onderzoeksresultaten hangt af van de specifieke variabelen en van de manier waarop deze worden gemeten. Omdat het onderzoek zelf invloed heeft op wat er wordt onderzocht, is er sprake van reactiviteit. Bijvoorbeeld, als we een vragenlijst afnemen over motivatie voor het volgen van een cursus, dan kan de voormeting een reactief effect hebben. Dit geldt minder als we het gedrag van mensen observeren zonder dat zij zich hiervan bewust zijn.

Om reactiviteit te voorkomen, kan de onderzoeker ervoor kiezen om de voormeting weg te laten, kiezen voor een retrospectieve voormeting, of ervoor kiezen om deelnemers te misleiden. Door deelnemers niet te vertellen dat ze worden onderzocht of dat ze een experimentele stimulus hebben ontvangen, kunnen zij zich ook niet bewust zijn van het bestaan van een controlegroep.

9.3.2 Niet-representatieve steekproef

Representativiteit betekent dat de steekproef een goede afspiegeling moet zijn van de populatie, met betrekking tot belangrijke kenmerken zoals leeftijd, geslacht en opleidingsniveau. Om te bepalen of een steekproef representatief is, moet de onderzoeker de samenstelling van de populatie kennen. Een experiment vindt plaats bij bepaalde personen, op een bepaalde plaats, op een bepaald tijdstip en onder bepaalde omstandigheden. Het is niet altijd mogelijk om de resultaten van een experiment zomaar te generaliseren naar andere plaatsen, tijdstippen of omstandigheden. Als dit wel mogelijk is, zijn de resultaten extern valide.

Veel psychologisch onderzoek wordt uitgevoerd met studenten als deelnemers. Veel psychologen zijn van mening dat de psychische functies of sociale mechanismen die worden onderzocht zo algemeen van aard zijn dat ze niet afhankelijk zijn van de variabelen waarop de selectie van deelnemers afwijkt van welke populatie dan ook. Dit is echter niet proefondervindelijk vastgesteld.

9.3.3 Reactieve experimentele locatie

De experimentele omgeving of locatie waar een experiment wordt uitgevoerd, en vooral de persoon die het experiment leidt (de proefleider), kan ook een reactief effect teweegbrengen. Dit komt doordat de deelnemers in experimenten meestal zeer coöperatief zijn naar de proefleider en deze proberen tevreden te stellen.

Ook is aangetoond dat de verwachtingen die de proefleider heeft over de resultaten van het experiment een effect kunnen hebben op die resultaten. Dit wordt experimenter bias genoemd. Proefleiders kunnen, bewust of onbewust, subtiele signalen afgeven aan deelnemers waardoor die zich gaan gedragen zoals zij denken dat de proefleider van hen verwacht. Het is ook mogelijk dat proefleiders, op grond van hun ideeën over de uitkomsten van het experiment, bepaalde reacties of gedragingen van deelnemers die in strijd zijn met hun ideeën, niet opmerken of signaleren. Dat is een vorm van selectieve perceptie.

Het is moeilijk om experimenter bias te classificeren als een bedreiging voor interne of externe validiteit en de verschillen zijn subtiel. We noemen de experimenter bias hier als een bedreiging voor externe validiteit omdat de proefleider een bijzondere omgeving schept met diens eigen aanwezigheid en vooroordelen. Dezelfde groep deelnemers, onderworpen aan dezelfde experimentele manipulaties, zou zich bij een andere proefleider anders gedragen. Dit schuurt heel dicht aan tegen het concept van ecologische validiteit en daarom delen we experimenter bias in bij bedreigingen voor externe validiteit. Consensus hierover ontbreekt echter en sommige boeken noemen het alleen bij interne validiteit of bij beide vormen van validiteit.

Reactieve experimentele locatie kan worden voorkomen door deelnemers niet te vertellen in welke experimentele groep ze zitten, of door de proefleider niet te vertellen welke deelnemers in welke groep zitten. Dit wordt een ‘blind experiment’ genoemd. Als zowel de deelnemers als de proefleider niet weten wie in welke groep zit, wordt dit een ‘dubbelblind experiment’ genoemd.

9.4 Interne validiteit

Interne validiteit is de mate waarin er voldoende bewijs is om te zeggen dat veranderingen in variabele X inderdaad de oorzaak zijn van veranderingen in variabele Y - of anders gezegd, dat het bestaan van een causale relatie tussen twee variabelen voldoende is aangetoond. Om een causale inferentie te kunnen maken, dat wil zeggen om een causaal verband aan te tonen, moet er aan drie voorwaarden worden voldaan:

  1. De oorzaak gaat vooraf aan het effect (tijdsvolgorde of temporeel precedent).
  2. Er bestaat een relatie tussen de oorzaak en het gevolg (covariatie).
  3. Er zijn geen plausibele alternatieve verklaringen voor de geobserveerde covariatie (geen schijnverband).

In experimentele designs proberen onderzoekers deze drie voorwaarden veilig te stellen door zo veel mogelijk storende factoren onder controle te houden en alleen de experimentele (onafhankelijke) variabele te manipuleren om te zien wat het effect ervan is op een afhankelijke variabele. Als de onderzoeker erin slaagt om de manipulatie zo goed te isoleren dat andere verklaringen of rivaliserende hypothesen kunnen worden uitgesloten, dan wordt gesteld dat de causale inferentie intern valide is. Zie het hoofdstuk ‘Causaliteit’ voor een uitgebreide bespreking van dit concept.

9.5 Bedreigingen voor de interne validiteit

In de onderstaande tabel staan enkele situaties die zich bij experimenten kunnen voordoen en daarmee de interne validiteit van het experiment kunnen bedreigen.

Tabel 9.2: Overzicht van bedreigers van de interne validiteit.
Bedreiger Toelichting
Tussentijds extern voorval (history) Specifieke gebeurtenissen die plaatsvinden tussen de eerste en de tweede meting.
Rijping of groei (maturation) Veranderingen die binnen proefpersonen optreden door het verloop van tijd.
Testeffect De effecten die de voormeting heeft op de uitkomsten van de daaropvolgende testen.
Instrumentatie Veranderingen in meetinstrumentaria of beoordelaars die veranderingen in onderzoeksresultaten in gang zetten.
Regressie naar het gemiddelde Extreme proefpersoonkenmerken bij voormeting die natuurlijk terugzakken/-groeien naar een minder extreem niveau.
Selectie De vergeleken condities zijn niet vergelijkbaar door verschillende steekproefkenmerken op voor het onderzoek relevantie eigenschappen.
Uitval Proefpersonen die niet meer meewerken aan latere metingen in het experiment om redenen die relevant kunnen zijn voor de steekproefkenmerken van het experiment.
Interactie tussen bedreigers Een combinatie van bedreigers die elkaar versterken.
Verspreiding van de ingreep Informatie/uitleg in de ene conditie wordt ook bekend onder deelnemers in de andere conditie.
Compenserende rivaliteit De deelnemers in verschillende onderzoekscondities gaan in competitie met deelnemers in de andere condities. Ook bekend als het John Henry-effect.

9.5.1 Tussentijds extern voorval (history)

Tijdens het onderzoek kunnen er gebeurtenissen plaatsvinden buiten het onderzoek die van invloed kunnen zijn op het gedrag of de houding van de deelnemers. Als onderzoekers bijvoorbeeld willen onderzoeken wat het effect is van verschillende soorten informatie op negatieve houdingen ten opzichte van de Roma, kan het onderzoek verstoord worden als er kort voor of tussen de metingen een groot incident plaatsvindt met de Roma, waardoor er veel media-aandacht is voor deze groep. Dit onverwachte externe voorval kan leiden tot een meer negatieve of positieve houding ten opzichte van de Roma. De mate waarin een voorval van invloed is op de onderzoeksresultaten hangt af van de tijd tussen de voor- en nameting.

9.5.2 Rijping

Deelnemers veranderen tijdens de duur van een experiment. Als er in het experiment geen manier is ingebouwd om te controleren of de waargenomen veranderingen natuurlijk zijn, zoals een controlegroep, dan is de interne validiteit in gevaar. Deze natuurlijke rijping kan over korte of lange termijn plaatsvinden.

Een voorbeeld van rijping over een korte termijn is een experiment waar kinderen worden gevraagd om steeds langere series van getallen te onthouden. Als het experiment te lang duurt, kan de concentratie afnemen. Dit kan leiden tot meer fouten, maar deze zijn toe te schrijven aan concentratieverlies in plaats van aan een gebrek aan geheugenvermogen.

Een voorbeeld van rijping op lange termijn is een onderzoek dat kinderen volgt vanaf de vroege basisschool tot het einde van de middelbare school. Veranderingen die worden waargenomen, kunnen het gevolg zijn van biologische processen rond de puberteit. Hierdoor kan het voor een onderzoeker lastig zijn om te bepalen of de waargenomen verschillen veroorzaakt zijn door het natuurlijk verloop van de tijd, het ouder worden zelf, of door specifieke biologische processen die op bepaalde momenten in het leven plaatsvinden.

9.5.3 Testeffect

Het herhaaldelijk meten van deelnemers kan leiden tot vertekening van de resultaten. Als deelnemers een voormeting krijgen, bijvoorbeeld een puzzeltaak, dan kunnen ze juiste antwoorden onthouden, beter worden in de taak, of gewend raken aan het idee dat ze worden getest. Dit kan leiden tot betere scores wanneer dezelfde test later opnieuw wordt afgenomen. Dit betekent dat de onderzoeker niet meer kan vaststellen of de verbetering in de testscores te wijten is aan de experimentele manipulatie of aan een testeffect.

Om de interne validiteit te waarborgen, worden experimenten vaak uitgevoerd zonder voormeting of worden er groepen aan het experiment toegevoegd die geen voormeting hebben gehad. Deze groepen kunnen dan worden vergeleken met groepen die wel een voormeting hebben ondergaan.

9.5.4 Instrumentatie

Als een meetinstrument gedurende een experiment verandert, is de kans groot dat ook de resultaten veranderen. Dit gebeurt bijvoorbeeld wanneer een onderzoeker tijdens het experiment overstapt op een andere vragenlijst, een nieuwe MRI-scanner met hogere resolutie of een nieuw apparaat dat speekselmonsters op genetisch materiaal moet screenen. Hierdoor wordt er iets anders gemeten of worden de criteria waaraan de metingen worden beoordeeld gewijzigd, wat de interne validiteit van het onderzoek in gevaar kan brengen.

Soms is het echter onvermijdelijk om van meetinstrument te veranderen. Zo kan een onderzoeker die de intelligentie van kinderen wil meten gedurende hun basisschoolcarrière niet steeds dezelfde test afnemen. De test die geschikt is voor de jongere kinderen, kan te eenvoudig zijn voor de oudere kinderen. Ongeacht de reden, zodra de meetinstrumenten of de beoordelingscriteria veranderen, kan dit een bedreiging zijn voor de interne validiteit van het onderzoek.

Een mogelijke oplossing hiervoor is om een retrospectieve voormeting toe te passen. Hierbij worden deelnemers na afloop van het onderzoek gevraagd naar hun begrip of vaardigheid vóórdat de behandeling plaatsvond. Dit kan bijvoorbeeld gebeuren in een onderzoek naar de effecten van een professionele ontwikkelingsactiviteit. Deelnemers kunnen dan na de workshop gevraagd worden hoe vaardig zij waren in de betreffende vaardigheid vóórdat ze de workshop bijwoonden.

9.5.5 Statistische regressie

Statistische regressie verwijst niet naar een statistische toets, maar naar de natuurlijke tendens van variabele eigenschappen in een populatie om van extreme waarden naar meer gemiddelde waarden te gaan. Stel bijvoorbeeld dat er een onderzoek wordt uitgevoerd naar motivatie onder studenten. Bij de voormeting zijn de studenten erg enthousiast, omdat ze verwachten deel te nemen aan een geweldig en vernieuwend experiment. Maar als deze verwachting onrealistisch blijkt te zijn, zal de motivatie snel terugvallen naar meer normale niveaus, ongeacht hoe leuk experiment is. De daling in motivatie wordt niet veroorzaakt door de experimentele manipulatie, maar door de natuurlijke regressie die optreedt na een initiële extreme meting.

Een ander voorbeeld van statistische regressie wordt gevonden in klinisch onderzoek naar de effecten van een behandeling voor een depressieve-stemmingsstoornis. Mensen zoeken vaak pas hulp voor hun klachten wanneer ze op hun slechtst zijn. Later, als deze groep mensen vanwege statistische regressie gemiddeld genomen minder klachten ervaart, kan de waargenomen verbetering onterecht worden toegeschreven aan de behandeling. Door statistische regressie hebben deze deelnemers minder klachten, zelfs als ze niet behandeld zouden zijn.

9.5.6 Selectie bias

Selectie bias betekent dat er voorafgaand aan een onderzoek al verschillen zijn tussen de groepen die vergeleken worden en deze verschillen kunnen via hun invloed op de onafhankelijke variabele leiden tot verschillen in de afhankelijke variabele. Het is vaak niet mogelijk om groepen te vinden die exact gelijk zijn in termen van persoonskenmerken, maar als groepen structureel afwijken kan dit problemen veroorzaken.

Een voorbeeld hiervan is wanneer onderzoekers werknemers in een bedrijf vragen om deel te nemen aan een timemanagementprogramma. De experimentele groep kan dan per ongeluk gevuld worden met deelnemers die erg slecht zijn in timemanagement en denken veel baat te hebben bij de innovatieve cursus. Dit kan leiden tot een overschatting van het effect van de timemanagementtraining. Aan de andere kant kan de controlegroep gevuld worden met mensen die al goed zijn in timemanagement waardoor het effect van de training mogelijk onderschat wordt. Als er sprake is van selectie bias, kunnen de waargenomen prestaties na de training niet meer duidelijk worden toegeschreven aan de training zelf, maar eerder aan de timemanagementvaardigheden die deelnemers al hadden voorafgaand aan het onderzoek. Een goede randomisatie kan in veel gevallen selectie bias voorkomen.

9.5.7 Uitval

Wanneer tijdens een onderzoek deelnemers uitvallen en conclusies worden getrokken op basis van de overgebleven deelnemers (de ‘overlevers’), kan dit de interne validiteit van het onderzoek in gevaar brengen. De ‘niet-overlevers’ zijn deelnemers die om welke reden dan ook niet van begin tot eind hebben deelgenomen aan het onderzoek. Hoewel uitval soms willekeurig is, kan het ook een structurele reden hebben. Bijvoorbeeld, in een onderzoek naar de depressieve-stemmingsstoornis kunnen deelnemers met de zwaarste depressie hun medewerking staken omdat ze de energie er niet meer voor kunnen opbrengen. Hierdoor zijn de resultaten van het onderzoek gebaseerd op deelnemers met minder ernstige depressie. De resultaten zijn dus vertekend en niet alleen maar toe te schrijven aan de experimentele behandeling.

Controversiële onderwerpen kunnen ook leiden tot uitval van deelnemers. Bijvoorbeeld, als docenten een vooringenomen vragenlijst krijgen over negatieve stereotypen over buitenlandse leerlingen, kunnen sommige docenten weigeren om dit onderdeel van de vragenlijst in te vullen omdat ze zich beledigd voelen. Soms heeft uitval structurele gevolgen voor het onderzoek zelf. Bijvoorbeeld, in een onderzoek naar een stoppen-met-roken-programma, kan het zijn dat meer dan de helft van de deelnemers het programma niet afronden omdat ze al gestopt waren met roken voordat het programma was afgerond. Uitval bedreigt de validiteit van een onderzoek wanneer het toe te schrijven is aan een systematisch kenmerk van het onderzoek, de behandeling of de meetinstrumenten.

9.5.8 Verspreiding van de manipulatie

Bij een experiment krijgt de experimentele groep meestal een experimentele stimulus of behandeling, terwijl de controlegroep dat niet krijgt. Toch is een (quasi-)experimenteel ontwerp op zichzelf geen garantie dat de groepen daadwerkelijk wel of niet de manipulatie ontvangen. Het is namelijk mogelijk dat informatie over de experimentele conditie of delen hiervan worden doorgegeven aan de controlegroep. Deelnemers in de verschillende groepen kunnen met elkaar praten over het experiment en hun ervaringen uitwisselen.

Bijvoorbeeld, als onderzoekers op een hogeschool studenten werven voor een laboratoriumonderzoek in een computerlokaal op die school, kunnen de studenten elkaar tegenkomen in de gangen of in de verenigingsruimtes van de studievereniging en met elkaar over het experiment praten. Studenten die nog niet hebben deelgenomen, weten dan al wat het onderzoek inhoudt en welke experimentele manipulaties er plaatsvinden voordat ze deelnemen. Een ander voorbeeld is wanneer docenten van scholen in de controlegroep bij de invoering van een nieuwe onderwijsmethode de lesmaterialen en de nieuwe methode krijgen toegespeeld van hun collega’s in de experimentele groep.

9.5.9 Compenserende rivaliteit

De vraag of er sprake is van ‘compenserende rivaliteit’ hangt af van hoe goed de deelnemers in de verschillende groepen op de hoogte zijn van de manipulaties die in de experimentele groepen worden aangebracht en wat deze manipulaties inhouden. De manier waarop de manipulatie wordt geïnterpreteerd, kan leiden tot rivaliteit en concurrentie tussen de deelnemers in de verschillende groepen.

Als de deelnemers in de controlegroep bijvoorbeeld weten dat de verwachting is dat ze minder goed presteren dan de deelnemers in de experimentele groep, kan het zijn dat zij extra hard hun best gaan doen om de voorspellingen van de onderzoekers te weerleggen. Dit geldt vooral als er bijvoorbeeld banen of subsidies op het spel staan. Dit effect kan ook optreden wanneer er een nieuwe of andere onderwijsmethode of methode van hulpverlening wordt geïntroduceerd en er onderzoek wordt gedaan om de effectiviteit ervan aan te tonen.

Dit fenomeen staat bekend als het John Henry-effect, vernoemd naar de Afrikaans-Amerikaanse staalwerker John Henry. Hij werd in 1870 gevraagd om de competitie aan te gaan met een stoomhamer om te zien welke van de twee sneller en beter zou werken. John Henry was in deze situatie de controle: zijn werk werd gebruikt als referentiemeting om het werk van de nieuwe stoommachine mee te vergelijken. Toen John Henry hoorde dat zijn werk zou worden vergeleken met dat van de stoomhamer, besloot hij de directe competitie aan te gaan in de hoop beter te presteren dan de stoomhamer. Volgens de verhalen zou deze poging om de machine te verslaan uiteindelijk fataal zijn geworden voor John Henry.

9.5.10 Interactie tussen bedreigingen

De hier beschreven bedreigingen voor de interne validiteit van een experiment kunnen ook in combinatie optreden. We spreken in dat geval van interactie, bijvoorbeeld tussen rijping en selectie bias. Als er sprake is van interactie tussen bedreigingen, kan dit een versterkend effect hebben op het verminderen van de interne validiteit.