Hoofdstuk 6 Experimentele designs

In dit hoofdstuk wordt besproken:
  • experimentele designs
  • zuiver versus quasi-experiment
  • beween en within designs
  • ethiek van experimenten.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum experimenteel onderzoek (PB0422)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Causaliteit
  • Experimentele methode

6.1 Inleiding

Menselijk gedrag is lastig te bestuderen omdat een oneindigheid aan factoren op de voor- en achtergrond debet zijn aan het vertoonde gedrag. Het helpt ook niet echt dat mensen van nature geneigd zijn om patronen te zien waar in werkelijkheid geen patronen zijn.

Het grootste deel van psychologisch onderzoek richt zich op de vraag “waarom” bepaald gedrag voorkomt. Onderzoekers hebben theorieën over de onderliggende mechanismen die het gedrag veroorzaken. Een voorbeeld van zo’n theorie is dat interesse in een studietaak alleen kan ontstaan wanneer studenten zichzelf competent genoeg achten om de taak succesvol af te ronden.

Om dit te onderzoeken, kunnen we het gedrag observeren en de omstandigheden waarin het plaatsvindt. Het probleem met observaties is echter dat we wel kunnen zien dat B volgt op A (bijvoorbeeld interesse in een studietaak na competentiebeleving), maar dat we niet zonder meer kunnen concluderen dat A de oorzaak was van B. De enige manier om een oorzakelijk verband (causaliteit) vast te stellen, is door een experiment uit te voeren. Experimenten worden over het algemeen gebruikt om ons te laten zien hoe verschillende observaties en uitkomsten met elkaar samenhangen. Het doel van experimenten is dus om causale relaties empirisch te observeren en te evalueren.

Experimenten zijn geschikt om causale claims te onderzoeken omdat de onderzoeker strenge controle heeft over de variabelen die worden onderzocht. In een ideaal geval wordt alleen de onafhankelijke variabele (de veronderstelde oorzaak) veranderd of gemanipuleerd, terwijl alle andere mogelijke invloeden constant worden gehouden (“ceteris paribus”: alle overige omstandigheden gelijkblijvend). Als dit lukt, kunnen we concluderen dat een waargenomen verandering in de afhankelijke variabele wordt veroorzaakt door de verandering in de onafhankelijke variabele, en kan causaliteit worden vastgesteld.

Wanneer we spreken over “manipulaties” in experimenten, heeft deze term een iets andere betekenis dan in het dagelijks leven. Het experimenteel manipuleren van een variabele betekent dat deze opzettelijk wordt veranderd. Bij placebostudies met medicijnen is bijvoorbeeld de manipulatie het toedienen van een pil met of zonder werkzame stof. In psychologisch onderzoek bestaat de manipulatie vaak uit het aanbieden van een interventie.

6.1.1 Controlegroepen

Een experiment wordt versterkt door het toevoegen van een controleconditie. Een controleconditie is een (experimentele) conditie waarin de manipulatie niet wordt toegepast, en die dient als referentiepunt voor vergelijking met de conditie waarin de manipulatie wel wordt toegepast. De term “controlegroep” wordt ook vaak gebruikt in plaats van controleconditie. Onderzoekers die willen onderzoeken of een dag op een stormbaan werknemers tot een hechter team maakt, kunnen niet volstaan met het willekeurig plaatsen van een groep mensen op de stormbaan en vervolgens observeren hoe die groep zich ontwikkelt als team. Zelfs als de stormbaan effectief lijkt te zijn, kunnen we ons afvragen of het gevoel van teamspirit ook spontaan zou zijn toegenomen als we de medewerkers met rust hadden gelaten en de samenwerking natuurlijk hadden laten verlopen. Zonder een vergelijkbare situatie kan deze vraag niet beantwoord worden.

Wanneer een nieuwe psychologische behandeling wordt gepresenteerd, willen we weten of de behandeling daadwerkelijk effect heeft. Werkt het beter dan helemaal niets doen? En vooral, werkt de nieuwe behandeling beter dan een al bestaande en veelgebruikte methode? Een controleconditie betekent dus niet per se “niets doen”; een controle vertegenwoordigt een neutrale situatie in brede zin. Het is een situatie zoals deze zou zijn als er geen experimentele manipulatie zou plaatsvinden.

6.1.2 Mill’s methode

Het idee van een ‘controlegroep’ is bekend geworden door de filosoof John Stuart Mill en het concept staat ook wel bekend als de “methode van Mill”. Het concept van de controlegroep leidt tot een logisch gefundeerd bewijs, waarbij het niet alleen draait om het aantonen van een effect, maar ook om het weerleggen van het tegenovergestelde. Het is niet voldoende dat een experiment aantoont dat wanneer mensen gaan stormbaanrennen, er meer teamgevoel ontstaat, maar het experiment moet ook kunnen aantonen dat wanneer mensen niet gaan stormbaanrennen, er geen toename van teamgevoel is. Mill heeft deze eisen samengevat in de taal van de logica en stelde dat experimenten twee vormen van bewijs moeten leveren.

De eerste vorm van bewijs, de “methode van overeenkomst”, stelt dat een experiment allereerst moet aantonen dat als X zich voordoet, Y zich ook voordoet. Dit betekent dat als er ten minste twee situaties zijn waarin Y zich voordoet, en X is aanwezig in elk van die gevallen, dan is X een voldoende (sufficient) voorwaarde voor Y. Met andere woorden, X is voldoende om het effect in Y te veroorzaken.

Als tweede vorm van bewijs stelde Mill dat met behulp van de “methode van verschil” moet worden vastgesteld dat als X zich niet voordoet (-X), Y zich ook niet voordoet (-Y). Dit betekent dat als het vermoede effect Y afwezig is wanneer X ook afwezig is, dan is X een noodzakelijke (necessary) voorwaarde voor Y. Met andere woorden, X is onmisbaar voor het effect in Y. Om de causaliteit van bepaalde vragen te beantwoorden, is het soms noodzakelijk om een controlegroep toe te voegen aan het experiment waarin geen manipulatie plaatsvindt (-X). Hier is een schematische weergave van een eenvoudig voorbeeld van de methode van Mill:

Tabel 6.1: Schema Mill’s methode.
Experimentelegroep Controlegroep
Als X, dan Y Als -X, dan -Y

Waar in de rechtspraak een verdachte onschuldig is totdat het tegendeel is bewezen, is dat niet het uitgangspunt van wetenschappelijk experimenteel onderzoek. De methode van Mill waarborgt dat onderzoekers niet alleen bewijs verzamelen vóór een bepaalde theorie of hypothese, maar ook het tegenovergestelde toetsen. Een goede onderzoeker test zowel de claim dat iets waar is als de claim dat het niet waar is.

6.1.3 Invulling van de controlegroep/-conditie

Het is essentieel om de samenstelling van de controlegroep zorgvuldig te kiezen. Een goede controlegroep betekent niet altijd een groep waarin er ‘niets’ gebeurt. In het eerder genoemde voorbeeld van de stormbaan is de controleconditie bijvoorbeeld ‘business as usual’, waarbij de samenwerking tussen werknemers zijn natuurlijke gang gaat. Men zou er ook voor kunnen kiezen om de stormbaaninterventie te vergelijken met een groep waarin de gemeenschappelijke ruimtes op kantoor worden afgesloten en niemand meer mag samenwerken. Deze vergelijking levert echter niet veel informatie op. Het experiment zou dan alleen iets zeggen over ‘een uitje naar de stormbaan’ versus ‘helemaal niet samenwerken’, terwijl je juist het effect van het uitje naar de stormbaan wilt vergelijken met de bestaande situatie.

Vanwege ethische of praktische redenen is het niet altijd mogelijk om een controlegroep aan het experiment toe te voegen. Onderzoekers kunnen bijvoorbeeld geen experimenteel geneesmiddel toedienen aan een groep terminaal zieke patiënten en de andere groep in de controlegroep aan hun lot overlaten. In dergelijke gevallen wordt soms gebruik gemaakt van patiënten die op de wachtlijst staan als controlegroep, maar uiteraard kan een behandeling uiteindelijk niet worden onthouden aan deze mensen. Voor elk onderzoek is een unieke oplossing nodig die een balans vindt tussen ethiek en wetenschappelijke vooruitgang.

6.2 Typen experimentele ontwerpen

Experimenten bestaan in verschillende vormen en maten, en er is geen universeel model dat voor alles geschikt is. Het belangrijkste doel van een experiment is het testen van een hypothese en het beantwoorden van een onderzoeksvraag. Elke onderzoeksvraag brengt unieke uitdagingen met zich mee, waarvoor een experimenteel ontwerp specifiek moet worden aangepast. Een veelvoorkomende uitdaging in de psychologie is het feit dat mensen van elkaar verschillen, los van de manipulaties die de onderzoeker toepast. Dit leidt tot een signaal dat verstoord wordt door ruis, waarin de onderzoeker patronen moet proberen te ontdekken.

In de komende paragrafen worden verschillende categorieën van experimentele ontwerpen behandeld die op een of andere manier een oplossing bieden voor de ruis die wordt veroorzaakt door individuele verschillen, zonder daarbij het testen van causale relaties uit het oog te verliezen.

Over het algemeen zijn er twee hoofdcategorieën van experimenten: volledig gerandomiseerde experimenten en quasi-experimenten. Deze indeling is echter grof en kan het beste worden gezien als twee uitersten van wat als een echt experiment kan worden beschouwd. Deze twee categorieën kunnen vervolgens worden onderverdeeld in twee soorten ontwerpen: tussen-proefpersoonsontwerpen en binnen-proefpersoonsontwerpen. Deze termen worden meestal aangeduid met hun Engelse equivalenten: between-subjects designs en within-subjects designs. In de volgende paragrafen worden deze indelingen nader toegelicht.

6.3 Volledig gerandomiseerd ontwerp versus quasi-experiment

Het verschil tussen een volledig gerandomiseerd ontwerp (completely randomised design) en een quasi-experiment is eigenlijk vrij eenvoudig. Een volledig gerandomiseerd ontwerp wordt ook wel een zuiver experiment genoemd. In een volledig gerandomiseerd ontwerp wordt randomisatie gebruikt om deelnemers willekeurig toe te wijzen aan experimentele condities of manipulaties. Bij quasi-experimentele ontwerpen gebeurt dit niet. Hoewel dit verschil op papier duidelijk lijkt, kan het in de praktijk soms minder helder zijn.

6.3.1 Randomisatie

Het is essentieel dat randomisatie ervoor zorgt dat elke waarnemingseenheid (meestal een proefpersoon) in het experiment een gelijke kans heeft om in een van de experimentele condities terecht te komen. Stel dat een onderzoeker wil onderzoeken of meer studie-uren leiden tot betere cijfers en daarvoor alleen proefpersonen uit zijn eigen familie selecteert, dan kan de steekproefkeuze ongelukkig zijn. Echter, als deze proefpersonen vervolgens willekeurig aan condities worden toegewezen, blijft het nog steeds een gerandomiseerd ontwerp. Wat van belang is, is niet hoe proefpersonen in de steekproef terechtkomen, maar hoe ze worden toegewezen aan hun experimentele conditie.

Randomisatie garandeert niet dat alle verstorende factoren gelijk verdeeld worden over alle condities. Maar zolang er voldoende proefpersonen zijn, zal hun willekeurige toewijzing aan de condities de invloed van proefpersoonkenmerken die causale inferentie zouden kunnen verstoren, verspreiden over alle condities.

6.3.2 Quasi-experiment

In een quasi-experimenteel onderzoek worden bestaande groepen geobserveerd en gemanipuleerd. Proefpersonen worden niet willekeurig toegewezen aan groepen. Een voorbeeld van een quasi-experiment is wanneer een onderzoeker het effect van een onderwijsvernieuwing wil onderzoeken op een school waarin de vernieuwing wordt geïmplementeerd. Deze school wordt vergeleken met een vergelijkbare school op vrijwel alle aspecten (aantal leerlingen, pedagogische visie), maar waar de onderwijsvernieuwing niet plaatsvindt. Wat dit een quasi-experiment maakt, is dat leerlingen niet willekeurig worden toegewezen aan de twee condities (wel/geen onderwijsvernieuwing). In dit geval vindt toewijzing op schoolniveau plaats, en het is niet willekeurig dat een leerling op een specifieke school zit. Het is mogelijk dat structurele redenen ervoor zorgen dat leerlingen op de ene school zitten en niet op de andere.

Quasi-experimenteel onderzoek is iets zwakker in het aantonen van causale relaties dan volledig gerandomiseerde ontwerpen. Bij volledig gerandomiseerde ontwerpen zorgt randomisatie ervoor dat verschillen in proefpersoonkenmerken onder controle worden gehouden, die mogelijk invloed kunnen hebben op het effect van de manipulatie op de afhankelijke variabele. Het ontbreken van deze controle bij quasi-experimenten betekent niet dat er iets fout is gegaan, maar het betekent wel dat de onderzoeker niet de informatie heeft om een uitspraak te doen over causaliteit. In quasi-experimenten is het mogelijk om de toewijzing aan condities zoveel mogelijk gelijk te houden op basis van proefpersoonkenmerken (matching) of om achtergrondinformatie over proefpersonen te verzamelen, zodat een goed beeld kan worden gevormd van eventuele relevante structurele verschillen tussen deelnemers (blokdesigns en statistische controle).

De essentie van een quasi-experimenteel ontwerp is dus dat er geen randomisatie plaatsvindt om condities aan proefpersonen toe te wijzen. Echter, het uitvoeren van een quasi-experimentele studie is niet slechts een compromis. Ondanks de mogelijke vertekening in de verdeling van achtergrondkenmerken over de condities, biedt het vaak wel de mogelijkheid om onderzoek uit te voeren in een natuurlijke omgeving. Hierdoor kan het onderzoek waarschijnlijk meer zeggen over de alledaagse praktijk, oftewel de ecologische validiteit neemt toe.

Daarentegen is een situatie waarin volledige randomisatie mogelijk is meestal onnatuurlijk. Het verlies van een gelijke verdeling van achtergrondkenmerken van proefpersonen in een quasi-experiment kan soms worden gecompenseerd door een toename van ecologische validiteit.

6.3.3 Gedeeltelijk randomiseren

Volledige randomisatie en helemaal geen randomisatie zijn natuurlijk de twee extreme einden van een continuüm. Ertussen ligt ‘cluster randomisatie’, waarbij er gebruik wordt gemaakt van bestaande clusters van deelnemers (bijvoorbeeld schoolklassen). Deze clusters worden vervolgens random verdeeld over de condities. De verdeling is niet volledig random omdat het niet willekeurig is dat bv. een bepaalde leerling in een bepaalde klas zit. Elke deelnemer heeft dus niet een even grote kans om in elke conditie terecht te komen en deelnemers binnen de groepen lijken waarschijnlijk meer op elkaar dan deelnemers tussen de groepen. Echter is de indeling op cluster-niveau wel willekeurig. Deze tussenweg heeft als voordeel dat het gebruik maakt van natuurlijke groepen. De nadeel is echter wel dat niet perfecte randomisatie plaatsvindt waardoor de invloed van storende variabelen niet volledig kan worden uitgesloten.

6.3.3.1 Experimentele controle

Experimentele controle verwijst naar de maatregelen die genomen worden om de invloed van storende variabelen te beheersen. Een variabele kan als storend worden beschouwd als deze het effect van de manipulatie op de afhankelijke variabele kan beïnvloeden. Bijvoorbeeld, leeftijd kan een storende variabele zijn als oudere mensen mogelijk anders reageren op een manipulatie dan jongere mensen. Om met deze situatie om te gaan, kan een onderzoeker ervoor kiezen om de verdeling van achtergrondkenmerken over de verschillende condities niet aan toeval over te laten.

Laten we als voorbeeld een onderzoek nemen naar het effect van vroegtijdige interventie bij dementie, waarbij de onderzoeker vermoedt dat de leeftijd van de patiënt invloed heeft op de kans op succes. In dit geval kan de onderzoeker tijdens het ontwerp van het experiment beslissen om de verdeling van de leeftijd van de proefpersonen zorgvuldig in de gaten te houden. Bijvoorbeeld, ze kan ervoor zorgen dat er evenveel proefpersonen uit alle leeftijdsgroepen deelnemen aan het onderzoek. Als de onderzoeker vervolgens wil testen of leeftijd daadwerkelijk een rol speelt, kan leeftijd als variabele worden toegevoegd aan het experimentele ontwerp.

Door dergelijke maatregelen van experimentele controle toe te passen, kan de onderzoeker proberen de invloed van storende variabelen te minimaliseren en zo een beter begrip te krijgen van de specifieke effecten van de manipulatie op de afhankelijke variabele.

6.3.4 Het blokontwerp

Een gerandomiseerd blokontwerp is een experimenteel ontwerp waarbij zowel randomisatie over experimentele condities als experimentele controle worden toegepast. In het geval van een quasi-experiment met experimentele controle wordt dit vaak kortweg een blokontwerp genoemd.

Bij een blokontwerp worden proefpersonen voorafgaand aan het eigenlijke experiment ingedeeld in homogene categorieën op basis van bepaalde kenmerken, zoals geslacht of leeftijdsgroepen. Een onderzoeker die bijvoorbeeld een nieuw medicijn wil testen, kan twee experimentele condities hebben (medicijn versus placebo) en drie leeftijdsgroepen die worden meegenomen in de analyse (jong, middelbaar en senior). De combinatie van deze 2 x 3 ‘condities’ resulteert in zes groepen die met elkaar worden vergeleken. Onderzoekers bepalen de vorming van deze blokken op basis van de variabelen waarvan zij veronderstellen dat deze het verband beïnvloeden tussen de behandeling en het effect.

Bij het toewijzen van proefpersonen aan de experimentele condities speelt de groepsvariabele (bijvoorbeeld leeftijd) een rol, zodat de experimentele en controlegroep volledig gelijk zijn op de kenmerken die de basis vormden voor de indeling in blokken (bijvoorbeeld leeftijd). Doordat de selectie van proefpersonen uit de blokken en de toewijzing aan de experimentele of controleconditie op toevalsbasis plaatsvindt, kunnen we ervan uitgaan dat de experimentele en controlegroep ook gelijk zijn op andere kenmerken die niet worden gemeten in het onderzoek. Hierdoor worden het verstorende effect van leeftijd uitgeschakeld en wordt de invloed van eventuele andere, onbekende, storende variabelen geminimaliseerd door randomisatie. Het gerandomiseerd blokontwerp combineert dus de voordelen van randomisatie en precieze experimentele controle door mensen met vergelijkbare kenmerken te matchen en in groepen bij elkaar te plaatsen. Deze methode van het toewijzen van proefpersonen wordt soms ook wel “groepsgewijs matchen” genoemd.

6.3.5 Matchen en homogeniseren

Het is niet altijd wenselijk om extra variabelen op te nemen in het onderzoeksdesign. Elke extra variabele vereist namelijk extra proefpersonen om ervoor te zorgen dat elk blok voldoende deelnemers heeft. Bovendien kan het gebeuren dat er te veel bekende storende factoren zijn, waardoor het aantal benodigde blokken te groot zou worden als je al deze factoren zou willen controleren. Randomisatie kan helpen bij het onder controle houden van verschillende externe factoren die effect kunnen hebben op de afhankelijke variabele, naast of in plaats van de gemanipuleerde variabele, maar effectieve randomisatie vereist eigenlijk ook dat veel proefpersonen nodig zijn, vooral als de onderzoeker weet dat veel variabelen echt in overweging moeten worden genomen.

Naast randomisatie en groepsgewijs matchen in blokdesigns, zijn er ook andere oplossingen mogelijk binnen experimentele condities zonder extra variabelen toe te voegen en die soms kunnen helpen om minder deelnemers te hoeven werven. Het matchen en homogeniseren van deelnemers zijn bijvoorbeeld populaire alternatieve toewijzingsprocedures.

6.3.5.1 Matchen

Matchen is een methode om ervoor te zorgen dat de experimentele en controlegroep gelijk zijn op externe bekende kenmerken die naar verwachting een belangrijke invloed hebben op de afhankelijke variabele. Er zijn twee benaderingen om dit te doen zonder extra variabelen toe te voegen: precisiecontrole en globale controle.

Bij precisiecontrole probeert men voor elke proefpersoon in de experimentele groep een bijpassende proefpersoon in de controlegroep te vinden die vergelijkbare kenmerken heeft. Deze paren van proefpersonen worden gematcht. Hoewel het ideaal zou zijn om een exacte kloon van elke proefpersoon in elke conditie te hebben, is dit praktisch niet haalbaar. Dus door te matchen op belangrijke achtergrondkenmerken, proberen we zo dicht mogelijk bij dat ideaal te komen. Bijvoorbeeld, een paar proefpersonen die beide vrouw zijn, een gemiddeld inkomen hebben, in de randstad wonen, een wetenschappelijke opleiding hebben gevolgd, enzovoort. Vervolgens wordt willekeurig bepaald welke proefpersoon van elk paar in de experimentele groep wordt geplaatst en welke in de controlegroep. Het matchen op een groot aantal variabelen vereist echter een grote steekproef om geschikte paren te kunnen vinden.

De tweede methode is globale controle, waarbij gestreefd wordt naar gelijke frequenties van belangrijke kenmerken in zowel de experimentele als de controlegroep. Dit is een meer algemene vorm van matchen. Bij globale controle wordt geprobeerd om de kenmerken van individuen gelijkmatig te verdelen over de condities, zonder noodzakelijk exacte overeenkomsten tussen individuen te bereiken. Bijvoorbeeld, zowel in de experimentele als controlegroep zijn er evenveel mannen als vrouwen, evenveel laagopgeleiden als hoogopgeleiden, en evenveel jongeren als ouderen. Omdat de condities alleen over individuele kenmerken gelijk zijn en niet in combinatie, is globale controle een minder precieze vorm van matchen dan precisiecontrole.

6.3.5.2 Homogeniseren

Designs waarin gematcht wordt, bieden de mogelijkheid om data te verzamelen van proefpersonen met diverse kenmerken. Een meer diverse steekproef kan leiden tot een breder en representatiever beeld van de doelpopulatie. Echter, deze diversiteit kan ook extra ruis met zich meebrengen, waardoor het moeilijker wordt om subtiele effecten te detecteren. Het is belangrijk op te merken dat de diverse kenmerken van proefpersonen zelf ook onbedoelde verstorende variabelen kunnen zijn. Hoewel de steekproef mogelijk beter generaliseerbaar is naar de algemene bevolking, kan het lastiger zijn om statistische patronen te identificeren.

Om het effect van een externe variabele op een afhankelijke variabele te isoleren, kan men ervoor kiezen om proefpersonen te homogeniseren. Dit betekent dat proefpersonen zo worden geselecteerd dat de groepen zo homogeen mogelijk zijn wat betreft de externe variabele. Bijvoorbeeld, als er vermoedens zijn dat leeftijd een verstorende variabele is bij het beoordelen van de effecten van de manipulatie, kan het experiment beperkt worden tot alleen jongeren of alleen ouderen. Door proefpersonen te selecteren die op relevante variabelen op elkaar lijken, wordt de variatie verminderd en neemt de ruis af. Dit resulteert in een hogere statistische power (de kans om een werkelijk effect in de populatie te detecteren). Echter, deze winst in power gaat ten koste van de externe validiteit, omdat de steekproef minder representatief is voor de algemene populatie.

Bij het homogeniseren en matchen is het belangrijk om te focussen op externe kenmerken waarvan bekend is, of op zijn minst vermoed wordt, dat ze invloed hebben op de afhankelijke variabele. Deze procedures kunnen niet op zichzelf gebruikt worden als vervanging voor randomisatie, maar kunnen wel in combinatie daarmee worden toegepast, indien mogelijk. In zuiver experimenteel onderzoek is randomisatie essentieel, terwijl andere procedures als aanvulling daarop kunnen dienen.

6.4 Between-subjects versus within-subjects designs

Naast de indeling in gerandomiseerde en quasi-experimenten kunnen experimentele designs ook worden ingedeeld in between subjects en within subjects designs.

In een between subjects design worden proefpersonen toegewezen aan slechts één experimentele conditie, wat resulteert in verschillende groepen proefpersonen die met elkaar kunnen worden vergeleken. Bijvoorbeeld, in een medisch onderzoek kunnen proefpersonen worden verdeeld in een behandeling groep waarin een nieuw medicijn wordt toegediend, en een controlegroep waarin een placebo wordt toegediend (een nep-medicijn zonder farmacologisch effect).

Bij within subjects designs worden alle proefpersonen blootgesteld aan alle experimentele en controlecondities. Bijvoorbeeld, in een sociaalpsychologisch onderzoek wil de onderzoeker weten of mensen meer lachen tijdens het eten van pizza of hutspot. De proefpersonen krijgen eerst gezamenlijk pizza te eten en het aantal keer dat ze lachen wordt geteld. Vervolgens krijgen dezelfde proefpersonen hutspot voorgeschoteld en wordt opnieuw het aantal keer dat ze lachen geteld. Binnen within subjects designs worden de reacties van proefpersonen gemeten na elke manipulatie, vandaar dat ze ook wel repeated measures designs worden genoemd. Een potentieel probleem bij within subjects designs is het optreden van volgorde-effecten, waarbij bijvoorbeeld de reacties worden beïnvloed door de volgorde waarin de condities worden aangeboden. Om dit te voorkomen, kan in sommige gevallen de volgorde van de condities worden gevarieerd. Deze vorm van controle wordt counterbalancing genoemd.

Daarnaast is het ook mogelijk om een mix van between en within subjects designs te gebruiken, zoals bij klinisch onderzoek waarbij de voortgang van twee groepen patiënten op drie verschillende tijdstippen wordt gemeten. Deze designs worden mixed designs genoemd.

6.5 Voorbeelden van experimentele designs

Er zijn talloze experimentele designs mogelijk, maar de essentie die al deze designs verbindt is dat het een fijngeslepen meetinstrument is om zo veel mogelijk verstorende factoren uit te sluiten. Uiteindelijk is het doel van een experiment om causaliteit te kunnen vaststellen volgens de Mills-methode. Van onderzoek tot onderzoek kan verschillen welke gevaren er daarbij op de loer liggen.

In de volgende paragrafen zullen we de meest iconische experimentele designs bespreken en wat hun krachten en valkuilen zijn in termen van validiteitsbedreiging. Zie ook het hoofdstuk Validiteit bij experimenten.

6.5.1 Symbolische notatie van experimentele designs

Campell en Stanley (1963) hebben een lijst opgesteld van experimentele designs om ervaren onderzoekers te helpen om validiteitsbedreigers te voorkomen bij het kiezen van een ontwerp. Hiervoor hebben ze een symbolische notatie ontwikkeld om experimenten samen te vatten. Meestal worden de volgende symbolen gebruikt:

O = observation: een waarneming of meting van de afhankelijke variabele.

X = het ondergaan van de experimentele stimulus (treatment).

R = er is sprake van randomisatie.

NR = er is geen sprake van randomisatie.

Een eenvoudig experiment kan bijvoorbeeld worden weergegeven als in Tabel 6.2.

Tabel 6.2: Schema van een eenvoudig experiment.
t1 t2
O1 X O2

In dit design wordt op tijdstip 1 (t1) de afhankelijke variabele gemeten: de voormeting. Vervolgens wordt de experimentele treatment ondergaan. Daarna wordt op tijdstip t2 de afhankelijke variabele opnieuw gemeten: de nameting. In dit design ontbreekt de letter R (randomisatie) voorafgaand aan t1, wat in deze context niet nodig zou zijn, omdat er geen verschillende condities zijn om proefpersonen aan toe te wijzen. Bij meer dan één experimentele groep zou de aan- of afwezigheid van R duidelijk maken of het een zuiver experiment betreft.

In de volgende paragrafen zal worden ingegaan op verschillende typen van experimentele designs: pre-experimentele designs, zuiver experimentele designs, en quasi-experimentele designs. Voor de eenvoud wordt er in de besproken designs uitgegaan van situaties met steeds een enkele manipulatie-conditie (ook wel ‘treatment’ genoemd), zoals medicijn-placebostudies. Vrijwel alle besproken designs zijn uit te breiden naar situaties met meer experimentele condities en een controlegroep, zoals het vergelijken van drie toegediende medicijnen met een placebo.

Die hier genoemde voorbeelden zijn slechts een kleine selectie van alle mogelijke designs. Het belangrijkste om in het achterhoofd te houden bij het opzetten of evalueren van een experimenteel ontwerp is wat nu precies onder controle gehouden moet worden om een hypothese voldoende te kunnen toetsen. Om de voor- en nadelen van de designs goed te begrijpen worden hierna ook de validiteitsbedreigers bij experimenten besproken.

6.5.2 Pre-experimentele designs

Campbell en Stanley beschrijven in hun lijst van onderzoekdesigns twee typen experimenten waarvan het vermogen om validiteitsbedreigers onder controle te houden zo belabberd is, dat ze spreken van pre-experimentele designs. Het eerste voorbeeld hiervan is de one-shot case study.

6.5.2.1 One shot case study

In de one-shot case study wordt eerst een manipulatie (treatment) uitgevoerd en vervolgens geobserveerd wat het effect is op de proefpersonen (zie Tabel 6.3).

Tabel 6.3: Schema van een one shot study.
t1
X O1

Bijvoorbeeld: onderzoekers geven studenten een concentratietraining (X) en meten vervolgens hun prestatie op een studietaak (O1). Dit design maakt het onmogelijk om de uitkomsten te vergelijken met studenten die de concentratietraining niet zouden krijgen, en de onderzoekers weten niets over het prestatieniveau voorafgaand aan de concentratietraining.

6.5.2.2 One-group pre-post design

Een kleine verbetering op de one-shot case study is een pre-experimenteel design waar de proefpersonen in ieder geval voor en na de manipulatie worden geobserveerd (zie Tabel 6.4) Dit is het one-group pre-post design.

Tabel 6.4: Schema van een one-group pre-post design.
t1 t2
O1 X O2

We spreken nog steeds van een pre-experimenteel design vanwege de afwezigheid van een vergelijkingsconditie (-X), waardoor het niet voldoet aan Mills ‘method of difference’. Dit design is verwant aan zogenaamde single case designs (zie het hoofdstuk Single-case designs). Daarin wordt één of worden slechts enkele proefpersonen onderzocht, maar wordt wel meermaals gemeten, zowel vooraf als na (of tijdens) de manipulatie. Er zijn dus meerdere O’s in een dergelijk design.

6.5.2.3 Pre-experimenteeel bestaande groepen nameting only

Een laatste type pre-experimenteel design is te zien in Tabel 6.5: het posttest only design met bestaande groepen.

Tabel 6.5: Schema van een posttest only design.
t1 t2
NR X O1
NR O2

Dit is een pre-experimenteel ontwerp omdat door het niet-random toewijzen aan condities in combinatie met afwezigheid van een voormeting het vrijwel onmogelijk is om de observaties tussen de groepen goed te vergelijken. Met randomisatie zou dit experiment hard kunnen maken dat eventuele a-priori verschillen gladgestreken zijn tussen de groepen, waardoor verschillen op de nameting wel zinvol geïnterpreteerd kunnen worden. Door het gebruik van bestaande groepen is het echter uiterst onwaarschijnlijk dat beide condities goed vergelijkbaar zijn, waardoor dit design pre-experimenteel is.

6.5.3 Gerandomiseerde experimenten

6.5.3.1 Posttest-only control (alleen nameting met controlegroep)

Het posttest-only control design is het eenvoudigste gerandomiseerde experimentele ontwerp (zie Tabel 6.6).

Tabel 6.6: Schema van een posttest only control design.
t1 t2
R X O1
R O2

Door randomisatie mag er in veel gevallen van worden uitgegaan dat de groepen gelijk waren bij de start van het experiment, en dat waargenomen verschillen tussen de groepen na het experiment dus toe te wijzen zijn aan de experimentele treatment. Het klinkt misschien tegenintuïtief, maar het ontbreken van een voormeting in dit designtype is vaak juist een voordeel voor een experimenteel design. Een van de interne validiteitsbedreigers is namelijk het testeffect: de voormeting beïnvloedt dan observaties in de nameting. Het is bijvoorbeeld mogelijk dat door vragen tijdens de voormeting de proefpersonen al beginnen door te krijgen waar het onderzoek over gaat, en dat zij daardoor de eventuele treatment en nameting anders benaderen.

Toch heeft het ook nadelen om geen voormeting te doen. Zelfs als de randomisatie goed is geslaagd en groepen dus goed vergelijkbaar zijn, missen we nog steeds informatie over het startpunt. Twee belangrijke termen in deze context zijn plafond- en bodemeffecten. Het kan zijn dat er geen verschil tussen de twee condities is waar te nemen, omdat de test te gemakkelijk was voor deze proefpersonen. Er is dan sprake van een plafondeffect. Stel dat als uitkomstmaat de prestaties van middelbare scholieren worden gemeten op wiskundeopgaven, maar de opgaven blijken te eenvoudig. Dan zou een voormeting kunnen tonen dat de scholieren al voor de manipulatie vrijwel alles goed hadden en dat er dus geen mogelijkheid meer is om hoger te scoren op een tweede meting of in vergelijking met een andere groep. Bij een bodemeffect doet zich het omgekeerde voor: scores zitten dan niet tegen een plafond, maar zijn juist vrijwel allemaal zo laag dat er geen lagere score meer mogelijk is.

6.5.3.2 Pretest-posttest control design (voor- en nameting met controlegroep)

Dit design is een van de meest gebruikte designs in psychologisch en onderwijskundig onderzoek. Om deze reden wordt het ook wel het klassieke experimentele ontwerp genoemd (zie Tabel 6.7).

Tabel 6.7: Schema van een pretest-posttest control design.
t1 t2
R O1 X O2
R O3 O4

De proefpersonen worden willekeurig toegewezen aan de experimentele dan wel aan de controlegroep. Bij beide groepen is er sprake van een voor- en nameting. Daardoor is het tamelijk zeker dat eventuele verschillen tussen de groepen toe te schrijven zijn aan de experimentele treatment en niet aan een of meerdere storende factoren.

6.5.3.3 Solomon vier-groependesign

In Tabel 6.8 is het Solomon vier-groependesign te zien. Dit is eigenlijk een elegante combinatie van twee designs: posttest only en pretest-posttest control. Het beste van twee werelden dus.

Tabel 6.8: Schema van een Solomon vier-groepen design.
t1 t2
R O1 X O2
R X O3
R O4 O5
R O6

In dit design vindt bij de eerste groep een voormeting plaats, dan de manipualtie (treatment) en vervolgens een nameting. Bij de tweede groep vindt geen voormeting plaats, maar wel de treatment en nameting. Bij de derde groep vindt een voor- en nameting plaats, maar geen manipulatie. Bij de vierde groep vindt alleen de nameting plaats.

Dit design heeft vele voordelen. De voormetingen van groep 1 en 3 kunnen worden gebruikt om een schatting te maken van de niet-gemeten pre-treatment scores van groepen 2 en 4 (de groepen zonder voormeting). Als de voormetinggroepen op de voormeting goed vergelijkbaar blijken, dan is de randomisatie goed geslaagd, en is het waarschijnlijk dat de groepen zonder voormeting ook baat hebben gehad bij de randomisatie. We kunnen dan dus aannemen dat de schatting van hun pre-treatment scores betrouwbaar is.

Deze schattingen van de voormeting in de groepen zonder voormeting kunnen op hun beurt weer gebruikt worden om de nameting beter te evalueren. Als de randomisatie goed geslaagd is, kunnen de nametingen van de groepen die een voormeting hebben gehad, worden vergeleken met de nametingen van de groepen die geen voormeting hebben gehad. Op deze wijze kunnen testeffecten worden herkend of uitgesloten. De twee groepen zonder voormeting kunnen immers niet gecontamineerd zijn door de voormeting.

Een derde voordeel van dit design is dat het mogelijk is om een interactie tussen voormeting en manipulatie te toetsen. Dit komt omdat iedere groep unieke validiteitsbedreigers onder controle houdt. Groep 1 kan bedreigd worden door de voormeting, de treatment en voormetingsensitisatie (pretest-treatment interactie).

Voormetingsensitisatie is een bedreiging die wordt veroorzaakt door de voormeting. Het verwijst naar het fenomeen waarbij de voormeting zelf deelnemers bewust maakt van het onderwerp van de studie, waardoor ze mogelijk anders reageren op de treatment. Dit kan de resultaten vertekenen, omdat het moeilijk is om te bepalen of het effect het gevolg is van de treatment of simpelweg van de bewustwording door de voormeting.

Wat betreft de bedreiging door de treatment, hiermee wordt bedoeld dat de treatment mogelijk onbedoelde effecten of bijwerkingen kan hebben die de resultaten kunnen beïnvloeden. Hoewel het de bedoeling is dat de treatment een effect heeft op de onderzochte variabele, is het belangrijk om andere mogelijke effecten te controleren die niet direct relevant zijn voor de hypothese van het onderzoek. Deze externe effecten kunnen de interne validiteit van het onderzoek bedreigen, omdat ze de oorzaak-gevolgrelatie tussen de treatment en de uitkomst kunnen vertroebelen.

Groep 2 heeft een manipulatie, maar geen voormeting. Groep 2 kan daarom worden beïnvloed door de treatment en door factoren of variabelen die niet volledig gecontroleerd of gemeten zijn in het experiment. Deze factoren kunnen van invloed zijn op de resultaten en de interne validiteit van de studie kunnen beïnvloeden. Het ontbreken van een voormeting in groep 2 betekent dat er geen testeffect of pretest-treatment-interactie is.

Groep 3 heeft een voormeting, maar geen manipulatie. Dus groep 3 kan bedreigd worden door de voormeting en door externe factoren die buiten het experiment vallen. Deze factoren kunnen invloed hebben op de resultaten. Groep 3 wordt echter niet bedreigd wordt door treatment-effects of pretest-treatment-interactie.

Groep 4 heeft alleen een nameting, en kan daarom alleen worden beïnvloed door externe factoren die buiten het experiment vallen, omdat er geen voormeting of treatment plaatsvindt bij groep 4.

6.5.4 Quasi-experimentele proefopzetten

6.5.4.1 quasi-experimenteel pretest-posttest control design

In dit design (zie Tabel 6.9) worden twee bestaande groepen die niet random zijn toegewezen (NR) vergeleken. De eerste groep krijgt een voormeting, manipulatie en nameting. De tweede groep krijg een voormeting en een nameting, maar geen manipulatie.

Tabel 6.9: Schema van een quasi-experimenteel pretest-posttest control design.
t1 t2
NR O1 X O2
NR O3 O4

Een voorbeeld van zo’n experiment is wanneer onderzoekers twee zusterbedrijven vergelijken, waarbij in een bedrijf een nieuwe organisatiestructuur wordt toegepast, terwijl het tweede bedrijf nog op de oude wijze opereert. Door dit niet-random toewijzen van personen aan de condities blijven er structurele verschillen tussen de groepen aanwezig. De zusterbedrijven kunnen verschillen in geschiedenis, omvang, prestaties, of locatie en cultuur. Proefpersonen binnen elk bedrijf hebben dus meer met elkaar gemeen dan alleen het wel of niet ontvangen van de manipulatie.

6.5.5 Longitudinale designs

6.5.5.1 Enkelvoudige tijdreeks

Bij de enkelvoudige tijdreeks worden bij dezelfde proefpersonen op verschillende tijdstippen – zowel voor als na de experimentele manipulatie – metingen verricht (zie Tabel 6.10).

Tabel 6.10: Schema van een enkelvoudige tijdreeks.
t1 t2 t3 t4 t5 t6 t7 t8
O1 O2 O3 O4 X O5 O6 O7 O8

De enkelvoudige tijdreeks is een uitbreiding van het pre-experimentele one-group pre-post design. Het is ook sterk verwant aan het single case experimentele design. Dit type experiment leent zich goed voor dagboekexperimenten waarbij het effect van psychotherapie op een enkele patiënt over tijd wordt gevolgd. Dit design kan bijvoorbeeld ook gebruikt worden om het effect te meten van een verkeersmaatregel op het aantal ongelukken. In tegenstelling tot designs met slechts een enkele voor- en nameting, kan er een stabiel beeld gevormd worden van een situatie voor de treatment, en een langetermijneffect na de treatment. Deze series van metingen zijn minder gevoelig voor toevalstreffers of statistische regressie.

6.5.5.2 Meervoudige tijdreeks

In Tabel (zie Tabel 6.11) is een uitbreiding van de enkelvoudige tijdreeks te zien met een controlegroep. Dit wordt een meervoudige tijdreeks genoemd.

Tabel 6.11: Schema van een meervoudige tijdreeks.
t1 t2 t3 t4 t5 t6 t7 t8
R O1 O2 O3 O4 X O5 O6 O7 O8
R O9 O10 O11 O12 O13 O14 O15 O16

Dit design is in alle opzichten vergelijkbaar met de enkelvoudige tijdreeks, maar dan met alle voordelen van een controlegroep.

6.6 Manipulatiechecks

Bij het ontwerpen van een experiment worden er interventies of manipulaties toegepast om bepaalde experimentele condities te construeren. Het is belangrijk dat die manipulaties doen waarvoor ze beoogd zijn. Met andere woorden: ervaren de proefpersonen het verschil in de condities zoals bedoeld door de onderzoeker. Om dit te onderzoeken zijn er soms zogenaamde manipulatieschecks nodig.

6.6.1 Wat zijn manipulatiechecks?

Manipulatiechecks zijn bedoeld om de interne validiteit van een experiment te controleren. Hiermee controleren we of de manipulatie daadwerkelijk de beoogde onafhankelijke variabele in de verwachte richting heeft veranderd, ongeacht het effect op de afhankelijke variabele. Hoewel manipulatiechecks nooit nodig zouden moeten zijn, is het belangrijk om te laten zien dat de manipulatie doet wat het belooft, vooral bij het gebruik van nieuwe manipulaties. Zo kunnen we de validiteit van onze experimentele manipulaties evalueren en zorgen dat onze resultaten betrouwbaar zijn en correct geïnterpreteerd kunnen worden.

Bij experimenteel manipuleren moet de onderzoeker een gekunstelde situatie creëren en niets aan het toeval overlaten. We kunnen namelijk alleen causale claims toetsen in een gerandomiseerd experiment, en om zaken onder controle te houden, kunnen we niet afhankelijk zijn van spontane belevingen, gevoelens of meningen van proefpersonen. Hoewel het misschien ‘natuurlijker’ lijkt om mensen te vragen of ze verdrietig of blij zijn, hebben we geen controle over waarom ze die emotie hebben, hoe lang deze emotie duurt en hoe intens het is. In plaats daarvan nemen we controle door een situatie te creëren waarin we ‘weten’ dat er iets gebeurt, en we bepalen constant de aard en sterkte van deze gebeurtenis. Bijvoorbeeld, door mensen een zielig of grappig verhaal te laten lezen, hopen we een groep mensen te krijgen die om dezelfde reden en met dezelfde intensiteit een specifieke emotie ervaren. We noemen dit ‘inductie van emotie’ en we roepen dit kunstmatig op in het laboratorium. Hierdoor hopen we dat alle andere storende variabelen zich uitmiddelen over de proefpersonen, en dat de manipulatie een steriele situatie oplevert waarin mensen alleen van elkaar verschillen op datgene wat we manipuleren.

6.6.2 Waarom een manipulatiecheck?

In een ideaal scenario zouden we emotie niet meer hoeven te meten, waardoor we zonder aarzelen iemand die een zielig verhaal krijgt ‘verdrietig’ en mensen die een grappig verhaal krijgen zonder twijfel ‘blij’ zouden kunnen noemen. Echter, psychologische experimenten ontkomen niet aan het feit dat mensen chaotisch en onvoorspelbaar zijn. Daarom is het van essentieel belang om ons altijd af te vragen of onze manipulatie daadwerkelijk doet wat we beogen. Soms lijkt het alsof het onderzoek zich richt op de impact van verdrietige en grappige verhalen op het onthouden van informatie, maar in werkelijkheid gaat het vaak niet over de manipulatie zelf, zoals het type verhaal. De verhalen zijn slechts een middel om emoties te manipuleren, omdat het onderzoek eigenlijk draait om de invloed van positieve en negatieve emoties op iets.

Stel dat de focus van een onderzoek ligt op een nieuwe leermethode, en het doel is om te onderzoeken of deze methode beter werkt dan al bestaande leermethoden. Om dit te kunnen toetsen, is het cruciaal om in de inleiding uit te leggen waarom gedacht wordt dat de nieuwe methode effectiever zou moeten zijn, dus wat het ‘werkende bestandsdeel’ is waardoor de nieuwe leermethode zou moeten slagen. Bij het experiment moet de nieuwe methode nauwkeurig worden toegepast, zodat het ‘werkende bestandsdeel’ daadwerkelijk naar voren komt. Daarnaast moet er een situatie worden gecreëerd waarin het voldoende contrasteert met de controlegroep, waar het ‘werkende bestandsdeel’ zoveel mogelijk afwezig is. De manipulatie is dan pas geslaagd als in de experimentele groep overtuigend aangetoond kan worden dat het ‘werkende bestandsdeel’ (bijvoorbeeld meer onderlinge participatie) aanwezig was, terwijl het in de controlegroep relatief afwezig was. Het doel hier is niet om te beoordelen of de manipulatie een effect heeft gehad op de afhankelijke variabele van het onderzoek, maar puur om te onderzoeken of de manipulatie daadwerkelijk datgene heeft gemanipuleerd wat beoogd werd zodat eventuele relaties met de afhankelijke variabele ook correct aan de manipulatie worden toegeschreven.

Bij een experimentele manipulatie in een psychologisch onderzoek moet dus altijd de vraag gesteld worden: “wat moet de manipulatie nabootsen?” Welk construct wordt er in een psychologisch laboratorium nagebootst met de experimentele manipulatie? En nog belangrijker: “doet de manipulatie dit ook?” Bij het meten van een construct, bijvoorbeeld in een vragenlijst, voeren we verschillende betrouwbaarheids- en validiteitsanalyses uit om de kwaliteit van de meting te beoordelen. Op dezelfde manier is de manipulatiecheck een analyse om de validiteit van de manipulatie te beoordelen.

6.6.3 Toetsen van manipulaties

Manipulatiechecks worden gebruikt om de validiteit van experimentele manipulaties te beoordelen. Bij het ontwerpen van experimenten is het belangrijk om ervoor te zorgen dat de manipulatiechecks de constructen meten die door de manipulatie gemanipuleerd moesten worden. Dit voorkomt dat resultaten verkeerd worden geïnterpreteerd en tot onjuiste conclusies leiden. Als manipulatiecheck-variabelen in de gegevens aanwezig zijn, kunnen we met statistische methoden de ‘geslaagdheid’ van een manipulatie toetsen. Bij het kiezen van de juiste toets moeten we rekening houden met het meetniveau van de variabelen, net als bij iedere andere hypothesetoets.

De manipulatiechecks zijn variabelen die ter controle aan de experimentele metingen zijn toegevoegd. Het kiezen van de juiste toets hangt daarom af van het meetniveau van variabelen. Als er twee condities zijn (een nominale onafhankelijke variabele, met twee niveaus) en de manipulatiecheck is een variabele op intervalniveau of hoger (bijvoorbeeld hoe vrolijk iemand zich voelt op een schaal van 1 tot 100), dan is een t-toets geschikt bij meer condities een one-way ANOVA. Als er meer onafhankelijke variabelen zijn, zoals in 2 x 2 factoriële designs, dan kan een factoriele ANOVA meer geschikt zijn, mits de manipulatiecheck ook gaat over de succesvolle manipulatie van de combinatie van de factoren.

6.7 Ethiek bij experimenten

Bij het opzetten van experimenten kunnen ethische en juridische vragen een rol spelen. Mag een onderzoeker diens proefpersonen voorliegen over de aard van het onderzoek? Mag een onderzoeker zonder toestemming van de deelnemer informatie over die deelnemer verzamelen?

Onderzoekers hebben de morele verantwoordelijkheid om de deelnemers van hun onderzoek te beschermen. Er zijn veel valkuilen tijdens het uitvoeren van een onderzoek waardoor deelnemers direct of indirect schade kunnen ondervinden. Denk bijvoorbeeld aan het onzorgvuldig omgaan met de privacygevoelige medische gegevens. Maar ook subtielere elementen van een onderzoek kunnen een onethische belasting voor de proefpersonen opleveren. Zoals wanneer die om ideologische redenen medewerking aan een onderzoek verlenen, maar achteraf leren dat het onderzoek stiekem over een compleet ander onderwerp ging.

Een voorbeeld van het overschrijden van ethische regels is een experiment door Facebook. In 2014 werd bekend (zie het Engelse krantenartikel hier) dat social-mediagigant Facebook zonder medeweten van haar gebruikers experimenteerde met wat gebruikers van hun vrienden te zien kregen. Veel van die gebruikers voelden zich in hun privacy, maar ook hun in gevoel van waardigheid aangetast. Er was hun nooit om toestemming gevraagd, en ze waren zich er niet van bewust dat hun tijdlijn gemanipuleerd werd en dat er een gerichte selectie was gemaakt van berichten die ze te zien kregen.

Mag een onderzoeker zijn proefpersonen voorliegen over de aard van het onderzoek? Mag een onderzoeker zonder toestemming van de deelnemer informatie over die deelnemer verzamelen? Onderzoekers hebben de morele verantwoordelijkheid om de deelnemers van hun onderzoek te beschermen. Er zijn veel valkuilen tijdens het uitvoeren van een onderzoek waardoor deelnemers direct of indirect schade kunnen ondervinden. Dit hoeft niet altijd een direct trauma te zijn, zoals het scheiden van tweelingen vanaf de vroege jeugd, of het onzorgvuldig omgaan met de privacygevoelige medische gegevens. Ook subtiele elementen van een onderzoek kunnen een onethische belasting hebben opgeleverd, zoals proefpersonen die om ideologische redenen medewerking aan een onderzoek verlenen, maar achteraf leren dat het onderzoek stiekem over een compleet ander onderwerp ging.

Ethische richtlijnen bij het doen van onderzoek zijn opgesteld om psychologen te doen realiseren dat zij de plicht hebben om de rechten en waardigheid van de deelnemers aan hun onderzoek te respecteren en te bewaken. Sommige richtlijnen zijn vastgelegd in wetgeving, terwijl de meeste richtlijnen een groot grijs gebied kennen waar per situatie een oordeel zal moeten worden gevormd. In het geval van experimenteel onderzoek zijn er een aantal ethische kwesties die met name van belang zijn. De belangrijkste overkoepelende richtlijn is dat onderzoek zo moet zijn opgesteld dat het de proefpersoon zo min mogelijk belast, ook wel het principe van minimized harm genoemd. Het is soms erg lastig om de juiste ethische afweging te maken, en er zijn geen gouden regels om vast te stellen of de kosten van onderzoek in termen van belasting opwegen tegen de baten ervan. Om dit soort vragen te toetsen is het daarom vereist dat onderzoekers zo veel mogelijk hun onderzoek vooraf laten toetsen door een ethische commissie.

Het is niet mogelijk om alle ethische kwesties te bespreken, maar een aantal van de belangrijkste kwesties met betrekking tot psychologische experimenten vind je terug in paragraaf Ethische aspecten uit het hoofdstuk Wetenschappelijke integriteit.