Hoofdstuk 13 Steekproevenverdelingen en betrouwbaarheidsintervallen

In dit hoofdstuk wordt besproken:
  • steekproevenverdelingen
  • steekproevenverdeling van het gemiddelde
  • centrale limietstelling
  • standaard fout
  • betrouwbaarheidsintervallen.
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum inleiding onderzoek (PB0212)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Beschrijvingsmaten
  • Verdelingsvormen en -maten

13.1 Inleiding

Wetenschappers willen uitspraken doen over een bepaalde populatie. Omdat we niet de hele populatie kunnen meten, nemen we steekproeven. Steekproeven geven echter nooit een perfect beeld van de populatie. Zij zijn namelijk een willekeurig gekozen subset van de populatie. Hierbij speelt toeval een rol, meestal in de vorm van steekproeffout (het kiezen van deelnemers) en meetfout (het afnemen van metingen). Daarom lijkt de steekproef nooit precies op de populatie. Het gemiddelde in de steekproef kan dus nooit precies hetzelfde zijn als het ‘ware’ gemiddelde van de populatie. Om die reden zijn puntschattingen (zoals het gemiddelde uit de steekproef) niet informatief als je niet weet hoe groot de rol van toeval is.

Maar hoe kunnen we dan weten hoe accuraat het gemiddelde dat we in onze steekproef gevonden hebben het ‘ware’ gemiddelde uit de populatie weergeeft? Dit kan met behulp van betrouwbaarheidsintervallen. Het betrouwbaarheidsinterval (‘confidence interval’) geeft een indicatie van de accuraatheid van een maat uit een steekproef. Op basis hiervan kunnen we dus uitspraken doen over de populatie.

Om te kunnen begrijpen wat het betrouwbaarheidsinterval inhoudt en waar dit interval vandaan komt, is kennis van de statistische theorie nodig. Een aantal theoretische concepten zijn hierbij belangrijk, namelijk de steekproevenverdeling (‘sampling distribution’), de centrale limietstelling (‘central limit theorem’) en de standaardfout (‘standard error’). Wat deze concepten inhouden en hoe ze met elkaar samenhangen wordt hieronder toegelicht. Dit helpt om een essentiële vraag te kunnen beantwoorden: wat kan ik op basis van mijn steekproef over de populatie concluderen?

13.2 Steekproevenverdeling

De steekproevenverdeling, oftewel de sampling distribution, is de theoretische verdeling van een bepaalde maat (bijvoorbeeld het gemiddelde) die je krijgt als je een oneindig aantal steekproeven uit een populatie zou trekken.

Stel we trekken een steekproef uit een populatie. In dit voorbeeld zijn we geïnteresseerd in leeftijd. We trekken een steekproef van \(100\) personen uit de populatie van alle Nederlanders. Hieronder zie je in Figuur 13.1 een histogram en density plot van onze steekproef

Histogram van leeftijd uit een steekproef met in blauw de density plot en in groen de density plot als leeftijd normaal verdeeld zou zijn (‘normal curve’).

Figuur 13.1: Histogram van leeftijd uit een steekproef met in blauw de density plot en in groen de density plot als leeftijd normaal verdeeld zou zijn (‘normal curve’).

Van deze steekproef kunnen we het gemiddelde berekenen: \(M\) = \(35.58\).

Vervolgens trekken we niet één steekproef maar bijvoorbeeld twaalf steekproeven. Hieronder zie je in Figuur 13.2 weer de corresponderende histogrammen en density plots.

Histogrammen met density plots en normal curves van leeftijd uit twaalf steekproeven.

Figuur 13.2: Histogrammen met density plots en normal curves van leeftijd uit twaalf steekproeven.

Van elke steekproef die we trekken, kunnen we een gemiddelde berekenen. We krijgen dan meerdere gemiddelden, die steeds om het ‘ware’ gemiddelde van de populatie heen liggen.

35.58 41.08 41.37 41.08 42.05 34.68 40.77 38.09 35.77 41.91 40.93 38.86

De standaarddeviaties uit deze twaalf steekproeven zijn

21.1 21.86 23.88 22.67 22.54 23.56 24.04 21.94 23.57 22.56 22.38 23.02

Bovendien hebben we ook twaalf waarden voor, bijvoorbeeld, de spitsheid

-0.83 -0.97 -0.78 -1.1 -0.88 -0.95 -0.9 -1.12 -0.6 -0.88 -1.11 -0.78

Deze waarden liggen elke keer om de waarde uit de populatie heen. We hebben nu dus eigenlijk drie nieuwe datareeksen gecreëerd: een datareeks met gemiddelden, een datareeks met standaarddeviaties en een datareeks met spitsheidsmaten. En zoals bij elke datareeks hebben deze datareeksen ook weer gemiddelden en standaarddeviaties.

Het mooie is: als we nu steeds het gemiddelde van deze twaalf gemiddelden nemen, en het gemiddelde van deze twaalf standaarddeviaties en het gemiddelde van deze twaalf spitsheidsmaten, dan liggen dit ‘gemiddelde gemiddelde’, deze gemiddelde standaarddeviatie en deze gemiddelde spitsheid dichter bij de waarden in de populatie dan de schattingen uit een willekeurige enkele steekproef. Deze ‘algemene gemiddelden’ liggen op \(39.35\) voor de reeks van twaalf gemiddelden, op \(22.82\) voor de twaalf standaarddeviaties en op \(-0.94\) voor de twaalf spitsheidmaten.

Deze maten zijn dus al beter en meer indicatief voor het gemiddelde, de standaarddeviatie en de spitsheid in de populatie. Bovendien hebben we informatie over hoeveel beter: we hebben namelijk ook standaarddeviaties voor deze twaalf datareeksen. Standaarddeviaties zijn een maat voor spreiding. Ze geven aan hoe dicht de waarden in de datareeks om de centrummaten heen liggen. In dit geval geven de standaarddeviaties dus aan hoe dicht de twaalf gemiddelden in onze datareeks van gemiddelden in de buurt van het algemeen gemiddelde van die datareeks liggen. En, de standaarddeviatie van onze datareeks van twaalf standaarddeviaties geeft aan hoe dicht die twaalf standaarddeviaties in de buurt van ‘de algemeen gemiddelde standaarddeviatie’ liggen.

Stel nu dat het mogelijk zou zijn om een oneindig aantal steekproeven uit de populatie te trekken. Dan zouden we dus een oneindig aantal gemiddelden kunnen krijgen, dat wil zeggen alle mogelijke gemiddelden die er berekend kunnen worden gegeven de scores in de populatie. Deze gemiddelden zullen weer om het ‘ware’ gemiddelde van de populatie verdeeld zijn. Deze theoretische verdeling van alle mogelijke gemiddelden in een populatie wordt de steekproevenverdeling van het gemiddelde genoemd.

Stel dat we de steekproef van \(100\) deelnemers niet twaalf keer, maar oneindig vaak zouden herhalen. Dat kan natuurlijk niet, maar laten we even net doen alsof het wel kan. Vervolgens zetten we de gemiddelden van die oneindige reeks steekproeven weer in een verdeling. Dat doen we ook met de standaarddeviaties en de spitsheidmaten. Die drie verdelingen bevatten dan noodzakelijkerwijs respectievelijk alle mogelijke gemiddelden, standaarddeviaties en spitsheidmaten die we kunnen vinden met een steekproef van \(100\) deelnemers.

Laten we even stilstaan bij waarom deze verdeling van de gemiddelden uit oneindig veel steekproeven van \(100\) deelnemers noodzakelijkerwijs alle mogelijke gemiddelden van een willekeurige steekproef van \(100\) deelnemers bevat.

Met maar twaalf steekproeven, had het best zo kunnen zijn dat we toevallig in geen van die steekproeven de oudste persoon in Nederland hadden zitten, waardoor elk van de twaalf gemiddelden steeds relatief wat laag uitvalt. Maar hoe meer steekproeven we trekken, hoe kleiner de kans dat we een gegeven persoon in de populatie over het hoofd blijven zien, zelfs die ene oudste persoon in Nederland. Als we nu steekproeven blijven trekken tot het er oneindig veel zijn, weten we dus zeker dat alle mogelijke steekproeven getrokken zijn, en dus weten we zeker dat de datareeks met de gemiddelden van elk van die oneindige steekproeven alle mogelijke gemiddelden bevat die te vinden zijn met een individuele steekproef van \(100\) deelnemers.

Deze theoretische verdelingen van gemiddelden, standaarddeviaties, en spitsheidmaten heten dus steekproevenverdelingen. Een steekproevenverdeling van gemiddelden bevat dus alle mogelijke gemiddelden die met een steekproef van een gegeven omvang (in ons geval \(100\) deelnemers) gevonden kunnen worden; en een steekproevenverdeling van standaarddeviaties bevat alle mogelijke standaarddeviaties die met een steekproef van een gegeven omvang (in ons geval \(100\) deelnemers) gevonden kunnen worden. Elke maat die uitgerekend kan worden op basis van de datareeks die met een steekproef is verkregen, heeft zo’n theoretische steekproevenverdeling. Dit geldt dus niet alleen voor het gemiddelde, de standaarddeviatie en de spitsheid, maar ook voor de scheefheid, de mediaan, de modus, de variantie en variatie, de diptest, en de interkwartielafstand.

Omdat die steekproevenverdelingen alle mogelijke uitkomsten bevat, kunnen we de redenering ook omdraaien: als we een willekeurige steekproef nemen, komt ons steekproefgemiddelde eigenlijk uit zo’n theoretische steekproevenverdeling met alle mogelijke gemiddelden die we kunnen vinden. En de standaarddeviatie in onze steekproef komt uit een steekproevenverdeling van alle mogelijke standaarddeviaties.

Omdat dit ‘gedachte-experiment’ zo belangrijk is, nog even de hoofdlijnen op een rijtje voordat we er dieper op ingaan.

  • Uit een populatie kan een steekproef van een gegeven omvang worden getrokken door willekeurig onderzoekseenheden (bijvoorbeeld deelnemers) te selecteren.
  • De resulterende datareeks wordt gekenmerkt door beschrijvingsmaten (centrum-, spreidings-, en verdelingsmaten).
  • Voor elk van deze maten kan een theoretische steekproevenverdeling worden opgesteld.
  • Die steekproevenverdeling bevat de desbetreffende maten verkregen uit oneindige herhaling van die steekproeftrekking (met dezelfde omvang).
  • Elke centrum-, spreidings-, en verdelingsmaat is dus te beschouwen als een willekeurige selectie van één waarde uit de desbetreffende steekproevenverdeling.

Om deze redenering concreet te maken passen we deze toe op een steekproef van \(100\) deelnemers.

  • Uit een populatie trekken we willekeurig een steekproef van \(100\) deelnemers en meten hun leeftijd.
  • Voor de resulterende datareeks van \(100\) leeftijden berekenen we de centrummaten (het gemiddelde, de mediaan en de modus), de spreidingsmaten (de standaarddeviatie, variantie, variatie en de interkwartielafstand), en de verdelingsmaten (de diptest, de scheefheid en de spitsheid).
  • Voor elk van deze tien maten bestaat een theoretische steekproevenverdeling, die we zouden verkrijgen als we oneindig veel steekproeven van \(100\) deelnemers zouden nemen en steeds de desbetreffende maat zouden uitrekenen om nieuwe, oneindig lange, datareeksen te krijgen.
  • Deze tien steekproevenverdelingen bevatten dus steeds alle mogelijke waarden van de tien beschrijvingsmaten bij een steekproeftrekking van \(100\) deelnemers.
  • De tien centrum-, spreidings- en verdelingsmaten (de beschrijvingsmaten) die we vinden in onze ene steekproef komen dus elk uit de bijbehorende steekproevenverdelingen.

Nu het concept van de steekproevenverdeling besproken is, gaan we hieronder in op waarom dit nu zo belangrijk, en vooral handig, is.

13.3 De steekproevenverdeling van het gemiddelde

Laten we bijvoorbeeld het gemiddelde nemen. We blijven voor nu even bij leeftijd. In plaats van twaalf steekproeven, trekken we er \(10.000\). In Figuur 13.3 zijn de \(10.000\) gemiddelden die uit die \(10.000\) steekproeven kwamen.

Steekproevenverdeling van het gemiddelde van leeftijd in een steekproef van 100 deelnemers.

Figuur 13.3: Steekproevenverdeling van het gemiddelde van leeftijd in een steekproef van 100 deelnemers.

Twee eigenschappen van deze verdeling vallen op. Ten eerste is deze verdeling praktisch normaal verdeeld. Ten tweede is hij een stuk smaller dan de populatieverdeling van leeftijd en de verdelingen van steekproefscores die we hierboven zagen. Op deze tweede eigenschap gaan we later dieper in. We gaan nu eerst in op de eerste eigenschap.

De centrale limietstelling stelt dat naarmate we meer steekproeven trekken, de steekproevenverdeling van het gemiddelde steeds meer op de normaalverdeling zal lijken. Dit is ongeacht de vorm van de populatieverdeling, hoewel er grotere steekproeven nodig zijn om een normale steekproevenverdeling te krijgen naarmate de populatieverdeling zelf meer afwijkt van normaliteit.

Hieruit volgt dat de theoretische steekproevenverdeling van het gemiddelde altijd normaal verdeeld is, behalve voor hele kleine steekproeven (enkele tientallen deelnemers). Zulke kleine steekproeven zijn echter in de meeste gevallen sowieso niet realistisch.

Dit is cruciale informatie en brengt ons nog een stukje dichter bij het antwoord op de vraag: ‘Wat kan ik op basis van mijn steekproef over de populatie concluderen?’

Door de bijzondere eigenschappen van de normale verdeling weten we dat het gemiddelde dat we in onze steekproef hebben gevonden in \(68\%\) van de steekproeven binnen één standaarddeviatie van het ware gemiddelde ligt. In \(95\%\) van de steekproeven ligt deze binnen twee standaarddeviaties van het ware gemiddelde en in \(99,7\%\) van de steekproeven binnen drie standaarddeviaties van het ware gemiddelde. Dat geeft ons al enig idee wat we op basis van onze steekproef kunnen zeggen over het gemiddelde van de populatie.

Hoewel het gegeven dat variabelen doorgaans normaal verdeeld zijn in de populatie een leuk theoretisch argument is, is in de praktijk de verdelingsvorm van de populatie niet bekend. Alleen de verdeling van steekproefscores is bekend en die kan door toeval normaler of abnormaler lijken dan de populatieverdeling is. Gelukkig gaat de centrale limietstelling al op bij heel kleine steekproeven. Laten we als voorbeeld weer leeftijd nemen en steekproeven trekken van \(1\), \(2\), \(3\), \(4\), \(5\), \(10\), \(25\), \(50\), \(100\), \(200\), \(500\), en \(1000\) deelnemers. Deze is te zien in Figuur 13.4.

Twaalf steekproevenverdelingen van het gemiddelde van leeftijd bij verschillende steekproefgroottes.

Figuur 13.4: Twaalf steekproevenverdelingen van het gemiddelde van leeftijd bij verschillende steekproefgroottes.

Zoals hier te zien is, wordt de steekproevenverdeling van het gemiddelde van leeftijd al heel snel normaal naarmate de steekproeven groter worden. Zelfs bij een steekproef van maar \(5\) deelnemers is het onderscheid van de normaalverdeling nog amper te zien. Dit geldt ook voor uitermate scheve verdelingen.

De steekproevenverdeling is bij een steekproefomvang van \(10\) deelnemers al bijna normaal; bij \(50\) en \(100\) deelnemers is het verschil met normaliteit al moeilijk te zien. Het lijkt er dus op dat bij acceptabele steekproefgroottes – steekproeven zijn zelden kleiner dan \(100\) deelnemers – de steekproevenverdeling van het gemiddelde normaal verdeeld is, tenzij de populatieverdeling extreem afwijkt van normaliteit. Dit betekent dus dat bijna altijd bekend is wat de verdelingsvorm is van de verdeling waar het steekproefgemiddelde uit komt. Bovendien is ook de spreiding van die verdeling bekend.

13.4 De standaardfout

Om een nauwkeurigere uitspraak over het steekproefgemiddelde te kunnen doen, is het nodig de spreiding van de steekproevenverdeling te weten. Maar hoe groot is de standaarddeviatie van de steekproevenverdeling?

De standaarddeviatie van een steekproevenverdeling wordt de standaardfout (‘standard error’) genoemd. De standaardfout hangt af van de grootte van de steekproef, die in de uitleg hierboven oneindig vaak werd getrokken. Hoe groter de steekproef, hoe smaller (spitser) de steekproevenverdeling en dus hoe kleiner de standaardfout. Dit is logisch, want hoe groter de steekproef, hoe minder extreem de gemiddelden zijn.

Stel dat een steekproef van tien personen toevallig de tien oudste mensen van Nederland bevat. De gemiddelde leeftijd zal dan erg hoog zijn. Maar als de steekproef uit \(100\) personen bestaat en dit toevallig de \(100\) oudste personen van Nederland zijn, kan de gemiddelde leeftijd van deze \(100\) personen alleen maar lager zijn dan de gemiddelde leeftijd van de tien oudste personen. Hetzelfde geldt wanneer de steekproef per toeval uit de tien of \(100\) jongste personen van Nederland bestaat. Het hoogst of laagst mogelijke gemiddelde van de steekproeven wordt dus minder extreem met meer deelnemers in de steekproef en daardoor wordt de verdeling van alle mogelijke gemiddelden smaller.

Formeel is de standaardfout gelijk aan de standaarddeviatie van de populatie gedeeld door de wortel van de steekproefgrootte.

\[\begin{equation} se=\frac{\sigma}{\sqrt{n}} \tag{13.1} \end{equation}\]

De standaarddeviatie van de populatie weten we echter nooit. Om de standaardfout te benaderen maken we daarom gebruik van de standaarddeviatie van de steekproef. De formule om de standaardfout te berekenen is dus

\[\begin{equation} se=\frac{sd}{\sqrt{n}} \tag{13.2} \end{equation}\]

De standaarddeviatie van de steekproevenverdeling is dus door middel van een relatief eenvoudige formule te benaderen op basis van de informatie die we uit onze steekproef kunnen halen: de standaarddeviatie en de steekproefgrootte.

De standaarddeviatie van onze allereerste steekproef van \(100\) leeftijden was \(21.1\). We kunnen die standaardfout dus berekenen:

\[\begin{equation} se=\frac{sd}{\sqrt{n}}=\frac{21.1}{\sqrt{100}}=2.11 \tag{13.3} \end{equation}\]

Dit betekent dat we nog een stapje dichterbij het antwoord zijn op de vraag: ‘Wat kan ik op basis van mijn steekproef over de populatie concluderen?’ We weten nu namelijk dat het gemiddelde dat we in onze steekproef vinden in 68% van de steekproeven binnen ongeveer één standaardfout van het ‘ware’ gemiddelde ligt en in \(95\%\) van de steekproeven binnen ongeveer twee standaardfouten van het ‘ware’ gemiddelde. Andersom geldt hetzelfde: het ‘ware’ gemiddelde ligt in \(68\%\) van de gevallen binnen ongeveer een standaardfout van het steekproefgemiddelde en in \(95\%\) van de steekproeven binnen ongeveer twee standaardfouten van het steekproefgemiddelde.

13.5 Het betrouwbaarheidsinterval

Het betrouwbaarheidsinterval is het interval om het steekproefgemiddelde heen dat in \(95\%\) van de steekproeven het populatiegemiddelde bevat. Dit interval komt overeen met een afwijking van ongeveer twee standaardfouten van het gemiddelde.

Het betrouwbaarheidsinterval rondom de gemiddelde leeftijd van onze steekproef is dus

\(39.63\) - (\(2\) x \(2.42\)) en \(39.63\) + (\(2\) x \(2.42\)) = [\(34.79\);\(44.47\)].

Het betrouwbaarheidsinterval geeft informatie over hoe accuraat het gemiddelde is dat we in de steekproef hebben gevonden. Die accuraatheid van het gemiddelde van de steekproef zit in de breedte van het interval: smalle intervallen zijn meer accuraat, brede intervallen minder.

Betrouwbaarheidsintervallen kunnen voor alle mogelijke maten van een steekproef berekend worden, bijvoorbeeld voor andere beschrijvingsmaten, maar ook voor maten die de samenhang tussen meerdere variabelen weergeven.

Betrouwbaarheidsintervallen voor deze verschillende maten worden met de volgende algemene formule berekend.

\[ \text{Betrouwbaarheidsinterval} = \text{Steekproefwaarde} \pm \text{Breedte-index} \times \text{Standaardfout} \]

De steekproefwaarde is bijvoorbeeld het gemiddelde, de skewness of de standaarddeviatie. De standaardfout betreft de bijbehorende standaardfout: dat is iets anders voor het gemiddelde dan voor de skewness. De breedte-index hangt af van twee dingen. Ten eerste van de vorm van de steekproevenverdeling van de desbetreffende waarde. Voor het gemiddelde was dit de normaalverdeling, maar het kan ook een andere verdeling zijn. Ten tweede van de betrouwbaarheid van het interval. Dit getal wordt dus groter naarmate een hogere betrouwbaarheid wordt gewenst.

Voor het gemiddelde (en andere waarden waarvan de steekproevenverdeling normaal verdeeld is) geldt bijvoorbeeld dat de breedte-index gelijk is aan \(1.96\) voor een \(95\%\)-betrouwbaarheidsinterval, \(2.58\) voor een \(99\%\)-betrouwbaarheidsinterval en \(0.67\) voor een \(50\%\)-betrouwbaarheidsinterval.

De breedte-index van \(1.96\) voor een \(95\%\)-betrouwbaarheidsinterval komt dus overeen met de “ongeveer 2” waar we het eerder over hadden. Waar het bij de eerdere voorbeelden genoeg was om het ongeveer te weten, is het bij het berekenen van een betrouwbaarheidsinterval belangrijk de exacte breedte-index te gebruiken (al zal dit doorgaans altijd in de buurt van \(2\) liggen).

In de praktijk wordt meestal een betrouwbaarheidsinterval van \(95\%\) gehanteerd, maar het betrouwbaarheidsinterval kan voor elk willekeurig percentage berekend worden. Hoe hoger het percentage, hoe vaker deze het populatiegemiddelde zal bevatten. Maar ook, hoe hoger het percentage, hoe breder het interval zal zijn. Het meest extreme geval, een \(100\%\)-betrouwbaarheidsinterval, loopt van min oneindig naar plus oneindig. Alleen dan weet je \(100\%\) zeker dat het populatiegemiddelde binnen het betrouwbaarheidsinterval ligt, maar dit is natuurlijk niet meer informatief.

Een betrouwbaarheidsinterval van \(0%\) is een puntschatting en dus geen interval meer. In dit geval is de puntschatting gewoon het gemiddelde dat we in de steekproef hebben gevonden. Een puntschatting van een bepaalde steekproef is in principe nooit de ‘ware’ waarde van de populatie. Met genoeg decimalen zal het ‘ware’ gemiddelde altijd wel iets van de puntschatting afwijken. Om die reden is het cruciaal om bij elke maat uit een steekproef altijd het betrouwbaarheidsinterval te vermelden.

Een veelgemaakte fout is om het betrouwbaarheidsinterval te interpreteren als een interval waarbij de kans \(95\%\) is dat het populatiegemiddelde binnen dat interval ligt. Het populatiegemiddelde is echter een bestaande waarde die feitelijk wél of níét in het betrouwbaarheidsinterval van een steekproef ligt. Het betrouwbaarheidsinterval is dus beter als volgt te interpreteren: stel dat je een steekproef oneindig vaak zou herhalen, dan zou in \(95\%\) van de gevallen het populatiegemiddelde in het betrouwbaarheidsinterval vallen.

Samengevat, het betrouwbaarheidsinterval is het dichtste dat we kunnen komen bij een antwoord op de vraag ‘Wat kan ik op basis van mijn steekproef over de populatie concluderen?’. Het betrouwbaarheidsinterval geeft namelijk aan hoe accuraat een bepaalde maat, zoals het gemiddelde, is die we in een steekproef hebben gevonden. We kunnen betrouwbaarheidsintervallen berekenen voor alle maten die berekend kunnen worden op basis van een steekproef. Al deze maten komen namelijk uit een steekproevenverdeling waarvan de verdelingsvorm, de normaalverdeling, en de standaardfout bekend zijn. Op basis van een steekproef kunnen we dus toch informatie afleiden over de populatie waarin we eigenlijk geïnteresseerd zijn.