Hoofdstuk 15 Verdelingen

15.1 Samenvatting en verdieping

In dit hoofdstuk wordt besproken:
  • Verdelingsvormen
  • Beschrijvingsmaten
  • Centrummaten
  • Spreidingsmaten
  • Verdelingsmaten
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspractium inleiding onderzoek (PB0212)
  • Onderzoekspractium cross-sectioneel onderzoek (PB0812)
  • Onderzoekspractium experimenteel onderzoek (PB0412)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Datasets

15.2 Inleiding

Datareeksen bestaan vaak uit honderden of duizenden datapunten. Het is daarom niet goed mogelijk om een overzicht te krijgen van de verzamelde data door naar die ruwe datapunten te kijken. Bovendien zijn de individuele datapunten vaak ook niet van belang: datareeksen worden meestal verzameld om informatie te krijgen over een populatie (zie ook sectie Steekproeven in hoofdstuk Ontwerpen). Omdat die populaties bijna altijd zijn gedefinieerd als oneindig groot, zijn de patronen in datareeksen belangrijker dan individuele datapunten.

De getallen in een datareeks zijn op een bepaalde manier verdeeld. Bij categorische datareeksen is dat eenvoudig: je kunt de zogenaamde frequentieverdeling opstellen door gewoon te tellen hoe vaak elke categorie voorkomt. Bij continue datareeksen komt elke mogelijke waarde meestal maar één keer voor, of hoogstens een paar keer, dus daar is dat een stuk moeilijker. Dit hoofdstuk gaat daarom vooral over de verdelingen van continue datareeksen.

Hoewel het opstellen van een frequentieverdeling bij continue data meestal niet zinvol is, kun je de hoogste en laagste waarde wel vinden. De vraag is dan vervolgens hoe de data tussen die twee punten zijn verdeeld. Dat heet de verdelingsvorm van de data. Er zijn allerlei verdelingsvormen bekend.

15.3 Verdelingsvormen

Datareeksen hebben altijd een verdeling. In de statistiek zijn allerlei verdelingsvormen bekend die gebruikt kunnen worden om data efficiënt te beschrijven. Figuur 15.1 laat een aantal van deze verdelingsvormen zien.

Een illustratie van verschillende verdelingsvormen.

Figuur 15.1: Een illustratie van verschillende verdelingsvormen.

Van deze verdelingsvormen zijn de uniforme verdeling en de bimodale verdeling relatief zeldzaam. Uniforme verdelingen zijn zeldzaam omdat er niet veel variabelen zijn waarbij alle mogelijke waarden even vaak voorkomen. Bimodale verdelingen zijn zeldzaam omdat het niet vaak voorkomt dat er twee subpopulaties zijn met gemiddelden die ver genoeg uit elkaar liggen om te resulteren in een bimodale verdeling als dat onderscheid naar subpopulatie niet wordt gemaakt (Schilling et al., 2002).

15.4 Verdelingsvormen in steekproeven bekijken

Verdelingsvormen worden vaak afgebeeld als continue curves (zoals ook in Figuur 15.1), omdat de verdeling berekend kan worden met een wiskundige formule. Op basis van een eindig aantal datapunten is het echter niet mogelijk om zomaar zo’n curve te tekenen: elke mogelijke waarde komt maar een keer, of maar een klein aantal keren, voor. Daarom worden datareeksen ingedeeld in klassen om hun verdeling te bekijken. De resulterende grafiek heet een histogram.

Figuur 15.2 laat twee histogrammen zien die zijn geproduceerd op basis van dezelfde dataset. In het linker histogram zijn de data ingedeeld in 30 klassen (‘bins’), en in het rechter histogram in 20 klassen (‘bins’).

Een illustratie van een histogram waarbij de data zijn ingedeeld in 30 klassen ('bins') en een histogram waarbij de data zijn ingedeeld in 20 klassen ('bins').

Figuur 15.2: Een illustratie van een histogram waarbij de data zijn ingedeeld in 30 klassen (‘bins’) en een histogram waarbij de data zijn ingedeeld in 20 klassen (‘bins’).

Deze sectie moet nog worden uitgebreid. Dit zal (uiterlijk) gebeuren als de betreffende stof wordt gebruikt in een cursus; dit is waarschijnlijk de volgende revisie van Onderzoekspracticum inleiding onderzoek.

15.5 Beschrijvingsmaten

Verdelingen kunnen ook worden samengevat met beschrijvingsmaten. Deze vereisen echter veel zorgvuldigheid: belangrijke patronen kunnen makkelijk onzichtbaar worden (zie Figuur 15.3).

Illustratie van hoe beschrijvingsmaten patronen in de data kunnen verhullen.

Figuur 15.3: Illustratie van hoe beschrijvingsmaten patronen in de data kunnen verhullen.

15.5.1 Centrummaten

Deze sectie moet nog worden geschreven. Dit zal (uiterlijk) gebeuren als de betreffende stof wordt gebruikt in een cursus; dit is waarschijnlijk de volgende revisie van Onderzoekspracticum inleiding onderzoek.

15.5.2 Spreidingsmaten

Deze sectie moet nog worden geschreven. Dit zal (uiterlijk) gebeuren als de betreffende stof wordt gebruikt in een cursus; dit is waarschijnlijk de volgende revisie van Onderzoekspracticum inleiding onderzoek.

15.5.3 Verdelingsmaten

Deze sectie moet nog worden geschreven. Dit zal (uiterlijk) gebeuren als de betreffende stof wordt gebruikt in een cursus; dit is waarschijnlijk de volgende revisie van Onderzoekspracticum inleiding onderzoek.

15.6 Verdelingsvormen van steekproevenverdelingen

Alle statistische grootheden die je in een steekproef kunt berekenen hebben een steekproevenverdeling: de theoretische verdeling waar de waarde in elke steekproef uit afkomstig is. Op het moment dat je een steekproef neemt van een gegeven omvang kun je bijvoorbeeld een gemiddelde berekenen. Van te voren staat al vast uit welke verdeling dat gemiddelde gaat komen: de verdeling met daarin alle mogelijke gemiddelden die je kunt vinden. De kans op een gemiddelde in de buurt van het populatiegemiddelde is het grootst, en die kans neemt af voor gemiddelden die verder van het populatiegemiddelde af liggen. De steekproevenverdeling van het gemiddelde is afhankelijk van het populatiegemiddelde en de steekproefomvang. Dit wordt meer in detail uitgelegd in hoofdstuk Steekproevenverdelingen.

Veel steekproevenverdelingen hebben verdelingsvormen die bekend zijn, en in deze paragraaf staat een overzicht van een aantal veel voorkomende steekproevenverdelingen. De vorm van deze steekproevenverdelingen, hun zogenaamde parameters, worden vaak de vrijheidsgraden of degrees of freedom (\(Df\)) van de verdeling genoemd.

15.6.1 De \(t\)-verdeling

De \(t\)-verdeling is een aanpassing van de normaalverdeling, waarbij rekening wordt gehouden met de rol van toeval. Bij hele kleine steekproeven is de \(t\)-verdeling daarom breder dan de normaalverdeling. Bij steekproeven van een normale omvang is de \(t\)-verdeling al snel niet meer te onderscheiden van de normaalverdeling.

Een gemiddelde is (meestal) verdeeld volgens de \(t\)-verdeling. De bijbehorende vrijheidsgraden zijn de steekproefomvang minus \(1\) (\(N - 1\)).

De normaalverdeling.

Figuur 15.4: De normaalverdeling.

15.6.2 De \(F\)-verdeling

De \(F\)-verdeling is de steekproevenverdeling van de verhouding tussen twee varianties die in de populatie gelijk aan elkaar zijn. Omdat de \(F\)-verdeling over een verhouding tussen twee parameters gaat (de twee varianties) heeft de \(F\)-verdeling twee vrijheidsgraden, \(Df_1\) en \(Df_2\).

Referenties

Schilling, M. F., Watkins, A. E., & Watkins, W. (2002). Is Human Height Bimodal? The American Statistician, 56(3), 223–229. https://doi.org/ctr8q8