Hoofdstuk 5 Data screening

5.1 Intro

Voor je aan de slag gaat met ingewikkelde analyses, is het altijd goed om even door je dataset heen te lopen en alle variabelen te bekijken. Je kunt alvast exploratief naar de verdeling van de data kijken, en eventuele aanpassingen doen voor je met analyses verder gaat. Acties als hercoderen vallen hier ook onder, maar dat wordt in een apart hoofdstuk beschreven. Hier zal het gaan om het hernoemen van variabelen, het maken van simpele grafieken, beschrijvende statistieken, en frequentietabellen.

5.1.1 Voorbeeld dataset

Bij deze uitleg gaan we werken met de dataset statistiekangst die wordt besproken in hoofdstuk 3. Informatie over hoe je de datasets kunt inladen kun je vinden in hoofdstuk 4. In deze voorbeelden werken we met verschillende variabelen uit deze dataset.

5.2 jamovi

5.2.1 Variabelen bekijken

Zodra je in jamovi een dataset hebt geopend, verschijnt deze in je scherm. Het is handig om de variabelenamen goed te bekijken om zeker te weten dat de juiste dataset is ingeladen.

5.2.2 Variabelen hernoemen

Om een variabele te hernoemen kun je twee dingen doen. Je kunt met de rechtermuisknop klikken op de naam van de variabele. De variabelenamen staan boven de eerste rij in de dataset. Vervolgens kun je op Setup klikken. Hier kun je ook komen door naar het tabblad Data te gaan. Hier kun je ook op Setup klikken, en dan zal de variabele die je als laatst hebt aangeklikt verschijnen in het menu.

Het vakje helemaal bovenin met de dikgedrukte letters geeft de naam van de variabele weer. Als je hierop klikt kun je de naam wijzigen. Daaronder staat het label van de variabele, ook dit kun je wijzigen of toevoegen indien een variabele geen label heeft.

5.2.3 Categorische variabelen onderzoeken

Er zijn verschillende dingen die je kunt doen met een categorische variabele. In jamovi kun je veel van deze opties vinden op dezelfde plek. Om een frequentietabel te maken, kun je naar het tabblad Analyses. Hier klik je op Exploration en vervolgens Descriptives. Nu verschijnt er een menu in de linkerkant van het scherm. Je kunt de variabele waarvan je de tabel wilt maken verplaatsen naar het vak variables door op de pijl te klikken. Vervolgens kun je rechtsonder klikken op Frequency tables. Hier zie je ook symbooltjes bij staan. Dat houdt in dat jamovi alleen frequentietabellen maakt van variabelen die geclassificeerd zijn als categorisch.

In ditzelfde menu kun je ook aangeven dat je een staafdiagram van de data wilt. Hiervoor klap je het menu Plots uit en klik je op Bar plot. Nu verschijnt aan de rechterkant automatisch een staafdiagram. Als je dit doet voor de variabele Education, dan kun je zien dat de meeste mensen in de middelste categorie zitten.

De onderliggende syntax voor een frequentietabel met staafdiagram ziet er als volgt uit:

jmv::descriptives(
  data = data,
  vars = Education,
  freq = TRUE,
  bar = TRUE)

Het valt je misschien op dat je hierbij automatisch ook een tabel krijgt met beschrijvende statistieken die niet zo veel zegt bij categorische data. Om alleen een frequentietabel te maken, kun je ook gebruik maken van de rosetta module. Hier kun je klikken op Frequencies en weer de variabele toevoegen aan het vak. Dat ziet er in de syntax als volgt uit:

rosetta::freqjmv(
  data = data,
  vector = Education)

5.2.4 Continue variabelen onderzoeken

Bij continue variabelen heb je niet veel aan frequentietabellen, omdat er zo veel verschillende waarden zijn. Daarom zijn bepaalde beschrijvende maten een stuk handiger, zoals het gemiddelde, de mediaan of de standaarddeviatie. Daarnaast kun je ook continue variabelen grafisch weergeven om in één oogopslag een beeld te krijgen van de verdeling. Ga hiervoor naar het tabblad Analyses en klik op Exploration. Klik hier vervolgens op Descriptives. Zodra je een variabele in het vak voor variables stopt, verschijnt rechts een tabel met beschrijvende statistieken. Als je meer variabelen toevoegt verschijnen ze naast elkaar.

Ook kun je in ditzelfde menu verschillende dingen aanpassen of opvragen. In het kopje Statistics kun je kiezen welke maten je graag wilt zien. Zo kun je bijvoorbeeld de skewness van een variabele laten zien om een beeld te krijgen van de verdeling. In het kopje Plots kun je verschillende opties aanvinken. Enkele handige grafieken die je vaak nodig hebt zijn een histogram en een boxplot. Hiermee kun je zien of een variabele normaal verdeeld is en of er univariate uitbijters zijn.

Hieronder zie je de syntax voor het opvragen van de beschrijvende statistieken van de variabelen Age en Statken1, waarbij ook voor een histogram en een boxplot is gekozen:

jmv::descriptives(
  data = data,
  vars = vars(Age, Statken1),
  hist = TRUE,
  box = TRUE)

5.3 R

5.3.1 Variabelen bekijken

Het is handig om de variabelenamen goed te bekijken om zeker te weten dat de juiste dataset is ingeladen. In R kan je snel en makkelijk de variabelenamen bekijken door gebruik te maken van het commando names.

names(dat)

Om de gehele dataset te bekijken zodat je ook de gegevens kunt zien, kun je echter beter gebruik maken van het commando View. Hiermee opent R een spreadsheetachtig overzicht met je data en de bijbehorende variabelenamen. As alternatief voor View kan je ook dubbelklikken op de naam van de dataset onder het tabblad “Environment” (standaard in het panel rechtsboven in R-studio).

View(dat)

5.3.2 Variabelen hernoemen

Soms is het nodig je variabelen te hernoemen. Probeer hiervoor zo simpel en systematisch mogelijk te werk te gaan. Het is niet gebruikelijk om spaties te gebruiken, in plaats daarvan kun je een laag streepje gebruiken (_) of door elk nieuw woord met een hoofdletter te laten beginnen. Dit heet lowerCamelCase als het eerste woord met een kleine letter begint, en UpperCamelCase als het eerste woord ook met een hoofdletter begint.

Het volgende commando hernoemt een variabele in R:

names(dat)[names(dat) == 'oudenaam'] <- 'NieuweNaam'

Hierbij wordt opnieuw het commando names gebruikt, maar omdat we vervolgens slechts één variabele specificeren, wordt alleen daarvan de naam veranderd.

5.3.3 Categorische variabelen onderzoeken

Om te bekijken hoe een categorische variabele verdeeld is, kun je frequentieverdelingen en staafdiagrammen opvragen. Dit kan met de volgende commando’s.

Met het commando freq kun je voor één variabele een frequentieverdeling en een staafdiagram opvragen.

rosetta::freq(dat$Education, plot=TRUE)

Door plot te gebruiken geef je aan dat je een staafdiagram wil. Met het commando frequencies kun je van meerdere variabelen tegelijk een frequentietabel opvragen:

rosetta::frequencies(dat$Education, dat$Cursus, plot=TRUE)

5.3.4 Continue variabelen onderzoeken

Omdat met continue variabelen berekeningen uitgevoerd kunnen worden, zijn er meer mogelijkheden om de datareeksen van continue variabelen te verkennen. De betreffende beschrijvingsmaten, histogrammen, Q-Q-plots en boxplots vraag je met de volgende commando’s op.

Met het commando descr vraag je de beschrijvingsmaten op (descriptives).

descr(dat$Age)

Vervolgens kun je een histogram maken met hist.

hist(dat$Age)

In plaats van een histogram kun je ook een boxplot laten maken, die we hier met een iets formelere wijze aanroepen:

rosetta::ggBoxplot(data = statistiekangst, y = Age)

Alternatieve commando’s om beschrijvingsmaten op te vragen zijn summary en describe (dit commando zit in de psych package, deze moet je wel eerst laden). Met describe kun je ook de hele dataset in één keer laten beschrijven, of een specifieke selectie maken:

describe(dat[,c('Age', 'Statken1', 'Statken2')])

5.4 SPSS

In SPSS kun je de data gelijk zien bij het laden. Je kunt hierbij kiezen tussen een data view waarbij je alle losse cases ziet, en een variable view waarbij je de verschillende variabelen ziet en hun bijbehorende gegevens. Het is overigens heel belangrijk om vanaf het begin de gewoonte aan te leren nooit iets te veranderen in deze Data View of Variable View. Alle wijzigingen dienen traceerbaar te zijn en dat kan alleen door ze via de Syntax uit te voeren.

5.4.1 Variabelen bekijken

Zoals hierboven al kort beschreven hoef je in SPSS weinig moeite te verrichten om de variabelen te bekijken. In de data view zie je een spreadsheetachtige overview met daarin alle data. Elke kolom stelt een variabele voor, en elke rij een case. In de variable view zie je de cases niet, daar is een lijst met alle variabelen. Hier staat bijvoorbeeld ook bij of de variabele nominaal is, hoe missings gecodeerd zijn, en welk label de variabele heeft.

5.4.2 Variabelen hernoemen

Soms is het nodig je variabelen te hernoemen. Probeer hiervoor zo simpel en systematisch mogelijk te werk te gaan. Het is niet gebruikelijk om spaties te gebruiken, in plaats daarvan kun je een laag streepje gebruiken (_) of door elk nieuw woord met een hoofdletter te laten beginnen. Dit heet lowerCamelCase als het eerste woord met een kleine letter begint, en UpperCamelCase als het eerste woord ook met een hoofdletter begint.

In de syntax in SPSS kun je dat als volgt doen:

RENAME VARIABLES oudenaam = NieuweNaam.

5.4.3 Categorische variabelen onderzoeken

Om te bekijken hoe een categorische variabele verdeeld is, kun je frequentieverdelingen en staafdiagrammen opvragen. Dit kan met het volgende commando.

FREQ VARIABLES=Education Cursus 
 /BARCHART FREQ.

Het laatste argument, /BARCHART FREQ, geeft aan dat ook de staafdiagram weergegeven moet worden; dit kun je eventueel weglaten. In plaats van FREQ kun je overigens ook FREQUENCIES gebruiken.

Het opvragen van een frequentieverdelingen kun je ook via het menu doen door te gaan naar Analyze –> Descriptive statistics –> Frequencies. Vervolgens selecteer je de variabelen die je wilt weergeven en geef je aan welke grafiek je wilt zien.

5.4.4 Continue variabelen onderzoeken

Met continue variabelen kun je vaak een stuk meer kanten op. Dit houdt in dat er vaak ook meerdere manieren te zijn om tot hetzelfde resultaat te komen. Wil je inzoomen op één variabele en hier veel informatie over, dan kun je dat het beste doen via Analyze -> Descriptive statistics -> Explore. Hier kun je variabelen selecteren, en vervolgens kiezen uit allerlei verschillende statistieken en plots. Om beschrijvingsmaten, een histogram en een boxplot op te vragen, kun je het volgende commando gebruiken.

DATASET ACTIVATE dat.
EXAMINE VARIABLES=Age 
 /PLOT BOXPLOT HISTOGRAM.

De resultaten van dit EXAMINE commando kun je ook apart opvragen voor de verschillende niveaus van een categorische variabele, oftewel per subgroep. Dit kan door een BY-variabele te specificeren.

DATASET ACTIVATE dat.
EXAMINE VARIABLES=Age BY Education
 /PLOT=BOXPLOT.

Wil je alleen een histogram van de data, dan kan dat makkelijk op twee manieren. Je kunt opnieuw gebruik maken van het FREQ commando, of je kunt het via Graphs doen. Als je dit via het menu wilt doen, ga je naar Graphs -> Legacy dialogs -> Histogram. Als je FREQ gebruikt, kun je ervoor zorgen dat de frequentietabel niet wordt weergegeven door ruimte te besparen. Dit doe je als volgt:

FREQUENCIES VARIABLES=Age 
 /FORMAT=NOTABLE 
 /HISTOGRAM NORMAL.
 
GRAPH
/HISTOGRAM=Age.

Wil je veel variabelen tegelijk bekijken of makkelijk vergelijken, dan kun je ook gebruik maken van Descriptives in plaats van Explore. Ook dit vind je bij Analyze -> Descriptive Statistics.

DESCRIPTIVES VARIABLES=Statken1 Statken2 Angst1 Angst2
 /STATISTICS=MEAN STDDEV MIN MAX.