Hoofdstuk 14 Correlaties

14.1 Intro

De correlatiecoëfficiënt of simpelweg correlatie of Pearson’s r drukt uit hoe sterk twee continue variabelen (dus minimaal intervalniveau) met elkaar samenhangen. Correlaties worden voor van alles gebruikt en zijn vaak een eerste stap richting meer complexere analyses. Naast de Pearson r bestaan er ook andere vormen van correlaties die vaak op dezelfde manier met slechts kleine aanpassingen in de uitvoering ook berekend kunnen worden, zoals de Spearman’s rho.

14.1.1 Voorbeeld data

Om correlaties te illustreren zullen we de Palmer Pinguïns dataset gebruiken. Deze dataset bevat informatie over drie verschillende pinguïnsoorten. Er is meer informatie beschikbaar op https://allisonhorst.github.io/palmerpenguins om de data te downloaden of te bekijken.

14.2 jamovi

Om de samenhang tussen flipperlengte en gewicht te visualiseren, maken we eerst een scatterplot. Klik in het tabblad “Analyse” op “Exploration” en vervolgens op “Scatterplot”. Vul de juiste variabelen in bij de X-as en de Y-as. In de syntax ziet het er dan als volgt uit.

scatr::scat(
    data = data,
    x = flipper_length_mm,
    y = body_mass_g)

Om vervolgens de correlatie uit te rekenen, klik op “Regression” en dan “Correlation matrix”. Kies hier alle variabelen waarvan je de samenhang wilt berekenen. In de verschillende opties onderaan kun je kiezen welke coëfficiënt berekend moet worden, en of je extra informatie wilt zoals de betrouwbaarheidsintervallen.

jmv::corrMatrix(
    data = data,
    vars = vars(flipper_length_mm, body_mass_g))

14.3 R

Om de samenhang tussen flipperlengte en gewicht te visualiseren, kunnen we eerst een scatterplot maken. Let erop dat de pinguïndataset opgeslagen is onder de naam data.

rosetta::ggScatterPlot(data$flipper_length_mm,data$body_mass_g)

Vervolgens zijn er in R verschillende opties voor het berekenen van de correlatiecoëfficiënt. Voor het verkrijgen van de coëfficiënt zelf, kun je cor() gebruiken.

cor(data$flipper_length_mm,data$body_mass_g, use="complete.obs", method=c("pearson"))

De functie cor gaat ervan uit dat er geen missing data in de dataset is. Indien dat wel het geval is zul je met de optie use aan moeten geven of je pairwise of listwise deletion wilt gebruiken. Bij method kun je kiezen uit Pearson, Spearman of Kendall.

Voor het toetsen van één correlatiecoëfficiënt kun je ook base R gebruiken, maar wil je statistische inferenties maken over meerdere coëfficiënten tegelijk en bijvoorbeeld p-waarden of betrouwbaarheidsintervallen verkrijgen, dan heb je andere packages nodig, zoals Hmisc.

cor.test(data$flipper_length_mm,data$body_mass_g, use="complete.obs", method=c("pearson"))

library(Hmisc)
rcorr(data$flipper_length_mm,data$body_mass_g, type="pearson")

14.4 SPSS

Om de samenhang tussen flipperlengte en gewicht te visualiseren, maken we eerst een scatterplot met het volgende commando.

GRAPH
  /SCATTERPLOT(BIVAR)=flipper_length_mm body_mass_g
  /MISSING=LISTWISE.

Vervolgens kunnen we via “Correlate” en “Bivariate” ook een correlatiematrix maken. In de syntax gebruik je daarvoor het volgende commando.

CORRELATIONS
  /VARIABLES=flipper_length_mm body_mass_g
  /PRINT=TWOTAIL NOSIG
  /MISSING=LISTWISE.