Hoofdstuk 18 Factoranalyse

Auteurs: Gjalt-Jorn Peters en Natascha de Hoog; laatste update: 2023-09-01

In dit hoofdstuk wordt besproken:

principale Componenten Analyse (PCA)
exporatieve Factor-Analyse (EFA)
confirmatieve Factor-Analyse (CFA).

Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):

Onderzoekspracticum cross-sectioneel onderzoek (PB0812)

18.1 Inleiding

Factoranalyse is een rekenkundige methode die vaak gebruikt wordt bij het construeren van meetinstrumenten voor psychologisch onderzoek. Met deze techniek kan worden onderzocht of een groot aantal geobserveerde variabelen (denk aan items uit vragenlijsten) kan worden teruggebracht tot een kleiner aantal factoren. Rekenkundig gezien zoekt deze techniek naar zogenaamde factoren die een correlatie- of covariantiematrix tussen variabelen zo goed mogelijk kunnen verklaren. Daarbij worden variabelen die onderling sterk (positief of negatief) met elkaar samenhangen samengevoegd tot één gemeenschappelijke factor.

Onder een aantal aannames kan factoranalyse nuttig zijn bij het bestuderen van onderliggende psychologische constructen die ten grondslag liggen aan de scores op een aantal vragen.

Doorgaans wordt er een onderscheid gemaakt tussen twee varianten: exploratieve factoranalyse (EFA) en confirmatieve factoranalyse (CFA). EFA wordt vaak gebruikt om te zoeken naar mogelijke onderliggende factoren om een set variabelen te verklaren. CFA onderzoekt hoe goed een vooropgestelde set factoren presteert. Daarnaast bestaat er een derde variant, principale componentenanalyse (PCA). Deze is in de psychologie zelden bruikbaar, maar wordt daarbuiten wel veel gebruikt. Omdat PCA iets eenvoudiger te begrijpen is, leggen we deze eerst uit. Maar voordat we daarmee starten, volgt eerst een korte opfrisser over covarianties.

18.2 Covarianties en correlaties

De covariantie en de correlatie zijn allebei maten voor de samenhang tussen twee variabelen. De correlatie tussen variabele \(x\) en variabele \(y\) is de covariantie tussen deze twee variabelen gedeeld door het product van de twee standaarddeviaties van variabelen \(x\) en \(y\).

\[\begin{equation} r_{xy} = \frac{\text{covariantie}_{xy}}{\text{sd}_x \text{sd}_y} \tag{18.1} \end{equation}\]

Door de covariantie te delen door het product van de standaarddeviaties ontstaat een gestandaardiseerde maat. Daarom liggen correlaties altijd tussen de \(-1\) en de \(1\). Hiermee verwijder je dus de schaalinformatie. De covariantie bevat nog wel schaalinformatie. Een grote of kleine covariantie zegt dus niets als je niet weet op wat voor schaal de variabelen zijn gemeten. Dat zie je ook terug in de formule voor de covariantie.

\[\begin{equation} \text{covariantie}_{xy} = {\frac{{\sum_{i=1}^n} (x_i - \overline{x})(y_i - \overline{y})}{n - 1}} \tag{18.2} \end{equation}\]

Om de covariantie te meten, bereken je in twee datareeksen de afstand van elk datapunt tot het gemiddelde en voor elk paar datapunten vermenigvuldig je deze afstanden (\((x_i - \overline{x})(y_i - \overline{y})\)). Die producten tel je vervolgens allemaal bij elkaar op (\({\sum_{i=1}^n}\)) en die som deel je door \(n-1\).

Door te delen door \(n-1\) corrigeer je voor het aantal datapunten. Maar als de datareeks van \(x\) bijvoorbeeld reactietijden representeert en je drukt die uit in seconden, dan is de covariantie \(1000\) keer zo klein dan als je \(x\) uitdrukt in milliseconden.

De formule om de covariantie te berekenen is eigenlijk gelijk aan de formule voor de variantie, maar dan toegepast op twee datareeksen in plaats van een. Zoals je kunt zien in de formule om de variantie te berekenen, vermenigvuldig je ‘de afstand van elk datapunt tot het gemiddelde van de datareeks’ met zichzelf (oftewel, je neemt het kwadraat hiervan).

\[\begin{equation} \text{MS} = \text{variantie}_{x} = {\frac{{\sum_{i=1}^n} (x_i - \overline{x})(x_i - \overline{x})}{n - 1}} = { \frac {{\sum_{i=1}^n} (x_i - \overline{x})^2}{n - 1}} \tag{18.3} \end{equation}\]

Omdat je dezelfde formule zowel kunt gebruiken voor één datareeks als voor twee datareeksen, is het relatief makkelijk om een covariantiematrix te maken. Hierin corresponderen de rijen en kolommen met de variabelen en bevat elke cel de uitkomst van de (co)variantieformule voor de betreffende combinatie. In de diagonaal van de matrix kruist elke variabele zichzelf, dus daar resulteert de formule in de varianties. In de rest van de tabel staan de covarianties.

De covariantiematrix kun je vergelijken met een correlatiematrix. In deze tabel corresponderen de rijen en kolommen ook met de variabelen. In elke cel staat de uitkomst van de formule voor de correlatie. Dit is dezelfde formule als de covariantie, maar dan gedeeld door het product van de standaarddeviaties (zie formule (18.1) hierboven).

Laten we als voorbeeld vijf items over openheid uit de Big Five Inventory nemen. De beschrijvingsmaten voor deze items zijn als volgt.

Tabel 18.1: Een aantal beschrijvingsmaten voor openheid.
	Minimum	Gemiddelde	Mediaan	Maximum	Standaarddeviatie
O1	1	4.7	5	6	1.2
O2	1	2.8	2	6	1.6
O3	1	4.5	5	6	1.1
O4	1	4.9	5	6	1.2
O5	1	2.4	2	6	1.4

Hieronder zijn de covariantiematrix en de correlatiematrix voor deze items weergegeven.

Tabel 18.2: De covariantiematrix voor de vijf items over openheid.
	O1	O2	O3	O4	O5
O1	1.39	-0.34	0.56	0.38	-0.55
O2	-0.34	2.53	-0.51	-0.26	0.56
O3	0.56	-0.51	1.24	0.32	-0.61
O4	0.38	-0.26	0.32	1.35	-0.42
O5	-0.55	0.56	-0.61	-0.42	1.88

Tabel 18.3: De correlatiematrix voor de vijf items over openheid.
	O1	O2	O3	O4	O5
O1	1.00	-0.18	0.43	0.28	-0.34
O2	-0.18	1.00	-0.29	-0.14	0.26
O3	0.43	-0.29	1.00	0.25	-0.40
O4	0.28	-0.14	0.25	1.00	-0.26
O5	-0.34	0.26	-0.40	-0.26	1.00

De vergelijking van deze twee matrices laat twee dingen zien. Ten eerste kunnen (co)varianties groter dan 1 of kleiner dan -1 zijn. Ze zijn nog niet gedeeld door de standaarddeviaties en daardoor niet gecorrigeerd voor de schaalverdeling van de variabelen.

Ten tweede zijn de verhoudingen tussen de (co)varianties anders dan tussen de correlaties. Je ziet dat de varianties (de diagonaal in de covariantiematrix) van elkaar verschillen, terwijl de correlaties op de diagonaal overal \(1\) zijn. De verhoudingen tussen de covarianties en de correlaties buiten de diagonaal zijn ook anders. Neem bijvoorbeeld de verhouding tussen de covariantie van O1 en O5 (\(-0.55\)) en van O2 en O5 (\(0.56\)). Deze verhouding is \(1\) op \(0.97\). De verhouding tussen die correlaties, respectievelijk \(-0.34\) en \(0.26\), is een verhouding van \(1\) op \(1.31\). Dat is nogal een verschil.

Dit verschil komt doordat de standaarddeviatie van O2 een stuk groter is dan die van O1 (respectievelijk \(1.59`\) en \(1.18\)). In de correlaties is het effect van de grotere spreiding in O2 verwijderd. Hierdoor is de verhouding tussen de covarianties van O2 en O5 en van O1 en O5 groter dan voor de corresponderende correlaties.

Omdat correlaties de covarianties zijn, maar dan gecorrigeerd voor de schaal waarop beide variabelen zijn gemeten, is de covariantiematrix van een set gestandaardiseerde variabelen gelijk aan de correlatiematrix. Namelijk, als een variabele wordt gestandaardiseerd (door van elk datapunt eerst het gemiddelde af te trekken en dan te delen door de standaarddeviatie) is de schaalinformatie al verwijderd. Correlaties worden daarom ook wel gestandaardiseerde covarianties genoemd. Dit betekent tegelijkertijd dat de \(1\)-tjes op de diagonaal van een correlatiematrix dus de varianties van gestandaardiseerde variabelen zijn. Dit is logisch omdat een gestandaardiseerde variabele altijd een standaarddeviatie heeft van 1.

Correlaties zijn niet per se beter of slechter dan covarianties. Soms is schaalinformatie belangrijk, en soms is het juist belangrijk om te kunnen vergelijken los van de schalen van en spreiding in de verschillende variabelen. Het is wel belangrijk het verschil en de implicaties te kennen, vooral bij factoranalyse waarbij je moet kiezen of je correlaties of covarianties wilt analyseren.

Standaard wordt de correlatiematrix geanalyseerd waardoor elk item even zwaar meeweegt. Als je de covariantiematrix specificeert, wegen items met meer spreiding zwaarder mee. Dat kan soms precies de bedoeling zijn, maar kan soms juist voor vertekening zorgen. Het is dus belangrijk om hier op te letten. Welke matrix je specificeert bepaalt hoe de factoren in je factoranalyse (of componentenanalyse) worden samengesteld uit de items. Dit wordt in de volgende paragraaf uitgelegd.

18.3 Principale componentenanalyse (PCA)

Het doel van principale componentenanalyse (PCA) is het terugbrengen van een grote groep variabelen tot een kleinere groep componenten. Componenten kun je beschouwen als nieuwe variabelen. Eigenlijk zijn het zogenaamde ‘lineaire combinaties’ van de bestaande variabelen. Een simpel voorbeeld: stel je hebt drie variabelen A, B en C. De eerste component is dan bijvoorbeeld \(25\%\) van A, \(50\%\) van B en \(75\%\) van C. De tweede component is \(50\%\) van A, \(25\%\) van B en \(10\%\) van C en de derde component is \(25\%\) van A, \(25\%\) van B en \(15\%\) van C. Die lineaire combinaties kun je dus een beetje zien als herformuleringen van de oorspronkelijke variabelen.

Als je evenveel componenten construeert als er variabelen zijn, kun je de spreiding binnen en tussen de variabelen perfect reproduceren. Met minder componenten kun je de spreiding minder perfect reproduceren. Het eindelijke doel is om met zo weinig mogelijk componenten, toch zo goed mogelijk te kunnen reproduceren. Wat je precies probeert te reproduceren hangt af van hoe je de analyse uitvoert. Je kunt als doel hebben om de covariantiematrix te reproduceren of om de correlatiematrix te reproduceren (zie de vorige paragraaf).

18.3.1 Componenten bepalen

Het idee bij datareductietechnieken zoals componenten- en factoranalyse is dat de varianties van de items (die in de correlatiematrix allemaal \(1\) zijn) en de covarianties of correlaties tussen de items de patronen representeren waarin je bent geïnteresseerd. De factoren worden zo gekozen dat je met zo weinig mogelijk factoren de covariantiematrix of de correlatiematrix zo goed mogelijk kunt reproduceren. Bovendien worden de componenten of factoren zo gekozen dat ze niet met elkaar correleren (maar: zie kopje Rotatie).

De lineaire combinaties worden dus niet zomaar samengesteld, maar een voor een, waarbij elke component steeds zo wordt gekozen dat hij zoveel mogelijk van de spreiding binnen en tussen de variabelen verklaart. Als de variabelen allemaal sterk met elkaar samenhangen, kan de eerste component al een groot deel van de covariantiematrix verklaren. Als je bereid bent te accepteren dat je de covariantiematrix niet volledig kunt reproduceren, oftewel als bijvoorbeeld 80 procent verklaarde (co)varianties voldoende is, dan kun je de data met slechts één variabele beschrijven in plaats van met bijvoorbeeld tien variabelen.

Bij PCA en factoranalyse is het doel altijd om de covariantiematrix zo goed mogelijk te reproduceren. Die covariantiematrix is vaak gestandaardiseerd en daarmee dus de correlatiematrix.

18.3.2 PCA met items over openheid

Laten we de vijf items over openheid van zojuist nemen en een principale componentenanalyse uitvoeren zodat we deze van dichtbij kunnen bekijken. We doen deze PCA met de correlatiematrix, dus zonder dat we de verschillen in variantie tussen de items proberen te reproduceren.

Tabel 18.4: Ladingen uit een PCA met vijf items over openheid en vijf componenten.
	PC1	PC2	PC3	PC4	PC5
O1	0.70	0.23	0.36	0.39	-0.40
O2	-0.53	0.73	0.38	-0.19	0.12
O3	0.75	-0.07	0.30	0.10	0.57
O4	0.56	0.54	-0.63	0.05	0.08
O5	-0.71	0.04	-0.10	0.67	0.18

18.3.3 Componenten bestaan uit ladingen

In Tabel 18.4 zijn de zogenaamde ladingen voor alle vijf de variabelen (items) op alle vijf de componenten te zien. De vijf componenten zijn ieder gedefinieerd als het product van de lading met het datapunt uit de bijbehorende datareeks. Deze definitie is weergegeven in vergelijking (18.4), waar lambda (\(\lambda\)) voor de lading staat en \(\lambda_{O1,PC1}\) voor de lading van item O1 op de eerste component (of van de eerste component op O1; beiden uitdrukkingen worden gebruikt).

\[\begin{equation} \text{Component}_1 = \lambda_{O1,PC1} O1_i + \lambda_{O2,PC1} O2_i + \lambda_{O3,PC1} O3_i + \lambda_{O4,PC1} O4_i + \lambda_{O5,PC1} O5_i \tag{18.4} \end{equation}\]

Stel nu dat een deelnemer de volgende scores op de openheid-items heeft: \(4%\) (O1), \(3\) (O2), \(5\) (O3), \(6\) (O4), en \(1\) (O5). Als we de ladingen en de scores invullen in de formule, dan krijgen we het volgende:

\[\begin{equation} \text{Component}_1 = .7 \cdot 4 + -.53 \cdot 3 + .75 \cdot 5 + .56 \cdot 6 + -.71 \cdot 1 = 7.61 \tag{18.5} \end{equation}\]

Dit zouden we voor alle deelnemers kunnen doen en dan zouden we vijf nieuwe datareeksen hebben. Met die vijf datareeksen kunnen we dan de correlatiematrix van de oorspronkelijke vijf variabelen reproduceren.

18.3.4 Communaliteit

Dat we de volledige correlatiematrix kunnen reproduceren, kun je narekenen door de zogenaamde communaliteit van elke variabele te berekenen. De communaliteit is de proportie van de variabele die wordt beschreven door de componenten. De communaliteit is gelijk aan de som van de gekwadrateerde ladingen voor die variabele.

\[\begin{equation} \text{Communaliteit} = \lambda_{O1,PC1}^2 + \lambda_{O1,PC2}^2 + \lambda_{O1,PC3}^2 + \lambda_{O1,PC4}^2 + \lambda_{O1,PC5}^2 \tag{18.6} \end{equation}\]

De communaliteit van O1 is dus

\[\begin{equation} \text{Communaliteit} = .7^2 + .23^2 + .36^2 + .39^2 + -.40^2 = 1 \tag{18.7} \end{equation}\]

De variabele O1 wordt dus voor 100 procent beschreven door de vijf componenten samen. Uiteindelijk hebben we hier niet veel aan. We doen deze exercitie namelijk om minder datareeksen over te houden. Gelukkig kan dat. We kunnen zelf specificeren dat we minder componenten willen hebben. We kunnen bijvoorbeeld ook alleen de eerste drie nemen. Dan hebben we nog maar drie datareeksen over en reproduceren we de correlatiematrix dus iets minder goed. De kunst is nu om zo weinig mogelijk componenten te kiezen, maar toch de correlatiematrix zo goed mogelijk te reproduceren.

18.3.5 Eigenwaarden: de verklaarde variantie per component

Om het optimale aantal componenten te kunnen kiezen, is het handig om te weten hoeveel elke component bijdraagt aan het reproduceren van de correlatiematrix. Dat kunnen we uitrekenen. De som van de gekwadrateerde ladingen van een component is de proportie van de totale variantie in de covariantiematrix die een component verklaart. Dit getal noemen we de eigenwaarde (‘eigen’ in deze term is oorspronkelijk Duits, maar betekent hetzelfde als in het Nederlands). In dit geval is dat de proportie verklaarde variantie in onze correlatiematrix. De correlatiematrix is namelijk ook een covariantiematrix, alleen dan gestandaardiseerd.

\[\begin{equation} \text{Proportie verklaarde variantie}_{PC1} = \\ \lambda_{O1,PC1}^2 + \lambda_{O2,PC1}^2 + \lambda_{O3,PC1}^2 + \lambda_{O4,PC1}^2 + \lambda_{O5,PC1}^2 \tag{18.8} \end{equation}\]

We kunnen dus uitrekenen hoeveel variantie wordt verklaard door de eerste component, PC1.

\[\begin{equation} \text{Proportie verklaarde variantie}_{PC1} = \\ .7^2 + -.53^2 + .75^2 + .56^2 + -.71^2 = 2.15 \tag{18.9} \end{equation}\]

De eigenwaarde van PC1 is dus 2.15. De totale hoeveelheid variantie om te verklaren is in dit geval \(5\). Omdat we de correlatiematrix gebruiken, is elke variabele gestandaardiseerd en is de standaarddeviatie en de variantie van elke variabele \(1\). Omdat we vijf variabelen hebben, is er dus een totale variantie van \(5 \cdot 1 = 5\). De eerste component verklaart dus al bijna de helft van onze correlatiematrix! Niet slecht.

Een correlatiematrix heeft altijd evenveel componenten en dus ook evenveel eigenwaarden als er variabelen zijn, in ons geval zijn dat er dus vijf: \(2.15\), \(0.88\), \(0.77\), \(0.65\) & \(0.55\). Omdat die eigenwaarden de proporties verklaarde variantie van de corresponderende componenten uitdrukken, tellen ze samen precies op tot de totale variantie en die is in dit geval dus vijf.

18.3.6 Het Kaiser-criterium

Als je een correlatiematrix wilt reproduceren, draagt elke variabele precies \(1\) bij aan de totale variantie. Dat betekent dat een component met een eigenwaarde lager dan \(1\) minder variantie verklaart dan een van de oorspronkelijke variabelen. Je zou dit als criterium kunnen gebruiken om te bepalen of je een component wilt behouden. In ons geval houden we dan nog maar één component over (het tweede component verklaart namelijk al minder dan \(1\) van de totale variantie). Dit heet ook wel het Kaiser-criterium, genoemd naar een van de pioniers van de factoranalyse.

18.3.7 De screeplot

Een andere manier om te kiezen hoeveel componenten je wilt behouden is door een zogenaamde screeplot te maken. Hierin worden de eigenwaarden gevisualiseerd, zoals zichtbaar in Figuur 18.1.

Figuur 18.1: Een screeplot voor de vijf componenten van openheid.

De term ‘scree’ verwijst naar rotsblokken die van een berg rollen. In een screeplot kijk je waar er een ‘elleboog’ of knik in de lijn zit. Dit is waar de helling veel vlakker wordt (en, zo gaat de redenering, de rotsblokken dus blijven liggen). Vervolgens neem je het aantal componenten dat vóór de knik ligt. In dit geval is de helling tussen de eerste twee componenten veel groter dan die tussen de volgende vier componenten. Op basis van de screeplot zouden we dus ook één component behouden, consistent met het Kaiser-criterium.

Als we maar één component gebruiken, dan is de communaliteit voor ieder van de vijf variabelen niet meer \(1\), maar een stuk lager. Die bestaat nu alleen nog maar uit de gekwadrateerde lading voor die ene component. Voor O1 tot en met O5 zijn de communaliteiten nu dus \(0.5\), \(0.28\), \(0.57\), \(0.31\) & \(0.5\). De eerste variabele deelt dus \(50\%\) van zijn variantie met de eerste component. Naast deze gedeelde variantie is er unieke variantie in O1 die we niet vangen in onze component.

18.3.8 Uniciteit

Die unieke variantie heet de uniciteit en is altijd het complement van de communaliteit. De uniciteiten van onze vijf variabelen zijn \(0.5\), \(0.72\), \(0.43\), \(0.69\) & \(0.5\). Als we er een tweede component bij zouden nemen, dan zouden die uniciteiten dalen, totdat ze met vijf componenten uitkomen op \(0\).

Omdat de items over openheid sterk met elkaar correleren, is het logisch dat we op één component uitkomen. Laten we kijken wat er gebeurt als we er vijf andere items bij nemen, bijvoorbeeld over extraversie.

18.3.9 PCA met items over openheid en extraversie

Tabel 18.5: Ladingen uit een PCA met vijf items over openheid en vijf items over extraversie, en tien componenten.
	PC1	PC2	PC3	PC4	PC5	PC6	PC7	PC8	PC9	PC10
O1	0.48	0.52	0.16	0.11	-0.38	0.31	-0.45	0.01	0.07	-0.11
O2	-0.33	-0.34	0.74	-0.30	-0.23	-0.12	-0.12	-0.06	-0.18	0.14
O3	0.64	0.43	0.01	-0.27	0.00	0.32	0.31	0.09	-0.10	0.34
O4	0.08	0.71	0.30	0.17	0.49	-0.09	-0.07	-0.21	-0.25	-0.05
O5	-0.41	-0.56	0.17	0.41	0.14	0.54	0.06	-0.06	-0.08	0.04
E1	-0.63	0.43	0.16	0.25	-0.16	-0.07	0.17	0.50	-0.15	-0.07
E2	-0.70	0.39	0.20	0.09	0.09	-0.03	-0.03	-0.06	0.47	0.26
E3	0.67	-0.10	0.51	-0.03	0.10	0.03	0.32	0.06	0.27	-0.30
E4	0.63	-0.39	0.09	0.08	0.36	-0.11	-0.34	0.38	0.05	0.18
E5	0.66	-0.10	0.07	0.53	-0.31	-0.29	0.15	-0.16	-0.03	0.20

Nu wordt het snel onoverzichtelijk. Gelukkig willen we geen tien componenten. Laten we meteen kijken met hoeveel componenten we toe kunnen. De eigenwaarden zijn \(3.1\), \(1.9\), \(1.03\), \(0.73\), \(0.72\), \(0.62\), \(0.59\), \(0.48\), \(0.44\) & \(0.39\). Op basis van het Kaiser-criterium spant het erom: houden we twee of drie componenten? Laten we naar de screeplot in Figuur 18.2 kijken, misschien geeft die meer duidelijkheid.

Figuur 18.2: Een screeplot voor de vijf Openheid componenten.

De helling begint na de derde component inderdaad af te nemen, maar nog niet zoveel als na de vierde component. Ook hier is het dus onduidelijk of je voor twee of drie componenten zou kiezen. Alleen op basis van de data komen we er dus niet uit. Gelukkig hebben we in dit geval een theorie. We weten dat deze tien items eigenlijk uit twee setjes bestaan die bij elkaar horen. Het is logisch dat de items over openheid sterk met elkaar samenhangen. Deze zijn namelijk ontworpen om hetzelfde te meten. Datzelfde geldt voor de vijf items over extraversie. Dit kun je ook zien in de correlatiematrix.

Tabel 18.6: De correlatiematrix voor de vijf items over openheid en de vijf items over extraversie.
	O1	O2	O3	O4	O5	E1	E2	E3	E4	E5
O1	1	-.18	.43	.28	-.34	-.07	-.12	.23	.1	.27
O2	-.18	1	-.29	-.14	.26	.11	.16	.04	-.07	-.17
O3	.43	-.29	1	.25	-.4	-.22	-.28	.38	.17	.25
O4	.28	-.14	.25	1	-.26	.19	.23	.09	-.08	-.01
O5	-.34	.26	-.4	-.26	1	.07	.11	-.13	-.04	-.15
E1	-.07	.11	-.22	.19	.07	1	.53	-.34	-.47	-.3
E2	-.12	.16	-.28	.23	.11	.53	1	-.37	-.48	-.42
E3	.23	.04	.38	.09	-.13	-.34	-.37	1	.42	.41
E4	.1	-.07	.17	-.08	-.04	-.47	-.48	.42	1	.35
E5	.27	-.17	.25	-.01	-.15	-.3	-.42	.41	.35	1

Als je deze goed bestudeert, kun je zien dat de items over openheid sterker met elkaar samenhangen dan met de items over extraversie (en dus noodzakelijkerwijs vice versa).

Het ligt daarom voor de hand dat er twee componenten zijn. Logischerwijs verklaart dan de ene component vooral de openheid-items en de andere component de extraversie-items. Dit zou betekenen dat bij de ene component vooral de ladingen van de items over openheid hoog zijn, terwijl bij de andere component vooral de ladingen van de items over extraversie hoog zijn. Maar dat zie je niet terug in de ladingen van PC1 en PC2 die nogmaals zijn weergegeven in Tabel 18.7.

Tabel 18.7: Ladingen uit een PCA met vijf items over openheid en vijf items over extraversie, en twee componenten.
	PC1	PC2
O1	0.48	0.52
O2	-0.33	-0.34
O3	0.64	0.43
O4	0.08	0.71
O5	-0.41	-0.56
E1	-0.63	0.43
E2	-0.70	0.39
E3	0.67	-0.10
E4	0.63	-0.39
E5	0.66	-0.10

De eerste component lijkt te zijn samengesteld om alle items zo goed mogelijk te verklaren, terwijl de tweede component de restjes kreeg. Dat is ook precies wat er gebeurt bij PCA, dus die indruk klopt.

18.3.10 Varimax-rotatie

Er bestaat gelukkig een manier om dit aan te passen. Bij PCA (en EFA) kunnen we de componenten ‘roteren’ zodat in elke component vooral die variabelen tot uitdrukking komen die er het sterkst mee samenhangen. Er bestaan verschillende soorten rotaties. Als we willen dat de componenten ongecorreleerd blijven, kunnen we de zogenaamde varimax-rotatie gebruiken. De factorladingen die uit de PCA met varimax-rotatie volgen, staan in Tabel 18.8.

Tabel 18.8: Ladingen uit een PCA met vijf items over openheid en vijf items over extraversie, twee componenten, en een varimax-rotatie.
	RC1	RC2
O1	0.14	0.69
O2	-0.11	-0.47
O3	0.33	0.70
O4	-0.30	0.65
O5	-0.05	-0.69
E1	-0.76	0.04
E2	-0.80	-0.03
E3	0.62	0.26
E4	0.74	0.00
E5	0.62	0.25

Na rotatie zien we dat de geroteerde component RC1 hoger laadt op de items over extraversie, terwijl RC2 hoger laadt op de openheid-items. Dit is bereikt door de componenten letterlijk te roteren (draaien). Om te begrijpen hoe rotatie werkt, kunnen we de ladingen plotten in een grafiek. De ladingen vóór rotatie staan in Figuur 18.3.

Figuur 18.3: Een visualisatie van ladingen in twee dimensies.

Hier zie je dat de items die in de oorspronkelijke PCA het hoogste laden op Principale Component 1 (PC1) het verst naar rechts staan (E3 en E5) en het item met de meest negatieve lading op die component staat het verst naar links (E2). Deze items gaan alle drie over extraversie. Daarnaast zie je dat het item dat het hoogst laadt op Principale Component 2 (PC2) het meest bovenaan staat (O4) en het item dat het meest negatief laadt op PC2 staat het verst naar beneden (O5). Beide items zijn openheid-items. Je ziet ook dat de meeste items op beide componenten laden (of, dat beide componenten op de meeste items laden).

De varimax-rotatie roteert nu letterlijk de assen. In dit geval staan die na de rotatie zoals weergegeven in Figuur 18.4 (Abdi, 2003).

Figuur 18.4: Orthogonaal geroteerde assen.

Als we de assen nu weer recht draaien naar een gewoon assenstelsel zien we in Figuur 18.5 de ladingen op de twee componenten na rotatie. Dit zijn de ladingen uit Tabel 18.8, waarbij de items over extraversie dus met name (positief of negatief) laden op de geroteerde component 1 (RC1) en de items over openheid op de geroteerde component 2 (RC2).

Figuur 18.5: Factorladingen na rotatie.

18.3.11 Rotatie bij gecorreleerde componenten

Rotatie is primair een hulpmiddel om de interpretatie van de componenten te vergemakkelijken. Rotatie leidt niet tot een betere voorspelling.

De varimax-rotatie is niet de enige rotatie die we kunnen toepassen. Varimax is een zogenaamde ‘orthogonale’ rotatie. Orthogonaal betekent onafhankelijk. Eerder legden we uit dat bij PCA de componenten altijd ongecorreleerd zijn. In de plotjes met de factorladingen wordt die orthogonaliteit gerepresenteerd door de hoek van \(90\circ\) tussen de assen. Deze assen representeren de twee componenten (de paarse lijn is PC1 of RC1 en de groene lijn is PC2 of RC2). Ook na rotatie bleef deze hoek \(90\circ\), wat correspondeert met een correlatie van \(0\).

Als extraversie en openheid samenhangen is een ‘nonorthogonale’ rotatie beter. Deze worden vaak oblique rotaties genoemd. Er bestaan meerdere soorten, maar in de meeste situaties wordt de oblimin-rotatie gebruikt.

18.3.12 De covariantiematrix reproduceren

Het roteren heeft geen invloed op hoe goed we de oorspronkelijke covariantiematrix (of correlatiematrix) kunnen reproduceren. Dit kun je zien aan de residuen: de verschillen tussen de oorspronkelijk geobserveerde covarianties en de gereproduceerde covarianties. In Tabel 18.9 staan de residuen van het model met twee componenten zonder rotatie.

Tabel 18.9: De residuen na het reproduceren van de covariantiematrix (in dit geval de correlatiematrix) met twee componenten, zonder rotatie.
	O1	O2	O3	O4	O5	E1	E2	E3	E4	E5
O1	0.50	0.16	-0.11	-0.13	0.15	0.01	0.01	-0.04	-0.01	0.00
O2	0.16	0.77	0.08	0.13	-0.07	0.05	0.06	0.23	0.01	0.02
O3	-0.11	0.08	0.41	-0.11	0.10	0.00	0.00	0.00	-0.07	-0.13
O4	-0.13	0.13	-0.11	0.49	0.17	-0.06	0.01	0.11	0.15	0.01
O5	0.15	-0.07	0.10	0.17	0.52	0.05	0.04	0.09	0.00	0.06
E1	0.01	0.05	0.00	-0.06	0.05	0.42	-0.08	0.12	0.10	0.16
E2	0.01	0.06	0.00	0.01	0.04	-0.08	0.35	0.14	0.12	0.09
E3	-0.04	0.23	0.00	0.11	0.09	0.12	0.14	0.54	-0.05	-0.04
E4	-0.01	0.01	-0.07	0.15	0.00	0.10	0.12	-0.05	0.45	-0.10
E5	0.00	0.02	-0.13	0.01	0.06	0.16	0.09	-0.04	-0.10	0.56

In Tabel 18.10 staan de residuen van het model na varimax-rotatie. Deze residuen zijn hetzelfde. De rotatie verandert namelijk alleen hoe de beide componenten zijn samengesteld. Sommige items worden na rotatie wat meer verklaard door de ene component en wat minder door de andere component, maar de totale proportie verklaarde variantie blijft gelijk.

Tabel 18.10: De residuen na het reproduceren van de covariantiematrix (in dit geval de correlatiematrix) met twee componenten, met varimax-rotatie.
	O1	O2	O3	O4	O5	E1	E2	E3	E4	E5
O1	0.50	0.16	-0.11	-0.13	0.15	0.01	0.01	-0.04	-0.01	0.00
O2	0.16	0.77	0.08	0.13	-0.07	0.05	0.06	0.23	0.01	0.02
O3	-0.11	0.08	0.41	-0.11	0.10	0.00	0.00	0.00	-0.07	-0.13
O4	-0.13	0.13	-0.11	0.49	0.17	-0.06	0.01	0.11	0.15	0.01
O5	0.15	-0.07	0.10	0.17	0.52	0.05	0.04	0.09	0.00	0.06
E1	0.01	0.05	0.00	-0.06	0.05	0.42	-0.08	0.12	0.10	0.16
E2	0.01	0.06	0.00	0.01	0.04	-0.08	0.35	0.14	0.12	0.09
E3	-0.04	0.23	0.00	0.11	0.09	0.12	0.14	0.54	-0.05	-0.04
E4	-0.01	0.01	-0.07	0.15	0.00	0.10	0.12	-0.05	0.45	-0.10
E5	0.00	0.02	-0.13	0.01	0.06	0.16	0.09	-0.04	-0.10	0.56

De residuen zijn ook weer een informatiebron die je kunnen helpen bij het bepalen van hoeveel componenten je wilt ‘trekken’, zoals dat heet. In de praktijk combineer je meerdere informatiebronnen. Na de paragraaf over exploratieve factoranalyse (EFA) komen we hier op terug.

18.3.13 Puntschattingen en betrouwbaarheidsintervallen

Het is belangrijk om altijd te onthouden dat de oorspronkelijk geobserveerde correlatiematrix of covariantiematrix is berekend op basis van data uit een steekproef. Die correlaties of covarianties (en varianties) zijn dus in elke steekproef anders.

Zoals altijd is het daarom ook bij PCA (en bij EFA, zie de volgende paragraaf) belangrijk om geen conclusies te baseren op puntschattingen. Puntschattingen (zoals de specifieke correlatie, eigenwaarde, lading of proportie verklaarde variantie uit een gegeven steekproef) bestaan voor een deel uit meetfout, steekproeftoeval en andere vormen van ruis. Soms maar een klein beetje, maar soms fors.

En zoals altijd is het daarom ook bij PCA (en EFA) belangrijk om een indruk te krijgen van hoe accuraat de schattingen zijn. Dit kan met betrouwbaarheidsintervallen. In Figuur 18.6 is een scattermatrix te zien met de 95%-betrouwbaarheidsintervallen van de oorspronkelijk geobserveerde correlaties.

Figuur 18.6: Een scattermatrix voor de vijf items over openheid en de vijf items over extraversies.

Als we de residuen uit Tabel 18.10 vergelijken met deze betrouwbaarheidsintervallen, is duidelijk te zien dat de residuen erg klein zijn in vergelijking met de ruis die in de meting van deze correlaties zit. De geobserveerde correlaties zouden in de populatie zomaar \(r=.1\) hoger of lager kunnen zijn. Sommige betrouwbaarheidsintervallen hebben zelfs een totale breedte van meer dan \(r=.3\), waardoor die correlaties in de populatie zelfs \(r=.15\) hoger of lager zouden kunnen zijn.

Vanuit dit perspectief zijn de residuen vrij klein: de afwijking tussen onze gereproduceerde en geobserveerde correlatiematrix is in dezelfde orde van grootte, of zelfs kleiner, dan de afwijkingen die we sowieso kunnen verwachten in een nieuwe steekproef.

De breedte van deze betrouwbaarheidsintervallen hangt af van de omvang van de steekproef. De huidige steekproef bevat \(223\) deelnemers. Als de steekproef groter was geweest, hadden we de correlaties accurater kunnen schatten en waren de betrouwbaarheidsintervallen nauwer geweest.

Niet alleen de correlaties variëren van steekproef tot steekproef. De hele PCA is gebaseerd op die correlatie- of covariantiematrix. Omdat deze in elke steekproef anders is, zijn ook de eigenwaarden, componenten, ladingen en al het andere wat je uit een PCA (of EFA) berekent in elke steekproef weer anders.

Om dit te illustreren staan in Tabel 18.11 de ladingen voor drie verschillende PCAs gebaseerd op drie nieuwe steekproeven met dezelfde omvang, die we gemakshalve Twee, Drie en Vier noemen.

Tabel 18.11: Ladingen in drie andere steekproeven (Twee, Drie en Vier).
	Twee, PC1	Twee, PC2	Drie, PC1	Drie, PC2	Vier, PC1	Vier, PC2
O1	0.16	0.62	0.31	0.52	0.17	0.67
O2	-0.13	-0.47	0.06	-0.63	0.03	-0.73
O3	0.33	0.73	0.28	0.73	0.40	0.66
O4	-0.28	0.52	-0.30	0.54	-0.35	0.42
O5	-0.01	-0.70	-0.02	-0.66	-0.11	-0.64
E1	-0.66	-0.11	-0.62	0.10	-0.72	-0.10
E2	-0.78	-0.14	-0.74	-0.01	-0.82	0.02
E3	0.57	0.52	0.67	0.31	0.65	0.19
E4	0.72	-0.11	0.76	-0.10	0.77	0.00
E5	0.65	0.18	0.61	0.29	0.55	0.35

Hier is duidelijk te zien hoeveel de ladingen kunnen variëren van steekproef tot steekproef. Zo is bijvoorbeeld de lading van O1 op PC1 in steekproef Twee \(\lambda_{O1,PC1}=.16\), maar in steekproef Drie is deze \(\lambda_{O1,PC1}=.31\). En de lading van E3 op PC2 is \(\lambda_{E3,PC2}=.52\) in steekproef Twee, maar is \(\lambda_{E3,PC2}=.19\) in steekproef Vier.

Welke lading ‘waar’ is, kun je pas weten nadat je meerdere steekproeven hebt genomen. Als je maar één steekproef tot je beschikking hebt, is het daarom verstandig om je sceptisch op te stellen naar puntschattingen. Het is mogelijk om betrouwbaarheidsintervallen te berekenen voor ladingen, maar dit kan vooralsnog alleen met R en valt buiten het curriculum. Voor nu is de boodschap dus: vertrouw puntschattingen niet te veel en wees terughoudend met interpretatie.

18.4 Soorten en meetmodellen

Het doel van PCA is om met zo weinig mogelijk componenten een covariantiematrix zo goed mogelijk te kunnen reproduceren. Dat is vaak nuttig, maar bij onderzoek naar mensen is deze methode vaak niet juist. PCA neemt in feite aan dat alle items perfect zijn gemeten en dat er geen overlap is tussen de componenten onderling. Maar de responsen op items uit een vragenlijst bevatten meetfout. Bovendien meet elk item vaak een andere stukje psychologie, wat niet noodzakelijk meetfout is, maar ook geen deel uitmaakt van bijvoorbeeld extraversie of openheid. De variantie van elk item bestaat daardoor voor een nontriviaal deel uit variantie waar we helemaal niet in geïnteresseerd zijn.

In de psychologie en gerelateerde velden zoals onderwijswetenschappen of managementwetenschappen werken we meestal vanuit een model waarbij we juist wel samenhang tussen groepjes items verwachten. We hebben vaak een idee over constructen die stukjes psychologie beschrijven en we nemen aan dat die stukjes psychologie een causale rol spelen bij de responsen van de deelnemers. Om het verschil tussen wat PCA veronderstelt en wat meestal de uitgangsbasis binnen psychologisch onderzoek is beter te begrijpen, komen we hier terug op de soorten en meetmodellen uit het hoofdstuk Constructen.

PCA hoort bij het formatieve meetmodel. Hierbij veronderstel je geen natuurlijke soort en geen onderliggend psychologisch construct, maar construeer je een variabele om pragmatische redenen. Het construct dat volgt uit een PCA is dus een praktische soort, zonder enige verwachting over psychologische verbanden.

Als je psychologische constructen onderzoekt, veronderstel je vaak dat er een latent construct bestaat dat verantwoordelijk is voor de scores op de items en gebruik je dus meestal een reflectief meetmodel of een netwerk-meetmodel. In het geval van een reflectief meetmodel kun je in plaats van componentenanalyse factoranalyse gebruiken. Factoranalyse wordt hieronder verder besproken. Als je een netwerk-meetmodel hanteert, kun je ook geen factoranalyse gebruiken. Er bestaan wel methoden die bruikbaar zijn in deze situatie, maar deze vallen buiten het curriculum. In de laatste paragraaf van dit hoofdstuk wordt kort naar deze methoden verwezen.

18.5 Exploratieve factoranalyse (EFA)

Als je onderzoek doet naar mensen is een principale componentenanalyse dus meestal niet de beste keuze en voer je in plaats daarvan een exploratieve factoranalyse (EFA) uit. Deze analyse is iets ingewikkelder, maar nu we de PCA hebben uitgelegd kunnen we die extra stap wel maken.

18.5.1 Alleen communaliteiten

Als je veronderstelt dat de scores op items worden veroorzaakt door een of meerdere latente variabelen (zoals psychologische constructen), ga je uit van een reflectief meetmodel. Het reflectief meetmodel is geïllustreerd in het hoofdstuk Constructen.

Dit is echter een versimpelde figuur. De scores op items wordt namelijk niet uitsluitend bepaald door het construct waarin onderzoekers geïnteresseerd zijn, maar ook door allerlei andere zaken, zoals andere constructen, meetfout en andere bronnen van ruis. Figuur 18.7 is een meer volledige illustratie van het reflectief meetmodel.

Figuur 18.7: Een reflectief meetmodel.

De error-cirkels in de figuur representeren alle andere zaken die de meting van de scores op de items beïnvloeden buiten het psychologische construct zelf. Deze error-termen bestaan niet in PCA, omdat bij PCA wordt uitgegaan van een perfecte meting. Als er meetfout verondersteld werd, dan zou er in de PCA geprobeerd worden om rekening te houden met die ruis. Maar dat gebeurt niet. Het doel van PCA is slechts om de volledige covariantiematrix te reproduceren.

Exploratieve factoranalyse (EFA) houdt wel rekening met ruis. Hiervoor gebruikt EFA een heel slim trucje. In de correlatie- of covariantiematrix worden de varianties (dus de diagonaal in de matrix) vervangen door de communaliteiten. Vervolgens worden de factoren zo samengesteld dat ze de aangepaste correlatie- of covariantiematrix zo goed mogelijk kunnen reproduceren. Deze tweede stap is dus gelijk aan wat er gebeurt bij een PCA, alleen wordt er bij factoranalyse niet gesproken over componenten, maar over factoren.

Maar wat was ook alweer een communaliteit en hoe kom je daaraan? Zoals eerder in dit hoofdstuk beschreven is de communaliteit het deel van de variantie in een item dat wordt beschreven door de componenten (in PCA) of de factoren (in EFA). Het complement van de communaliteit is de uniciteit: de unieke variantie in het item. Binnen een reflectief meetmodel neem je aan dat de gedeelde variantie veroorzaakt wordt door de onderliggende factor of factoren: dat zijn de latente constructen. De uniciteit is dan dus de error. Hier ben je niet in geïnteresseerd en je wilt de factoren dus ook niet zo kiezen dat ze proberen om die error te verklaren.

De varianties van de items (of in het geval van de correlatiematrix, de gestandaardiseerde varianties die altijd \(1\) zijn) in de diagonaal van de correlatie- of covariantiematrix worden dus vervangen door dat deel van de variantie van elk item dat het deelt met de factoren. Hierdoor worden de factoren dus niet medebepaald door de error.

Maar hoe komen we nu aan die communaliteiten als de factoranalyse nog niet is uitgevoerd? De communaliteiten zijn namelijk een resultaat van de factoranalyse. De oplossing hiervoor is om uit te gaan van de proportie verklaarde variantie (\(R^2\)). \(R^2\) is het kwadraat van de zogenaamde multipele correlatie (\(R\)) en kan worden berekend met een regressieanalyse. Wanneer we een regressieanalyse uitvoeren met daarin het eerste item als afhankelijke variabele en alle andere items als voorspellers, dan volgt daaruit de proportie verklaarde variantie (\(R^2\)) in dat eerste item op basis van al die andere items.

De \(R^2\) is dus een schatting van hoeveel overlap er is tussen het eerste item enerzijds en alle andere items anderzijds. Omdat we binnen een reflectief meetmodel aannemen dat die overlappende variantie wordt veroorzaakt door een of meer onderliggende latente constructen, is die proportie verklaarde variantie (\(R^2\)) een goede schatting voor de communaliteit.

Voor elk item kunnen we dus een regressieanalyse uitvoeren waarbij telkens alle andere items de voorspellers zijn. De verkregen reeks aan \(R^2\)-schattingen kunnen we dan invullen op de diagonaal van de correlatiematrix. Als we een covariantiematrix willen analyseren, vermenigvuldigen we die \(R^2\) met de variantie van elk item. Dit doen we eigenlijk ook bij de correlatiematrix, maar omdat de variantie van elk item daar \(1\) is, komt dat erop neer dat we gewoon de \(R^2\) invullen.

Vervolgens voeren we de factoranalyse uit. De factoren worden zodanig gekozen dat de aangepaste correlatie- of covariantiematrix zo goed mogelijk kan worden gereproduceerd. Uit de factoranalyse verkrijgen we dan de communaliteiten. De waardes van die communaliteiten zijn afhankelijk van het aantal factoren dat we trekken. Omdat we altijd minder factoren trekken dan dat er items zijn, zijn de communaliteiten dus lager dan de totale \(R^2\).

Deze communaliteiten zijn dus een betere schatting van de gedeelde variantie van een item met de factoren. Daarom herhalen we de factoranalyse waarbij we nu de verkregen communaliteiten invullen. Daar komen dan weer iets bijgestelde communaliteiten uit. Die vullen we dan weer in en voeren nogmaals de factoranalyse uit. Dit proces herhalen we totdat de communaliteiten niet meer veranderen.

18.5.2 EFA met openheid en extraversie

Laten we de laatste analyse uit de paragraaf over PCA met de vijf items over openheid en de vijf items over extraversie herhalen met een EFA. We passen gelijk de varimax-rotatie toe en we trekken weer twee factoren.

Tabel 18.12: Factorladingen uit een EFA met vijf items over openheid en vijf items over extraversie, twee factoren, en een varimax-rotatie.
	MR1	MR2
O1	0.13	0.59
O2	-0.11	-0.33
O3	0.30	0.66
O4	-0.24	0.51
O5	-0.07	-0.56
E1	-0.68	0.01
E2	-0.76	-0.05
E3	0.53	0.26
E4	0.66	0.03
E5	0.52	0.24

De resultaten zijn iets anders dan de uitkomsten van de PCA doordat we nu rekening houden met het feit dat er meetfout in de items zit. Deze ladingen representeren dus beter hoe sterk de items en de twee factoren – die de latente constructen representeren – samenhangen. Deze factoren zijn gebaseerd op de aanname dat ze onafhankelijk (orthogonaal) zijn. Varimax is namelijk een orthogonale rotatie.

We kunnen deze strikte aanname ook laten varen, als het plausibel is dat de twee latente constructen met elkaar samenhangen. In dat geval moeten we een oblique rotatie toepassen: oblimin. De factorladingen die we dan verkrijgen staan in Tabel 18.13.

Tabel 18.13: Factorladingen uit een EFA met de vijf items over openheid en vijf items over extraversie, twee factoren, en een oblimin-rotatie.
	MR1	MR2
O1	0.04	0.60
O2	-0.05	-0.33
O3	0.19	0.65
O4	-0.33	0.54
O5	0.03	-0.57
E1	-0.69	0.05
E2	-0.76	0.00
E3	0.49	0.23
E4	0.66	-0.01
E5	0.49	0.21

Als de twee constructen waarvan we aannemen dat ze de scores op de items veroorzaken inderdaad met elkaar samenhangen, dan kloppen deze factorladingen nog weer beter dan die met de varimax-rotatie. We kunnen ook kijken hoe sterk de resulterende factoren correleren. In dit geval is dat \(r = .3\). Het lijkt er dus op dat oblimin inderdaad een betere rotatie is dan varimax. De factorladingen in Tabel 18.13 zijn dus de beste schatting van de samenhang tussen de items en de factoren.

Als de factoren oblique zijn geroteerd (en dus correleren) overlappen ze in het deel van de variantie dat ze van een item verklaren. Door die overlap is de proportie verklaarde variantie van de factor niet langer gelijk aan de som van de gekwadrateerde factorladingen ten opzichte van de totaal te verklaren variantie. Dit maakt verder niet uit.

18.6 Het aantal factoren kiezen

Net als bij andere wetenschappelijke methoden en statistische technieken, is een factoranalyse deels subjectief omdat er tijdens de analyse veel keuzes worden gemaakt.

Soms zijn dingen heel duidelijk. In ons geval is er wellicht een degelijke onderbouwing te geven voor drie factoren, en zeker voor twee factoren, maar waarschijnlijk niet voor een enkele factor of voor vier factoren. Het onderscheid tussen twee of drie factoren is al minder vanzelfsprekend en daarom is het belangrijk om alle informatiebronnen te combineren.

In dit hoofdstuk zijn de volgende informatiebronnen besproken:

het Kaiser-criterium
de screeplot
de residuele correlaties of covarianties
de theorie en interpretatie

Er bestaan nog andere criteria, die buiten het curriculum vallen, maar belangrijk zijn om over te leren als je ooit echt een factoranalyse uitvoeren. Deze zijn:

kijken naar de ‘fit’ door middel van \(\chi^2\)
parallelle analyse
het very simple structure (VSS) criterium
het minimum average partial (MAP) criterium

Hoe groter de steekproef, hoe accurater de correlaties geschat kunnen worden en hoe vaker deze criteria met elkaar overeen zullen stemmen; tenminste, als er inderdaad een bepaald aantal onderliggende factoren is.

18.7 Steekproefomvang voor factoranalyse

Als je exploratieve factoranalyse uitvoert om te onderzoeken welke factoren er zijn, zoals tijdens de ontwikkeling van een meetinstrument, is het moeilijk om te berekenen hoe groot de steekproef is die je nodig hebt. Dat komt omdat de benodigde steekproefomvang afhangt van meerdere dingen die je dan nog niet weet, zoals het aantal factoren, de lading van de items op ‘hun’ factor, en de correlatie tussen de factoren. De benodigde steekproefomvang verschilt voor de ontwikkeling van meetinstrumenten en voor de verificatie van de validiteit van al ontwikkelde meetinstrumenten.

18.7.1 Ontwikkeling van meetinstrumenten

De benodigde steekproefomvang is lager naarmate de communaliteiten hoger zijn, de factorladingen hoger zijn en er meer items per factor zijn (Kyriazos, 2018). Als je echt exploratief te werk gaat, weet je dit allemaal nog niet. Om die reden zijn steekproefomvangen die worden gesuggereerd voor factoranalyse vaak gebaseerd op vuistregels. In een boek van Comrey en Lee (1992) noemen ze bijvoorbeeld \(100\) deelnemers ‘slecht’, \(200\) ‘redelijk’, \(300\) ‘goed’, \(500\) ‘heel goed’ en \(1000\) of meer ‘uitstekend’.

Om meer grip te krijgen op wanneer nu precies hoeveel deelnemers nodig zijn, zijn simulaties uitgevoerd. Op basis daarvan zijn enkele suggesties gedaan (MacCallum et al., 1999). In het beste geval, als je zeker weet dat er maar enkele factoren zijn en de communaliteiten hoog zijn, kunnen \(100\) deelnemers volstaan (MacCallum et al., 1999). Dat is echter het meest optimistische scenario en daar kun je niet van uitgaan tijdens de ontwikkeling van een meetinstrument.

Je moet er rekening mee houden dat de communaliteiten lager zijn en het aantal factoren hoger. Als de communaliteiten rond de \(.5\) liggen zijn \(100-200\) deelnemers voldoende, maar alleen als je zeker weet dat er maar weinig factoren zijn waar alle items op laden. Als de communaliteiten lager liggen en er bovendien voor elke factor een paar (\(3-4\)) items zijn die er hoog op laden, dan zijn er minstens \(300\) deelnemers nodig. Als je er niet van uit kunt gaan dat er maar weinig factoren zijn, of dat er sowieso een aantal hoog ladende items per factor zijn, dan kan het verstandig zijn om minstens \(500\) deelnemers te werven.

MacCullum et al. (1999) suggereren daarom om een zo groot mogelijke steekproef te werven bij de ontwikkeling van meetinstrumenten. Ze suggereren verder om de items te beperken tot items die theoretisch relatief dicht bij elkaar liggen. Het ontwikkelen van meetinstrumenten die meerdere constructen combineren vereist meer deelnemers dan wanneer een meetinstrument slechts één construct meet.

Een richtlijn hierbij is ook het aantal deelnemers dat nodig is voordat een correlatie stabiliseert. Zoals in het hoofdstuk Power voor correlaties wordt besproken, zijn er ongeveer \(400\) deelnemers nodig om een lage correlatie (\(r \approx .1\)) te schatten met een \(95\%\)-betrouwbaarheidsinterval met een totale breedte van ongeveer \(.2\). Om een stabielere schatting te krijgen met een \(95\%\)-betrouwbaarheidsinterval met een maximale totale breedte van \(.1\), zijn \(1000\) deelnemers nodig bij een minimale correlatie van \(r \approx .4\) en zijn meer deelnemers nodig om lagere correlaties accuraat te schatten.

Dat er zoveel deelnemers nodig zijn voordat je er op kunt vertrouwen dat correlaties van steekproef tot steekproef ongeveer dezelfde waarde krijgen, verklaart deels waarom er zoveel deelnemers nodig zijn voor factoranalyse. Uiteindelijk is factoranalyse een manier om naar correlatiematrices te kijken.

Als de variabelen dichotoom zijn, zijn de benodigde steekproeven overigens nog groter (Pearson & Mundform, 2010). Dit geldt altijd als er minder meetwaarden zijn, omdat er informatie over variantie verloren gaat.

18.7.2 Verificatie van validiteit

Als een meetinstrument al is ontwikkeld, is de situatie anders. De items zijn dan al geselecteerd op basis van onder andere hun communaliteit en factorladingen. Bovendien zijn die bekend uit de eerdere analyses. Dat betekent dat het niet langer nodig is om in de steekproefomvang rekening te houden met tegenvallende (lage) communaliteiten of meer factoren dan verwacht.

Dit betekent dat vaak kleinere steekproeven zullen volstaan en bovendien dat de ontwikkelaars van het meetinstrument hebben kunnen specificeren hoeveel deelnemers nodig zijn. De richtlijnen die zij geven kun je volgen. Als er geen richtlijnen gegeven zijn, dan weet je in elk geval alvast hoeveel factoren er zijn en hoe hoog de factorladingen en communaliteiten zijn, zodat je kunt opzoeken hoeveel deelnemers je ongeveer nodig hebt.

Soms werven onderzoekers die een meetinstrument ontwikkelen te weinig deelnemers tijdens het ontwikkelings- en validatieonderzoek. In dat geval kan het zijn dat je de gerapporteerde factoren, factorladingen en communaliteiten minder vertrouwt. In zo’n geval is het niet duidelijk wat afwijkende resultaten betekenen. Als bijvoorbeeld de oorspronkelijke onderzoekers een steekproef van slechts \(200\) deelnemers hadden, dan kan het goed zijn dat de factorstructuur die zij vonden in hun steekproef minder representatief is voor de factorstructuur in de populatie dan de factorstructuur in jouw steekproef.

Afwijkende resultaten kunnen dan dus een manifestatie zijn van steekproef- of meetfout in de steekproef van de oorspronkelijke onderzoekers, maar kunnen ook een indicatie zijn dat het meetinstrument niet valide is toegepast in jouw huidige steekproef. Hier is dan niet goed uitsluitsel over te krijgen. Het kan dus verstandig zijn om meetinstrumenten die zijn gevalideerd met onvoldoende grote steekproeven niet te gebruiken.

18.8 Confirmatieve factoranalyse (CFA)

Exploratieve factoranalyse is de aangewezen methode in exploratief onderzoek wanneer de onderzoeker nog niet weet welke factoren te verwachten zijn. Vaak zijn daar wel al ideeën over. In dat geval is confirmatieve factoranalyse (CFA) een goede methode. Exploratieve factoranalyse (EFA) wordt dus gebruikt voor het ontdekken van clusters van items, als er nog geen theoretische indeling bekend is, terwijl confirmatieve factoranalyse (CFA) is bedoeld om een bestaande theoretische groepering van variabelen (items) te toetsen of te valideren.

In CFA specificeer je hoeveel factoren er zijn en welke items onder welke factor vallen. Die items laden vervolgens alleen op de factor waar ze bij horen. Alle variantie die ze niet delen met die ene factor wordt beschouwd als ruis (error). De factoren mogen onderling met elkaar correleren in CFA, maar ook ongecorreleerd zijn. In Figuur 18.8 staat een voorbeeld van een CFA model met twee factoren.

Figuur 18.8: Voorbeeld van een CFA model met 2 factoren.

Een CFA model kent een aantal parameters die geschat moeten worden, afhankelijk hoe het model door de onderzoeker wordt gespecificeerd. Dit zijn meestal de factorladingen, die in de figuur worden gerepresenteerd door de pijlen van de factoren naar de items met labels \(a1\) tot en met \(a6\); en soms ook de correlatie(s) tussen de factoren en altijd de varianties van de errortermen.

Op basis van de parameterschattingen van een factormodel kunnen de covarianties en correlaties worden berekend (gereproduceerd).De relaties tussen de parameterschattingen en de gereproduceerde correlaties werkt als volgt:

De gereproduceerde correlatie tussen twee variabelen van eenzelfde factor kan worden berekend door het product te nemen van de gestandaardiseerde ladingen, bijvoorbeeld: de door het model gereproduceerde correlatie tussen item \(3\) en item \(4\) = \(a3 \times a4\).
Bij de gereproduceerde correlatie van twee variabelen van verschillende factoren dient ook de correlatie tussen de factoren betrokken te worden betrokken, bijvoorbeeld: de door het model gereproduceerde correlatie tussen item \(1\) en item \(5\) = \(a1 \times r12 \times a5\).

Dit soort berekeningen wordt omschreven als ‘een doorvermenigvuldiging van padcoëfficiënten’.

CFA is heel geschikt om verschillende modellen te vergelijken, meestal om te onderzoeken hoeveel factoren er nodig om de data (covariantiematrix) te beschrijven, maar ook om te zien of een item wel echt op de veronderstelde factor laadt. Doordat er standaard een serie zogenaamde ‘fit indices’ worden gegenereerd, heb je veel hulpmiddelen om te vergelijken hoe goed de verschillende modellen de covariantiematrix kunnen reproduceren.

18.8.1 Goodness-of-Fit Indices

De kwaliteit van een CFA model kan worden onderzocht met zogenoemde fit indices. De meest basale fit index is de Generalized Likelihood Ratio \(G^2\), vaak aangeduid als de Pearson chi-kwadraat (\(\chi^2\)) statistiek. Vanwege de overgevoeligheid van de \(\chi^2\) statistiek voor de steekproefgrootte zijn vele alternatieve maten bedacht. Ze zijn allemaal bedoeld om een (globale) indruk te krijgen van de kwaliteit van het onderzochte model.

Met de Pearson chi-kwadraat (\(\chi^2\)) statistiek wordt de \(H_0\) hypothese getoetst of alle residuele covarianties gelijk zijn aan nul. Als het model de covarianties perfect voorspelt is de \(\chi^2\) waarde gelijk aan nul. Indien de residuen groot zijn, zal de \(\chi^2\) waarde navenant groot zijn. Dit zal bij het overschrijden van een van tevoren vastgestelde kritieke grens, leiden tot het verwerpen van de \(H_0\) hypothese. Het aantal vrijheidsgraden van de toets is gelijk aan \(df = 1⁄2q(q+1) – t\), waarbij \(q\) het aantal geobserveerde variabelen voorstelt en \(t\) het aantal vrije parameters.

De Chi-kwadraat test is bekritiseerd vanwege de gevoeligheid voor steekproefgrootte; modellen met grote \(N\) leiden meestal tot hoge \(\chi^2\) waarden en dus tot verwerping van de \(H_0\) hypothese. Daarnaast wordt de Chi-kwadraat test als te streng beschouwd, omdat het veronderstelde model vergeleken wordt met een ‘perfect’ passend model, waarin alle residuen gelijk zijn aan nul. Een model met veel absolute residuen kleiner dan \(0.05\) kan natuurlijk nog steeds bruikbaar zijn, ook al zijn alle residuen groter dan nul. Vanwege deze kritiek zijn alternatieve maten bedacht. Eén van die maten is de relatieve chi-kwadraat \(\chi^2/df\). Door sommige auteurs wordt als vuistregel een grens van \(\chi^2/df < 2\) aangehouden voor adequate fit, terwijl andere auteurs een ratio van \(5\) nog acceptabel vinden.

Incrementele fitmaten zijn maten die aangeven hoeveel beter de fit is van het onderzochte model in vergelijking met een baseline model of nulmodel. In de context van CFA kunnen we ons zo’n baseline model voorstellen als een model met net zoveel perfect ‘orthogonale’ factoren als er variabelen zijn, waarbij elke variabele zonder meetfout gemeten is. Omdat de ‘gereproduceerde’ inter-itemcorrelaties van het baseline CFA-model allemaal gelijk zijn aan nul, is de \(\chi^2\) fit index altijd slechter (i.e., groter) dan van een model met minder factoren.

Er zijn twee belangrijke incrementele fit-indices: de Comparative Fit Index (CFI) en de Tucker Lewis Index (TLI). Beide indices verdisconteren de proportionele verbetering van het onderzochte model ten opzichte van het baseline model, en houden daarbij rekening met het aantal vrijheidsgraden. De waarden van de CFI en de TLI vallen hoger uit voor zogenoemde ‘spaarzame of eenvoudige modellen’; dat zijn modellen met weinig vrije parameters en dus veel vrijheidsgraden. Neem bijvoorbeeld een twee-factoren model met exact eenzelfde \(\chi^2\) waarde als een één-factor model (gebaseerd op dezelfde items), dan zal het meest zuinige model de hogere CFI en hogere TLI vertonen. Dit ‘bevoordelen’ van zuinige modellen past natuurlijk goed bij het idee van modelleren met CFA waarbij we met zo min mogelijk factoren (nog steeds) adequaat de geobserveerde covarianties kunnen reproduceren.

De meningen over wat een acceptabele waarde voor de CFI of TLI is, zijn verdeeld. Sommige auteurs menen dat ze minstens \(0.95\) moeten zijn, anderen noemen een ondergrens van \(0.90\).

De ‘Root Mean Square Error of Approximation’ (RMSEA) geeft een schatting van de ‘badness-of-fit’ van een model in vergelijking met een perfect (verzadigd) model. Met name de RMSEA waarden van zuinige modellen vallen daarbij (gunstig) laag uit. In de literatuur wordt een RMSEA waarde kleiner dan \(0.06\) als goed beschouwd, waarden tussen de \(0.08\) en \(0.10\) als middelmatig, en waarden boven \(0.10\) als slecht. Naast de puntschatting van de RMSEA is er ook een intervalschatting (bijvoorbeeld een \(90\%\) betrouwbaarheidsinterval). De RMSEA is een populaire maat en wordt bijna in alle artikelen over CFA gerapporteerd.

De ‘Standardized Root Mean Square Residual’ (SRMR) is misschien wel de meest inzichtelijk maat, omdat deze direct is afgeleid uit de residuele correlatiematrix. De Engelse naamgeving geeft trouwens precies aan wat de maat voorstelt: de wortel uit het gemiddelde van de gekwadrateerde ‘residuele correlaties’. Vaak wordt een vuistregel gehanteerd van SRMR kleinder dan \(.08\) voor een acceptabele fit, hetgeen wil zeggen dat dan de residuele correlaties gemiddeld genomen acceptabel klein zijn.

18.8.2 Het verschil tussen modellen toetsen

CFA modellen kunnen worden vergeleken door hun verschil in \(\chi^2\) waarden te toetsen. Met de ‘chi-kwadraat verschiltoets’ (\(\delta\chi^2\)) kan worden nagegaan of een model aanmerkelijk beter past (d.w.z. een substantiële lagere \(\chi^2\) waarde heeft) dan de alternatieve modellen, rekening houdend met het verschil in het aantal geschatte parameters. Dit verschil in geschatte parameters vormt het aantal vrijheidsgraden van de chi-kwadraat verschiltoets. Deze toets kan worden gedaan bij modellen die genest zijn, wat betekent dat het ene model kan worden verkregen uit het andere model door parameters weg te laten of te fixeren op een bepaalde waarde (dus niet te schatten).

Referenties

Abdi, H. (2003). Factor rotations in factor analyses. Encyclopedia for Research Methods for the Social Sciences. Sage: Thousand Oaks, CA, 792–795.

Kyriazos, T. A. (2018). Applied Psychometrics: Sample Size and Sample Power Considerations in Factor Analysis (EFA, CFA) and SEM in General. Psychology, 09(08), 2207–2230. https://doi.org/ggcvgs

MacCallum, R. C., Widaman, K. F., Zhang, S., & Hong, S. (1999). Sample size in factor analysis. Psychological Methods, 4(1), 84. https://doi.org/bhr39c

Pearson, R. H., & Mundform, D. J. (2010). Recommended Sample Size for Conducting Exploratory Factor Analysis on Dichotomous Data. Journal of Modern Applied Statistical Methods, 9(2), 359–368. https://doi.org/c7dn