Hi Leute,
der Ausgewogenheit halber möchte ich einge Dinge kommentieren, die mich etwas bei alle diesen Faktorenanalyse-Diskussionen
umtreiben
Grundsätzlich sollte man immer bedenken, dass die Faktorenanalyse einer bestimmten Tradition entspricht,
die v.a. Psychologen gepflegt wird (common factor model). Die (einseitige) Sicht des common factor models ist schlicht, dass
*mehreren* items ein Faktor zugrundeliegt - bzw. der Faktor die gemeinsame Varianz ist. Dieser Tradition entsprechen genauso
die Daumenregeln, die von Kopernikus zitiert werden.
Diese Tradition ist meist eher von konstruktivistischen Vorstellungen geprägt (Reduktion von Daten zu "interpretierbaren" Faktoren),
als von realistischen (Faktoren als latente Entitäten, die item - Antwort *verursachen*).
Diese Tradition führt allerdings zu Scheuklappen, weil Leute oft denken, dass theoretisch interessante Faktoren überhaupt erst existent werden,
wenn man auch mehrere Items hat. Was, wenn man im Datensatz unter anderen x items hat, die x Faktoren messen (d.h. jedes item misst
einen eigenen Faktor?? Diese können schlichtweg nicht identifiziert werden. Schmeißt man diese items dann raus, führt das gleich mit zum
Ausschluss der (vielleicht inhaltlich sehr interessanten) Faktoren.
Ein weiteres Problem: Wenn die x Faktoren korreliert sind, korrelieren die items. Dies führt vielleicht dazu, dass die x items dann auf einem
Faktor laden, der gar nicht exisistiert.
D.h. Die Gleichsetzung von "Kovarianz = Faktor" führt dazu, dass man a) unsinnige Faktoren findet, z.B. wenn die Kovarianz der items durch andere
Gründe entstanden ist, als durch einen *gemeinsamen* Faktor. Die Korrelation der x Faktoren war ein Beispiel. Genauso plausibel sind Effekte
der items aufeinander (Anker-Effekte, Kontext-Effekte etc.), wie sie in der kognitiven Survey - Forschung (z.B. Sudman et al., 1996)
nachgewiesen sind. Sie führt b) dazu, dass einem Faktoren durch die Lappen gehen, weil items nur einen einzigen Faktor messen (und
somit keine durch einen einzigen Faktor bedingte Kovarianz existiert).
Ich kann Euch mit fehlgeschlagenen konfirmatorischen Faktorenanalysen zuwerfen, deren Re-Spezifikationen im Sinne von gemischten
multi- und single-indicator-Modellen sauber fitten und (plötzlich) Sinn machen. Oft sieht man den items förmlich an, welche den selben
Faktor messen, und welche nicht. Meiner Erfahrung nach kommt das sehr häufig vor. Blind items zu konstruieren und dann zu hoffen, dass
ein Programm die korrekten Faktoren identifiziert, ist vor diesem Hintergrund nicht immer möglich.
Oft erlebe ich sogar, dass bei der Entwicklung der items ja gerade auf die maximale Diskriminant/inhaltliche Einzigartigkeit items
geachtet wurde - und nun versucht man mit der Faktorenanalyse, einen oder mehrere Faktoren als gemeinsame Ursachen zu identifizieren.
Vor diesem Hintergrund gibt es allerdings Entwicklungen (TETRAD, Scheines et al., 1998, Landsheer, 2010), die flexibler sind
und non-common-factor-Modelle berücksichtigen. Ich kenn mich leider noch nicht sehr damit aus, das klingt aber sehr vielversprechend.
Des weiteren finde ich diese Daumenregeln (wie eigentlich alle
) nicht plausibel. Wenn ich ein item "ich bin zufrieden mit meiner Arbeit" habe und
ich finde eine Ladung von .6 auf dem Faktor "Arbeitszufriedenheit", dann ist das für mich ein Beleg von mangelnder Validität. D.h. die Höhe akzeptabler
Ladungen hängt von dem Wissen um das Funktionieren des jeweiligen items (Stichwort cognitive interviewing, Willis, 2005) und der *genauen* und
*spezfiischen* Vorstellung/Interpretation des Faktors (versus "der domain", "des Themas") ab. Wobei wir wieder bei der konstruktivistischen vs.
realistischen Interpretation angelangt wären.
Ein Faktor ist demnach stark, wenn das item, dass ihn messen soll auf ihn lädt in einer Höhe, wie sie nahelegt, dass es auch der Faktor ist. Wenn das
nur 2 items sind, ist mir das lieber, als >5 sprachlich heterogene items, die mit .6-.7 auf ihn laden.
Just my 2p. Ich hoffe, dass ist nicht allzu abstraktes Geschwafel
Grüße
Holger
Landsheer, J.A. (2010). The specification of causal models with Tetrad IV: a review. Structural Equation Modeling, 17(4), 703-711.
Scheines, R., Spirtes, P., Glymour, C., Meek, C., & Richardson, T. (1998). The TETRAD project: Constraint based aids to causal model specification. Multivariate Behavioral Research, 33(1), 65-117.
Sudman, S., Bradburn, N. M., & Schwarz, N. (1996). Thinking about answers. San Fransciso: Jossey-Bass Publishers.
Willis, G. B. (2005). Cognitive interviewing: A tool for Improving questionnaire design. Thousand Oaks, CA: Sage.