Hi,
ich verstehe, wenn du keine Grundsatzdiskussion möcht. Da ja aber all diese posts von vielen Leuten gelesen werde, erlaube mir dennoch,
meine Haltung zu erklären, weil in dem, was du in den ersten beiden Absätzen schreibst, deutlich wird, dass a) wir gar nicht so weit auseinander liegen, b) ich falsch verstanden werde ("strenge Auffassung" und c) du leider manchen Misskonzeptionen aus der Literatur erliegst.
Ich sehe - wie anscheinend ebenso wie du - die Adäquatheit von Modellen als höchstes Ziel von SEM an. Die Frage ist nur, (1) was ist "adäquat" und (2) wie schätzt man das ein?
Zu (1) Für mich ist ein Modell adäquat, a) wenn die latenten Variablen in den Messmodell tatsächlich existieren und auch die Bedeutung haben, die wir ihnen theoretisch zuschreiben. Dies ist das, was die Messmodelle leisten müssen. Fehlspezifizierte/nicht-fittende Messmodelle können triviale Misspezifikationen enthalten (z.B. ein item, das falsch lädt), oder sie können fundamental falsch sein (die items messen keinen gemeinsamen Faktor - und der modellierte ist völlig artifiziell. Stell dir eine UV-AV-Beziehung vor, die als ein gemeinsamer Faktor modelliert wird. Dieser Faktor ist völliger Humbug und folglich alles, was an ihm dranhängt. Ich gehe davon aus, wir stimmen darin überein, dass Fall 2 "nicht-adäquat", sondern ein schlichtes wissenschaftliches Desaster wäre.
Das Strukturmodell ist adäquat, wenn die Effekte, die die Variablen tatsächlich haben, auch geschätzt werden und ihre Parameterschätzung auch den unverzerrten Effekt angeben, und die nicht-vorliegenden fixiert sind. Ersteres ist dann der Fall, wenn die UVn exogen sind (keine Messfehler, keine reverse causation oder Simultanität, keine ausgeschlossenen Drittvariablen oder Kovariate).
Auch hier gehe ich von Deiner Zustimmung aus.
Daher kommen wir dazu, wie wir "Adäquatheit" einschätzen. Und hier ist das fundamentale Problem, dass die Fitindizes (GFI) das nicht können. Was die GFI machen, ist den Abstand der empirischen Kovarianzmatrix und der modellimpliziten zu quantifizieren. ABER: Es ist falsch, diesen Abstand als "Ausmaß der Adäquatheit" zu interpretieren (im Sinne von "ja besser der GFI, desto adäquater das Modell), da völlig inadäquate Modelle dennoch gute GFI haben können (und in vielen Fällen haben). Das einzige, was wir also tun sollten als seriöse Wissenschaftler ist, *jedes über den Zufall hinausgehende Indiz* im Rahmen einer Kontra-Evidenz gegen das Modell ernst zu nehmen und zu untersuchen. Oft werden wir eine Lösung/Erklärung finden (und sehr viel lernen!), oft nicht - dann sollte zumindest Zweifel und weitere Forschung angebracht sein. Und: die Misspezifikation kann trivial sein (und das Modell immer noch adäquat) oder fundamental. Das weiß man nicht. Bei der Heterogenität der Itemformulierungen in den üblichen Skalen ist m.E. Zweiteres der Fall. Und damit ist/könnte alles, was an der Pseudo-latenten Variable dranhängt - ebenso völliger Murks sein (man mag gar nicht an die praktischen Implikationen denken).
Selbst wenn es keine Kontra-Evidenz gibt, bleibt in den meisten Fällen, dass wir die Adäquatheit des Modell nie abschließend verifizieren können, da viele Misspezifikationen sich nicht in einem misfit äußern werden (z.B. Endogenität der UVn). Daraus folgt: Der Sinn des Vorgehens beim SEM ist nicht, die Parameter naiv kausal zu interpretieren (wie du korrekt kritisierst), sondern zu TESTEN, ob unsere Annahmen korrekt sind. Schlägt der Test fehl, dann gibt es *irgendwas* in dem Modell, was problematisch ist und über den Zufall hinausgeht (und was wie gesagt trivial oder problematisch sein kann). Ist der Test erfolgreich, haben wir zumindest keine Kontra-Evidenz. Dies entspricht im übrigen dem klassischen hypothetico-deductivo-Ansatz, nach dem man Hypothesen zurückweisen, stärken aber nicht verifizieren kann. Im Rahmen des SEM müssen dann die Parameter im Rahmen einer "wenn-dann" - Sichtweise interpretiert werden: Wenn das Modell richtig ist (d.h. alle free/fixed Effects da sind wo sie sein sollen UND die UVs exogen sind) - dann steht der Parameter XY für den kausalen Effekt
Jede weitere Aktivität, die Evidenz/den support für diese Interpretation zu erhöhen, stärkt das Modell (z.B. Einbezug von Instrumentalvariablen, womit ich mich derzeit sehr beschäftige).
Zwei Misskonzeptionen Deinerseits m.E.
a) Es geht nicht darum, latente Variablen "exakt zu beschreiben" oder zu messen. Im Rahmen des Messmodells können Messfehler modelliert werden (siehe der Artikel von Hayduk - bitte lies den

). Messfehler führen zu keinem misfit und latente Variablen haben ja gerade den Vorteil, dass sie messfehlerfrei sind. Was zu misfit führt, sind Fehler in der Struktur.
b) Die power des chi2-Tests wird oft angesehen als ein Problem, dass grundsätzlich zu sign. misfit führt (d.h. ein Modell kann gar ncht fitten). Das ist falsch. Ein korrektes Modell wird keinen sign. misfit bekommen, egal bei welchem N. Die Formel für den Chi2 ist FF * N-1. FF ist der Minimal-Wert der ML fitting function - die sample size gewichtet ihn. Für korrekte Modelle ist FF 0. Die Höhe des N führt zu weniger Stichprobenfehler. Abweichungen der beiden Kovarianzmatrizen geben daher reliabler systematische Unstimmigkeiten wieder. Nicht mehr, nicht weniger. Wie oben ausgeführt, muss das nichts Schlimmes bedeuten (kann aber), und man sollte das Modell auch nicht killen (oder sich). Das schreib ich extra, weil dies oft so empfunden wird.
Und auch wenn du nur Korrelationen zwischen deinen LVn testen möchtest, spezifizierst und testest du ein Kausalmodell (weil es *latente* Variablen sind und du eine kausale Struktur brauchst, um sie mit beobachteten Variablen zu verknüpfen.
Sorry, wenn du das gar nicht lesen möchtest (vielleicht ist es für andere Leser hilfreich). Aber mir liegt diese Sache am Herzen. Die gängige Praxis ist, irgend ein Modell zu machen (das meist eine schlechte Übertragung aus der Theorie darstellt), es nicht richtig zu testen und Alarmsignale nicht ernst zu nehmen, dann die Parameter kausal zu interpretieren - aber mit einem einem "ich nehm das ja eh nich so ernst, weil SEM ja eh nur Querschnits-Rumkorreliererei ist). So kann man sich (und die Disziplin gegen Lernen immunisieren).
Jetzt zu Deinen Antworten

Vielleicht ist "etabliert" ein schlechtes Wort. Ich kann mich bei diesen Skalen jedoch nur auf Forschungsergebnisse verlassen, die (teilweise jahrzehntelang) immer wieder geprüft und revidiert werden. Ich muss mich an diesen Stellen auf die Güte dieser Instrumente verlassen.
Sind diese Skalen in einer CFA *wirklich* getestet worden? Ich nehme an nicht. Von da aus sind auch "jahrzehntelange" erneute Überprüfungen kein Beleg. Nimm die Big-Five-Skalen: Die sind 10.000fach in Studien benutzt worden.
DU bist gefragt als Theoretiker. Konzeptualisiere DEIN Verständnis von der/den latenten Variablen, wie sie dir vorschwebt und wähle gezielt diejenigen items aus, die diese LVn reflektieren sollten.
Ich kann dir gerne per Mail einen blinden Datensatz zu kommen lassen, bei dem die o.g. 4 LVs je fünf Items im Sinne des chi^2 - Tests exakt fitten. Aber ich denke, deine Aussage war auch nicht so pauschal gemeint.
Brauchst du nicht - ich glaub es dir gerne. Ich kann nur aus meiner Erfahrung als Betreuer/Berater von 100en anderer Arbeiten, bestimmt hunderten eigenen CFAs und eben 99% der publizierten (von mir gelesenen Artikel) ausgehen. Einmal hatte ich einen Projektdatensatz, in dem "etablierte" Skalen (bestimmt 50) waren. Ich hab immer nur Einfaktormodelle gemacht (also wirklich fit-förderliche Dinge

). KEINE einzige hat auch nur annähernd funktioniert. Der Grund ist schlicht, dass Skalenentwicklungen oft andere theoretische Vorstellungen zugrunde liegen (als das common-factor / latente Variablen) - Modell (z.B. Indizes, Aggragte, domain sampling).
Zu der Itemanzahl "fünf": Ich habe teilweise (nicht bei allen Skalen) überhaupt keine Bedenken, die Zahl der Items zu beschränken. Da ich mich in der Planung befinde, war das ein grober "Richtwert

Ist doch vollkommen ok. Die meisten Leute glauben nur, sie müssen viele Items nehmen, sonst passiert irgendwas (z.B. dass die latente Variable sich verändert, wenn items rausgenommen werden).
Das würde ich nur bei den Skalen tun, deren Faktorenstruktur hinreichend (s.o.) überprüft wurde.
Ja, aber wenn du das getan hast, nimm das beste item (theoretisch) und fixier die Ladung auf 1 und den Fehler auf den aus dem Test-Modell.
Was du über die Abhängigkeiten von AVn in Regressionsanalysen schreibst, war für mich neu! Wenn das so ist, dass Parameter verzerrt werden (macht Sinn), dann musst du die tats. in ein Modell integrieren.
Zu Simsem. Technisch gar kein Ding. Was die Festlegung der Parameter betrifft: das musst du halt bei jeder Power-Analyse....
Viele Grüße
Holger