STATISTIK-FORUM.de

a.einstein · von **a.einstein** » Mi 2. Okt 2013, 10:00

Hallo!

Ich habe das folgende, etwas komplexere Anliegen und hoffe, dass ihr mir helfen könnt!

In einer in Planung befindlichen Hauptstudie sollen zwei Gruppen hinsichtlich der Mittelwerte auf vier (endogenen) latenten Variablen (enLVs) verglichen werden. Der Test, der simultan diese vier Variablen erfasst, wurde mit einer Mehrgruppen-CFA (MGCFA) auf das Vorliegen von skalarer Invarianz in einer Entwicklungsstudie geprüft. Skalare Messinvarianz liegt vor. Die enLVs weisen untereinander (bis auf einen negativen Zusammenhang) keine sig. Korrelationen auf. Jede der vier enLVs wird mit je fünf manifesten Indikatoren erfasst.

In der nun folgenden Hauptstudie sollen, neben dem Test zur Erfassung der vier enLVs, weitere vier exogene latente Variablen (exLVs) mit hinreichend etablierten Instrumenten erfasst werden (z.B. Motivationsskalen). Es ist nicht zu erwarten, dass die lat. Mittelwerte der exLVs zwischen den Gruppen unterschiedlich sind.
Es existiert ein theoretisches Strukturmodell, das Wirkungszusammenhänge zwischen den exLVs und den enLVs postuliert.

Der Stichprobenumfang soll über einen test-of-close-fit nach McCallum (1996) bestimmt werden. Dazu wird angenommen, dass die vier enLVs und die vier exLVs mit je fünf manifesten Indikatoren erfasst werden.

In einer ersten Forschungsfrage soll das Modell geprüft werden (noch ohne Mehrgruppenvergleich). Das o.g. Modell (inkl. der Regressionen exLVs -> enLVs) hat df=712 Freiheitsgrade (bestimmt mittels simulateData() in lavaan 0.5-14). Nach MacCallum (1996) ergibt sich (mit RMSEA_H0 = .05, RMSEA_H1 = .08, alpha = .05; power = .08) ein benötigter Stichprobenumfang von n = 40, bei einer zu schätzenden Menge von freien Parametern von fP = 148 (robuster ML, wegen FIML, sonst fP=108). Dies steht in Widerspruch zu klassischer SEM-Literatur welche pro freiem Parameter min. einen, besser 5 und idealerweise 20 Pbn vorschlägt. MacCallum (1996) weist auf dieses Problem (viele manifeste Indikatoren, kleines Strukturmodell, hohe Power bei geringen N) selbst hin, gibt aber keinen Lösungsvorschlag.

(Zusatzinformation, nicht relevant für die folgenden Fragen: In einer zweiten Forschungsfrage sollen die latenten Mittelwertsunterschiede verglichen werden. Dazu werden Ladungen und Intercepts über die Gruppen fixiert und die latenten MW mitgeschätzt. Durch den Multigruppen-SEM-Ansatz explodiert die Zahl der Freiheitsgerade auf df= 1488, bei 232 fP. Nach MacCallum (cut-off, alpha und beta s.o.) würde die Zahl der Pbn auf 27 sinken, was natürlich völlig blödsinnig ist.

Frage 1a:
Kann aus Gründen der Modell-Sparsamkeit auf die latente Modellierung der exLVs verzichtet werden (Anm.: Es handelt sich bei allen Instrumenten um etablierte Tests)?
Frage 1b:
Ist es sinnvoll, die exLVs durch nur einen (über die Items aufsummierten Indikator) darzustellen und die Residualvarianz aus der Literatur zu übernehmen, um die exLVs identifizierbar zu machen? (Item-Parcelling scheint „en vogue“ aber problematisch.)

Frage 2: Können die Parameter der enLVs (Ladungen, Intercepts und Residuuen) aus der Testentwicklungsstudie übernommen werden (-> Einsparen von fP) ?

Frage 3: Wie erwähnt, korrelieren die vier enLVs nicht (bzw. nur in einem Fall negativ). Ist es daher möglich, statt der simultanen multivariaten Regression der vier enLVs auf die exLVs je vier separate Modelle zu bestimmen (bzw. drei Modelle, wenn die Korrelation zwischen zwei der vier exLVs sinnvoll ist)? (Dadurch sinkt die Zahl der Freiheitsgrade auf df=265, bei 85 fp, single-group SEM, 5 Indikatoren pro enLV und pro exLV). Wird durch dieses Vorgehen ein Fehler begangen?

Referenzen:

MacCallum, R. C., Browne, M. W., & Sugawara, H. M. (1996). Power analysis and determination of sample size for covariance structure modeling. Psychological Methods, 1, 130-149. doi: 10.1037/1082-989X.1.2.130.

Vielen Dank! Tobias

Holgonaut · von **Holgonaut** » Do 3. Okt 2013, 10:10

Hi,

dein post ist sehr lang und vielleicht übersehe ich jetzt einige Punkte (das entwickeln wir Stück für Stück).

Allem voran einige grundsätzliche Anm.

1) Dein Modell hat extrem viele Freiheitsgrade, was durch

viele manifeste Indikatoren, kleines Strukturmodell,

bedingt ist. So sehen typische Modelle aus - und sie fitten nie. Das heißt MacCallum et al's Vorschläge zielen auf Modelle ab, die meist sowieso falsch sind.

Da hilft auch nicht, dass du "etablierte Skalen" benutzt. Trenn dich von diesem Begriff. Skalen sind genauso etabliert, wie die Mafia, und dennoch sind sie - was die Faktorenstruktur anbelangt,
meist problematisch. Ich hab noch nie ein Modell mit mehr als 3 items pro Faktor gesehen, dass gefittet hat. Und entgegen der daraus folgenden typischen Reaktion, das läge an "Problemen" der CFA (ala Costa/McCrae) oder eben dem blöden Chi-Quadrat-Test, der ja sowieso gar nicht nicht-sign. sein kann, liegt das eben einfach daran, dass in vielen Fällen die angenommene Kausalstruktur falsch ist.

Erster Tipp daher: Drehe den Satz in der Quote um und strebe nach einem Modell mit kleiner Anzahl von Indikatoren, aber größerer Anzahl von latenten Variablen (z.B. durch Einbeziehung von Instrumentalvariablen und Kontrollvariablen, Antonakis, John, Bendahan, Samuel, Jacquart, Philippe, & Lalive, Rafael. (2010). On making causal claims: A review and recommendations. The Leadership Quarterly, 21, 1086-1120). Damit leistest du Deinem eigentlichen Ziel, das Strukturmodell zu testen und valide Ergebnisse zu erhalten, größere Dienste. Modelle mit vielen items sind (wie gesagt) meist falsch, und wenn das Messmodell schon nicht fittet, hast du gar keine testing power mehr für das eigentlich interessierende Strukturmodell.

Wähle daher aus deinen etablierten Skalen 4 items aus - von denen du 3 verwendest (eines quasi als Ersatz). Achte bei der Auswahl darauf, dass diese 4 items GENAU dieselbe zugrundeliegende latente Variable betreffen. Kleinste Veränderungen in der item-Formulierungen führen schnell dazu, dass du eine ganz andere /neue latente Variable misst und ein 1-Faktormodell nicht fittet.

2) Vergiss Fitindizes a la RMSEA. Der ist zwar noch der beste von allen, aber der Chi-Quadrat-Test ist der Test der Wahl. Wir wollen schlechte Modelle nicht durchwinken, sondern testen und ggfls. verbessern. Es haben sich in der Literatur seltsame Mantras über diesen Test durchgesetzt (z.B. "sensitiv für sample size"). Allmählich korrigiert sich das und er gewinnt wieder die ursprüngliche Bedeutung. Die "etablierten Skalen" hätten eine bessere Qualität wenn sie anständig getestet worden wären.

Zu Deinen Fragen
(1a) Nein, diese sollten noch am ehesten latent sein, weil Messfehler in den unabhängigen Variablen die Parameter verzerren (nicht in den AVn). Wie gesagt, reduzier die Anzahl der items und nimm die besten / theoretisch best passendsten - vielleicht reicht das aus.

(1b) Items aufzusummieren ist immer problematisch, weil du den Test der Faktorenstruktur unter den Teppich kehrst. Als Reviewer würde ich das nicht akzeptieren. Wenn Dein Faktormodell funktioniert/korrekt ist, kannst du einen der Indikatoren nehmen und die Fehlervarianz fixieren, siehe
Hayduk, Leslie A., & Littvay, Levente. (2012). Should researchers use single indicators, best indicators, or multiple indicators. BMC Medical Research Methodology, 12(159), 1-17.
http://www.biomedcentral.com/content/pd ... 12-159.pdf

Ob das der Betreuer/Reviewer akzeptiert ist ne andere Frage. Zu dem sind dann Invarianz-Tests über Gruppen nicht mehr möglich.

(2) Wenn die Stichproben/zugrundeliegenden Populationen äquivalent sind, kannst du die Werte fixieren. Das verschärft den Test enorm und du wirst große Probleme bekommen

Denk dran, mit Fixierungen beraubst du das Modell der Möglichkeit, durch Manipulaton der Parameter einen Fit zwischen der empirischen und modellimpliziten Kovarianzmatrix /Mittelwertsvektor zu erreichen. Du schränkst quasi den Bewegungsspielraum ein...Inhaltlich kommt dem Fixieren der Parameter einem Test einer Punkthypothese gleich.

(3) Hmm, tricky. Nachteil wäre, dass der Test der Messmodelle isoliert würde und du nicht rausbekommst, wenn items fremdladen. Aber ansonsten? Kann ich nicht eindeutig beantworten. Spontan seh ich darüberhinaus erst mal kein Problem.

Zur power: Da du ja anscheinend lavaan benutzt, könntest du eine power-Analyse durch eine Simulation durchführen:
Muthén, Linda K., & Muthén, Bengt. (2002). How to use a Monte Carlo study to decide on sample size and determine power. Structural Equation Modeling, 9(4), 599-620.

Ich würde dazu das simsem-Paket nehmen (bzw. benutze es für Simulationen).

Grüße
Holger

folgende User möchten sich bei Holgonaut bedanken:
a.einstein

a.einstein · von **a.einstein** » Fr 4. Okt 2013, 11:34

Hallo,

erst einmal vielen Dank für deine Mühe!

Zunächst einmal zwei generelle Anmerkungen:
1) Ich lese bereits seit einiger Zeit in diesem Forum mit, und ich kenne deine m.E. äußerst strenge Ansicht bzgl. der Eignung von chi^2 - Test und GFIs zum Modelltest. Mein Forschungsprojekt ist im Bereich naturwissenschaftsdidaktischer Lehr-/Lernforschung angesiedelt. Als Naturwissenschaftler erlaube ich mir jedoch einzugestehen, ein relativ ausgeprägtes Modellverständnis zu haben. Für mich gibt es kein "exaktes" Modell. (Und auch wenn ich nicht alle Einzelheiten en detail verstanden habe:) Der chi^2 - Test ist eben ein solcher Test auf exakte Modellpassung. Ohne Frage: Modelle, die nicht in der Lage sind die Realität adäquat abzubilden, brauchen wir nicht. Aber es geht doch m.E. eben genau um diese "Adäquatheit". Die latenten Konstrukte, die ich vorgebe zu messen sind nicht "exakt" zu beschreiben, geschweige denn "exakt" zu messen. Die Probleme, die der chi^2-Test ferner mit sich bringt sollen hier nicht diskutiert werden (der Test "für" die H0 lässt m.E. einen Großteil der publizierten chi^2-Modelltests an einer nicht vorhandenen Power implodieren).

2) Es liegt vermutlich noch ein weiteres Missverständnis vor, das einer undeutlichen Beschreibung in meinem ersten Post geschuldet ist. Als Naturwissenschaftler habe ich ein relatives striktes Verständnis von kausaler Interpretation(-smöglichkeit). So weit ich die einschlägige SEM-Literatur überblicken kann, ist dieses Verständnis insbesondere in den Forschungsdisziplinen der Ökonomie etwas anders ausgeprägt. Dort werden korrelationale Analysen (für mich sind SEMs nichts anderes) durchgeführt und unter Zuhilfenahme üblicher Argumente (Theorie, Empirie, zeitliche Asymmetrie, Drittvariablen) kausal interpretiert. Persönlich gehe ich da nicht mit. Die einzige kausale Interpretation, die ich in meiner Studie treffen möchte ist der Unterschied auf den enLVs zwischen den Gruppen. (Und jetzt endlich zur Pointe:) Es handelt sich bei mir um ein lupenreines, einfaktorielles experimentelles Design. DAS ist für mich die Grundlage, das Abschneiden der Gruppen auf den enLVs kausal zu interpretieren und auf das Treatment zurückzuführen (das eigentlich keines ist) . Zwischen den exLVs und den enLVs möchte ich lediglich Zusammenhangshypothesen testen und keinesfalls kausale Interpretationen tätigen.

Ich habe den Eindruck, dass es sinnvoll ist, wenn wir die Diskussion zu o.g. Punkten an dieser Stelle (wir können das gerne am Telefon weiterführen) beenden. Vermutlich sind das einfach Dinge, die man durchaus anders sehen kann, insbesondere dann, wenn aus verschiedenen Perspektiven auf das Problem schaut.

Zu deinen eigentlich Antworten:

Holgonaut hat geschrieben:1) Dein Modell hat extrem viele Freiheitsgrade, was durch
viele manifeste Indikatoren, kleines Strukturmodell,

bedingt ist. So sehen typische Modelle aus - und sie fitten nie. Das heißt MacCallum et al's Vorschläge zielen auf Modelle ab, die meist sowieso falsch sind.

Da hilft auch nicht, dass du "etablierte Skalen" benutzt. Trenn dich von diesem Begriff. Skalen sind genauso etabliert, wie die Mafia, und dennoch sind sie - was die Faktorenstruktur anbelangt,
meist problematisch.

Vielleicht ist "etabliert" ein schlechtes Wort. Ich kann mich bei diesen Skalen jedoch nur auf Forschungsergebnisse verlassen, die (teilweise jahrzehntelang) immer wieder geprüft und revidiert werden. Ich muss mich an diesen Stellen auf die Güte dieser Instrumente verlassen.

Ich hab noch nie ein Modell mit mehr als 3 items pro Faktor gesehen, dass gefittet hat.

Ich kann dir gerne per Mail einen blinden Datensatz zu kommen lassen, bei dem die o.g. 4 LVs je fünf Items im Sinne des chi^2 - Tests exakt fitten. Aber ich denke, deine Aussage war auch nicht so pauschal gemeint.

Und entgegen der daraus folgenden typischen Reaktion, das läge an "Problemen" der CFA (ala Costa/McCrae) oder eben dem blöden Chi-Quadrat-Test, der ja sowieso gar nicht nicht-sign. sein kann, liegt das eben einfach daran, dass in vielen Fällen die angenommene Kausalstruktur falsch ist.

Erster Tipp daher: Drehe den Satz in der Quote um und strebe nach einem Modell mit kleiner Anzahl von Indikatoren, aber größerer Anzahl von latenten Variablen (z.B. durch Einbeziehung von Instrumentalvariablen und Kontrollvariablen, Antonakis, John, Bendahan, Samuel, Jacquart, Philippe, & Lalive, Rafael. (2010). On making causal claims: A review and recommendations. The Leadership Quarterly, 21, 1086-1120). Damit leistest du Deinem eigentlichen Ziel, das Strukturmodell zu testen und valide Ergebnisse zu erhalten, größere Dienste. Modelle mit vielen items sind (wie gesagt) meist falsch, und wenn das Messmodell schon nicht fittet, hast du gar keine testing power mehr für das eigentlich interessierende Strukturmodell.
Wähle daher aus deinen etablierten Skalen 4 items aus - von denen du 3 verwendest (eines quasi als Ersatz). Achte bei der Auswahl darauf, dass diese 4 items GENAU dieselbe zugrundeliegende latente Variable betreffen. Kleinste Veränderungen in der item-Formulierungen führen schnell dazu, dass du eine ganz andere /neue latente Variable misst und ein 1-Faktormodell nicht fittet.

Zu der Itemanzahl "fünf": Ich habe teilweise (nicht bei allen Skalen) überhaupt keine Bedenken, die Zahl der Items zu beschränken. Da ich mich in der Planung befinde, war das ein grober "Richtwert ;-)

(1a) Nein, diese sollten noch am ehesten latent sein, weil Messfehler in den unabhängigen Variablen die Parameter verzerren (nicht in den AVn). Wie gesagt, reduzier die Anzahl der items und nimm die besten / theoretisch best passendsten - vielleicht reicht das aus.

Okay, habe ich schon fast vermutet.

(1b) Items aufzusummieren ist immer problematisch, weil du den Test der Faktorenstruktur unter den Teppich kehrst. Als Reviewer würde ich das nicht akzeptieren. [...]

Das würde ich nur bei den Skalen tun, deren Faktorenstruktur hinreichend (s.o.) überprüft wurde.

Zu dem sind dann Invarianz-Tests über Gruppen nicht mehr möglich.

Der Invarianz-Test zwischen den Gruppen ist nur bei den exLVs nötig. Non-Invarianz in den enLVs zwischen den Gruppen ist a priori ausgeschlossen. Diese werden vor der Randomisierung beantwortet.

(2) Wenn die Stichproben/zugrundeliegenden Populationen äquivalent sind, kannst du die Werte fixieren. Das verschärft den Test enorm und du wirst große Probleme bekommen Denk dran, mit Fixierungen beraubst du das Modell der Möglichkeit, durch Manipulaton der Parameter einen Fit zwischen der empirischen und modellimpliziten Kovarianzmatrix /Mittelwertsvektor zu erreichen. Du schränkst quasi den Bewegungsspielraum ein...Inhaltlich kommt dem Fixieren der Parameter einem Test einer Punkthypothese gleich.

Ja, völlig klar. Ich habe auch den Eindruck, dass dieses Vorgehen nicht zielführend ist.

(3) Hmm, tricky. Nachteil wäre, dass der Test der Messmodelle isoliert würde und du nicht rausbekommst, wenn items fremdladen. Aber ansonsten? Kann ich nicht eindeutig beantworten. Spontan seh ich darüberhinaus erst mal kein Problem.

Dass Items nicht fremdladen, habe ich für meine entwickelten Skalen ja in einer Entwicklungsstudie überprüft. Trotzdem wäre es natürlich sinnvoll, jetzt noch ein weiteres Mal zu testen. Könnte ich dazu dass Messmodell mit den vier exLVs nicht zunächst erneut testen (Struktur und evlt. auch Messinvarianz) und danach die Modelle aufsplitten?

Liegt das Problem aber nicht evtl. woanders? In einer klass. multiplen Regression wäre das vorgehen gerechtfertigt, wenn die Prädiktoren (hier enLVs) unabhängig wären. Das sind sie in meinem Fall aber höchstwahrscheinlich nicht. Welche Fehler wird begangen, wenn ich trotzdem das MOdell in vier Submodelle zerlege und die enLVs quasi "recycle"?

Zur power: Da du ja anscheinend lavaan benutzt, könntest du eine power-Analyse durch eine Simulation durchführen:
Muthén, Linda K., & Muthén, Bengt. (2002). How to use a Monte Carlo study to decide on sample size and determine power. Structural Equation Modeling, 9(4), 599-620.

Könnte ich, ja. Zwei Dinge erscheinen mir problematisch: 1. )Ich habe keine Schimmer von dem Verfahren. Ich würde vermutlich min. eine, vielleicht zwei Wochen benötigen, bis ich in der Materie bin. Im Sinne einer ökonomischen Validität (siehe Messick und co) muss ich hier ablehnen. 2.) Man muss, so weit ich diesen Artikel überflogen habe, so mehr Annahmen treffen als ich jetzt a priori begründen kann. Ich habe teilweise keine Idee, welche Parameter sinnvoll sind.

Vielen Dank jedenfalls noch mal für deine hilfreichen Anmerkungen!
Grüße!

Holgonaut · von **Holgonaut** » Fr 4. Okt 2013, 13:43

Hi,

ich verstehe, wenn du keine Grundsatzdiskussion möcht. Da ja aber all diese posts von vielen Leuten gelesen werde, erlaube mir dennoch,
meine Haltung zu erklären, weil in dem, was du in den ersten beiden Absätzen schreibst, deutlich wird, dass a) wir gar nicht so weit auseinander liegen, b) ich falsch verstanden werde ("strenge Auffassung" und c) du leider manchen Misskonzeptionen aus der Literatur erliegst.

Ich sehe - wie anscheinend ebenso wie du - die Adäquatheit von Modellen als höchstes Ziel von SEM an. Die Frage ist nur, (1) was ist "adäquat" und (2) wie schätzt man das ein?

Zu (1) Für mich ist ein Modell adäquat, a) wenn die latenten Variablen in den Messmodell tatsächlich existieren und auch die Bedeutung haben, die wir ihnen theoretisch zuschreiben. Dies ist das, was die Messmodelle leisten müssen. Fehlspezifizierte/nicht-fittende Messmodelle können triviale Misspezifikationen enthalten (z.B. ein item, das falsch lädt), oder sie können fundamental falsch sein (die items messen keinen gemeinsamen Faktor - und der modellierte ist völlig artifiziell. Stell dir eine UV-AV-Beziehung vor, die als ein gemeinsamer Faktor modelliert wird. Dieser Faktor ist völliger Humbug und folglich alles, was an ihm dranhängt. Ich gehe davon aus, wir stimmen darin überein, dass Fall 2 "nicht-adäquat", sondern ein schlichtes wissenschaftliches Desaster wäre.

Das Strukturmodell ist adäquat, wenn die Effekte, die die Variablen tatsächlich haben, auch geschätzt werden und ihre Parameterschätzung auch den unverzerrten Effekt angeben, und die nicht-vorliegenden fixiert sind. Ersteres ist dann der Fall, wenn die UVn exogen sind (keine Messfehler, keine reverse causation oder Simultanität, keine ausgeschlossenen Drittvariablen oder Kovariate).

Auch hier gehe ich von Deiner Zustimmung aus.

Daher kommen wir dazu, wie wir "Adäquatheit" einschätzen. Und hier ist das fundamentale Problem, dass die Fitindizes (GFI) das nicht können. Was die GFI machen, ist den Abstand der empirischen Kovarianzmatrix und der modellimpliziten zu quantifizieren. ABER: Es ist falsch, diesen Abstand als "Ausmaß der Adäquatheit" zu interpretieren (im Sinne von "ja besser der GFI, desto adäquater das Modell), da völlig inadäquate Modelle dennoch gute GFI haben können (und in vielen Fällen haben). Das einzige, was wir also tun sollten als seriöse Wissenschaftler ist, *jedes über den Zufall hinausgehende Indiz* im Rahmen einer Kontra-Evidenz gegen das Modell ernst zu nehmen und zu untersuchen. Oft werden wir eine Lösung/Erklärung finden (und sehr viel lernen!), oft nicht - dann sollte zumindest Zweifel und weitere Forschung angebracht sein. Und: die Misspezifikation kann trivial sein (und das Modell immer noch adäquat) oder fundamental. Das weiß man nicht. Bei der Heterogenität der Itemformulierungen in den üblichen Skalen ist m.E. Zweiteres der Fall. Und damit ist/könnte alles, was an der Pseudo-latenten Variable dranhängt - ebenso völliger Murks sein (man mag gar nicht an die praktischen Implikationen denken).

Selbst wenn es keine Kontra-Evidenz gibt, bleibt in den meisten Fällen, dass wir die Adäquatheit des Modell nie abschließend verifizieren können, da viele Misspezifikationen sich nicht in einem misfit äußern werden (z.B. Endogenität der UVn). Daraus folgt: Der Sinn des Vorgehens beim SEM ist nicht, die Parameter naiv kausal zu interpretieren (wie du korrekt kritisierst), sondern zu TESTEN, ob unsere Annahmen korrekt sind. Schlägt der Test fehl, dann gibt es *irgendwas* in dem Modell, was problematisch ist und über den Zufall hinausgeht (und was wie gesagt trivial oder problematisch sein kann). Ist der Test erfolgreich, haben wir zumindest keine Kontra-Evidenz. Dies entspricht im übrigen dem klassischen hypothetico-deductivo-Ansatz, nach dem man Hypothesen zurückweisen, stärken aber nicht verifizieren kann. Im Rahmen des SEM müssen dann die Parameter im Rahmen einer "wenn-dann" - Sichtweise interpretiert werden: Wenn das Modell richtig ist (d.h. alle free/fixed Effects da sind wo sie sein sollen UND die UVs exogen sind) - dann steht der Parameter XY für den kausalen Effekt

Jede weitere Aktivität, die Evidenz/den support für diese Interpretation zu erhöhen, stärkt das Modell (z.B. Einbezug von Instrumentalvariablen, womit ich mich derzeit sehr beschäftige).

Zwei Misskonzeptionen Deinerseits m.E.
a) Es geht nicht darum, latente Variablen "exakt zu beschreiben" oder zu messen. Im Rahmen des Messmodells können Messfehler modelliert werden (siehe der Artikel von Hayduk - bitte lies den

). Messfehler führen zu keinem misfit und latente Variablen haben ja gerade den Vorteil, dass sie messfehlerfrei sind. Was zu misfit führt, sind Fehler in der Struktur.
b) Die power des chi2-Tests wird oft angesehen als ein Problem, dass grundsätzlich zu sign. misfit führt (d.h. ein Modell kann gar ncht fitten). Das ist falsch. Ein korrektes Modell wird keinen sign. misfit bekommen, egal bei welchem N. Die Formel für den Chi2 ist FF * N-1. FF ist der Minimal-Wert der ML fitting function - die sample size gewichtet ihn. Für korrekte Modelle ist FF 0. Die Höhe des N führt zu weniger Stichprobenfehler. Abweichungen der beiden Kovarianzmatrizen geben daher reliabler systematische Unstimmigkeiten wieder. Nicht mehr, nicht weniger. Wie oben ausgeführt, muss das nichts Schlimmes bedeuten (kann aber), und man sollte das Modell auch nicht killen (oder sich). Das schreib ich extra, weil dies oft so empfunden wird.

Und auch wenn du nur Korrelationen zwischen deinen LVn testen möchtest, spezifizierst und testest du ein Kausalmodell (weil es *latente* Variablen sind und du eine kausale Struktur brauchst, um sie mit beobachteten Variablen zu verknüpfen.

Sorry, wenn du das gar nicht lesen möchtest (vielleicht ist es für andere Leser hilfreich). Aber mir liegt diese Sache am Herzen. Die gängige Praxis ist, irgend ein Modell zu machen (das meist eine schlechte Übertragung aus der Theorie darstellt), es nicht richtig zu testen und Alarmsignale nicht ernst zu nehmen, dann die Parameter kausal zu interpretieren - aber mit einem einem "ich nehm das ja eh nich so ernst, weil SEM ja eh nur Querschnits-Rumkorreliererei ist). So kann man sich (und die Disziplin gegen Lernen immunisieren).

Jetzt zu Deinen Antworten

Vielleicht ist "etabliert" ein schlechtes Wort. Ich kann mich bei diesen Skalen jedoch nur auf Forschungsergebnisse verlassen, die (teilweise jahrzehntelang) immer wieder geprüft und revidiert werden. Ich muss mich an diesen Stellen auf die Güte dieser Instrumente verlassen.

Sind diese Skalen in einer CFA *wirklich* getestet worden? Ich nehme an nicht. Von da aus sind auch "jahrzehntelange" erneute Überprüfungen kein Beleg. Nimm die Big-Five-Skalen: Die sind 10.000fach in Studien benutzt worden.
DU bist gefragt als Theoretiker. Konzeptualisiere DEIN Verständnis von der/den latenten Variablen, wie sie dir vorschwebt und wähle gezielt diejenigen items aus, die diese LVn reflektieren sollten.

Ich kann dir gerne per Mail einen blinden Datensatz zu kommen lassen, bei dem die o.g. 4 LVs je fünf Items im Sinne des chi^2 - Tests exakt fitten. Aber ich denke, deine Aussage war auch nicht so pauschal gemeint.

Brauchst du nicht - ich glaub es dir gerne. Ich kann nur aus meiner Erfahrung als Betreuer/Berater von 100en anderer Arbeiten, bestimmt hunderten eigenen CFAs und eben 99% der publizierten (von mir gelesenen Artikel) ausgehen. Einmal hatte ich einen Projektdatensatz, in dem "etablierte" Skalen (bestimmt 50) waren. Ich hab immer nur Einfaktormodelle gemacht (also wirklich fit-förderliche Dinge

). KEINE einzige hat auch nur annähernd funktioniert. Der Grund ist schlicht, dass Skalenentwicklungen oft andere theoretische Vorstellungen zugrunde liegen (als das common-factor / latente Variablen) - Modell (z.B. Indizes, Aggragte, domain sampling).

Zu der Itemanzahl "fünf": Ich habe teilweise (nicht bei allen Skalen) überhaupt keine Bedenken, die Zahl der Items zu beschränken. Da ich mich in der Planung befinde, war das ein grober "Richtwert

Ist doch vollkommen ok. Die meisten Leute glauben nur, sie müssen viele Items nehmen, sonst passiert irgendwas (z.B. dass die latente Variable sich verändert, wenn items rausgenommen werden).

Das würde ich nur bei den Skalen tun, deren Faktorenstruktur hinreichend (s.o.) überprüft wurde.

Ja, aber wenn du das getan hast, nimm das beste item (theoretisch) und fixier die Ladung auf 1 und den Fehler auf den aus dem Test-Modell.

Was du über die Abhängigkeiten von AVn in Regressionsanalysen schreibst, war für mich neu! Wenn das so ist, dass Parameter verzerrt werden (macht Sinn), dann musst du die tats. in ein Modell integrieren.

Zu Simsem. Technisch gar kein Ding. Was die Festlegung der Parameter betrifft: das musst du halt bei jeder Power-Analyse....

Viele Grüße
Holger

STATISTIK-FORUM.de

Stichprobenumfangsplanung (Multigruppen-)SEM

Stichprobenumfangsplanung (Multigruppen-)SEM

Re: Stichprobenumfangsplanung (Multigruppen-)SEM

Re: Stichprobenumfangsplanung (Multigruppen-)SEM

Re: Stichprobenumfangsplanung (Multigruppen-)SEM

Wer ist online?