STATISTIK-FORUM.de

benfoldsfive · von **benfoldsfive** » Mo 22. Jun 2015, 15:17

Hallo,

ich habe ein paar Fragen zur Datenauswertung (übrigens mittels SPPS).

Hier ein paar einführende Angaben zu meinem Datensatz:

Die Datenauswertung bezieht sich auf eine Stichprobe von 81 Subjekten, erhoben wurden Daten via Selbst- und Fremdrating (überwiegend Intervall-skalierte Variablen zu Depressivität und Ähnlichem), wie auch einige ordinale und kategoriale Variablen (Geschlecht etc.).

Mittels zweier getrennter multipler Regressions-Analysen soll nun die Einflussgröße verschiedener UV's auf die jeweils interessierende AV geprüft werden, um so möglichst gute Vorhersagemodelle zu generieren.
Die beiden AV's sind metrisch (Summenscores), daher habe ich ein lineares Modell gewählt.

Hier meine Fragen:

1. ist es zulässig/sinnvoll, in einem solchen Modell auch kategoriale/dichotome und ordinale Variablen als UV einzubeziehen (also z.B. Geschlecht)? falls ja, ist bei der Auswertung/Intepretation etwas zu beachten?

2. wonach sollte sich die Entscheidung für eine bestimmte Methodik (also schrittweise, backward etc.) richten?

3. anhand welcher Kritierien wähle ich das 'beste' Modell aus? orientiere ich mich überwiegend am R-Quadrat bzw. korrigiertem R-Quadrat? oder wähle ich ein Modell mit möglichst wenigen UV's? oder das mit möglichst vielen signifikanten Koeffizienten?

4. wie interpretiere ich die Kollinearitätsdiagnostik richtig, um eine potentiell hohe Korrelation zweier oder mehrerer UV's zu prüfen (die ggf. das gleiche Konstrukt abbilden)? Oder berücksichtigt SPSS das möglicherweise automatisch und entfernt solche UV's direkt aus einem Modell?

5. sollte man auch bei einer multiplen Regression eine Korrektur für multiples Testen durchführen? Ich habe dies erst einmal mittels FDR-Methode nach Benjamini/Hochberg gemacht (indem ich alle p-Werte sämtlicher Koeffizienten eines Modells berücksichtigt habe).

6. wie gehe ich vor, wenn ich eine Mediator-/Moderator-Analyse durchführen möchte?

Schon einmal ganz herzlichen Dank, ich freue mich sehr über hilfreiche Tipps!

PonderStibbons · von **PonderStibbons** » Mo 22. Jun 2015, 16:24

1. ist es zulässig/sinnvoll, in einem solchen Modell auch kategoriale/dichotome und ordinale Variablen als UV einzubeziehen (also z.B. Geschlecht)?

Zulässig ist das (Kodierungsregeln beachten). Ob sinnvoll, ist nicht zu sagen.

falls ja, ist bei der Auswertung/Intepretation etwas zu beachten?

Ja.

2. wonach sollte sich die Entscheidung für eine bestimmte Methodik (also schrittweise, backward etc.) richten?

Nach der Fragestellung, dem theoretischen Konzept, der Stichprobengröße, dem
Verwendungszweck. Über Thema, Fragestellung, Kontext oder Zweck der Studie
hast Du nichts geschrieben, aber da Du lediglich 81 Probanden hast, also nur sehr
wenige Prädiktoren verwenden kannst, liegt normalerweise schlicht enter nahe
(s.u.).

3. anhand welcher Kritierien wähle ich das 'beste' Modell aus? orientiere ich mich überwiegend am R-Quadrat bzw. korrigiertem R-Quadrat? oder wähle ich ein Modell mit möglichst wenigen UV's? oder das mit möglichst vielen signifikanten Koeffizienten?

Das hängt von der Fragestellung, dem theoretischen Konzept, der Stichprobengröße,
der Zahl der Prädiktoren und dem Verwendungszweck ab. Bei so kleinen Stichproben
wie n=81 stellt man häufig am besten ein theoretisch sinnvolles Modell mit wenigen
Prädiktoren auf und testet dieses.

6. wie gehe ich vor, wenn ich eine Mediator-/Moderator-Analyse durchführen möchte?

Wie ist Dein Vorwissen, was hast Du darüber bisher gelesen?

Mit freundlichen Grüßen

P.

benfoldsfive · von **benfoldsfive** » Mo 22. Jun 2015, 21:12

Ganz lieben Dank für die schnelle Antwort!

Hier ein paar konkretere Angaben zu meiner Untersuchung:

Naturalistisch angelegte Querschnitts-Studie, erfasst wurden soziodemographische Basisvariablen (Alter, Geschlecht, Bildungsjahre...), wie auch klinische Variablen (z.B. Depressivitäts-Fragebogen, Fragebogen zum sozialen Befinden, Fragebogen zur Therapie-EInstellung etc.).

Untersucht werden soll nun, welche Basisvariablen und klinischen Variablen (UVs) die Therapie-Einstellung (AV) beeinflussen (letztere wird abgebildet als Summenscore; je höher der Wert, desto positiver die Einstellung). Hierzu habe ich eine multiple Regression gerechnet, um die Einfluss-Stärke verschiedener UVs in einem Modell gleichzeitig bewerten zu können (und nicht nur bivariate Korrelationen).
Nun gibt es neben metrischen UVs (z.B, Depressions-Skala, teilweise mit Subskalen) eben auch dichotome Variablen (wie Geschlecht) oder Items, die z.B. nach Nebenwirkungen (vorhanden/nicht vorhanden) oder Teilnahme an Therapie-Informationsveranstaltungen fragen (ja/nein).

Gemäß der Faustregel '10 persons per UV' habe ich mich bemüht, die Hypothesen-geleitete Auswahl der UVs möglichst gering zu halten. Teilweise war ich nicht sicher, ob ich als UV vorzugsweise einen Summenscore (z.B. zu Depressivität), oder aber Sub-Scores einschließen soll (falls vorhanden). Dann habe Ich mich für eine schrittweise Methodik entschieden unter der Annahme, dass die Analyse so eher konservativ geschieht und eher wenige, dafür möglichst signifikante Prädiktoren eingeschlossen werden.

Nun fällt es mir allerdings schwer zwischen Modellen zu wählen, die sich bzgl. des adjustierten R-Quadrat nicht wesentlich unterscheiden, dafür aber mal eine UV mehr oder weniger beinhalten (die allesamt gemäß der Hypothesen durchaus plausible sind).
Überdies fällt es mir in einem solchen Modell schwer, die Aussagekraft/den prädiktiven Wert von dichotomen UVs zu interpretieren (also z.B. 'Teilnahme an Therapie-Informationsveranstaltungen ja/nein'), insbesondere, wenn in der Stichprobe ein solches Item von z.B. 90% der Probanden mit 'ja' beantwortet wurde.
Wie gehe ich zudem mit UVs um, die nachgewiesenermaßen extrem hoch untereinander korreliert sind, die aber in eimen Regeressionsmodell trotzdem zusammen eingeschlossen werden? Ist das zulässig/sinnvoll? Wie ist das zu prüfen? Über die Multikollinearitäts-Statistik? Wie interpretiere ich diese? Welche Werte für Toleranz und VIF sind zulässig?
Daneben habe ich bisher keine Interaktionen im Sinne von Moderator-Effekten zwischen UVs berücksichtigt, die aber anzunehmen sind (z.B. zwischen 'Depressivität' und 'soziales Befinden'). Teilweise werden solche UVs schlicht in einem Regressions-Modell eingeschlossen. Bzgl. Moderator-Analysen habe ich erfahren, dass es bzgl. bilinearer Interaktion möglich ist, einfach das Produkt zweier interagierender Variablen (X*Y) als neue Variable zu berechnen und dann als zusätzlichen Regressor mit in die Regression einzuschließen. Ist das korrekt?

Schon mal vielen Dank, ich hoffe die neuen Information erlauben konkretere Hilfestellung!

PonderStibbons · von **PonderStibbons** » Mo 22. Jun 2015, 22:10

Untersucht werden soll nun, welche Basisvariablen und klinischen Variablen (UVs) die Therapie-Einstellung (AV) beeinflussen (letztere wird abgebildet als Summenscore; je höher der Wert, desto positiver die Einstellung). Hierzu habe ich eine multiple Regression gerechnet, um die Einfluss-Stärke verschiedener UVs in einem Modell gleichzeitig bewerten zu können (und nicht nur bivariate Korrelationen).

Dann entspricht der Teil ab dem Hierzu nicht so recht dem vor dem Hierzu.

Nun gibt es neben metrischen UVs (z.B, Depressions-Skala, teilweise mit Subskalen) eben auch dichotome Variablen (wie Geschlecht) oder Items, die z.B. nach Nebenwirkungen (vorhanden/nicht vorhanden) oder Teilnahme an Therapie-Informationsveranstaltungen fragen (ja/nein).

Binäre Variablen sind einfach, die kann man als 0/1-dummies einschließen.

Dann habe Ich mich für eine schrittweise Methodik entschieden unter der Annahme, dass die Analyse so eher konservativ geschieht und eher wenige, dafür möglichst signifikante Prädiktoren eingeschlossen werden.

Schrittweise Variablenauswahl ist sowas wie eine Pest, allerdings gilt wenigstens
die Pest als ausrottbar. Es produziert überangepasste und nicht übertragbare
Modelle, gerne auch reine Artefakte. Es ist so ziemlich das Gegenteil von
konservativ http://www.stata.com/support/faqs/stati ... -problems/

Nun fällt es mir allerdings schwer zwischen Modellen zu wählen, die sich bzgl. des adjustierten R-Quadrat nicht wesentlich unterscheiden, dafür aber mal eine UV mehr oder weniger beinhalten (die allesamt gemäß der Hypothesen durchaus plausible sind).

Du hast eine unklare Fragestellung, zu wenig Probanden und zu viele
Prädiktoren und suchst nach einer "technischen" Lösung für das Problem,
dass das theoretische Konzept und die Fragestellung noch nicht zu Ende
gedacht wurden.

Daneben habe ich bisher keine Interaktionen im Sinne von Moderator-Effekten zwischen UVs berücksichtigt, die aber anzunehmen sind (z.B. zwischen 'Depressivität' und 'soziales Befinden'). Teilweise werden solche UVs schlicht in einem Regressions-Modell eingeschlossen. Bzgl. Moderator-Analysen habe ich erfahren, dass es bzgl. bilinearer Interaktion möglich ist, einfach das Produkt zweier interagierender Variablen (X*Y) als neue Variable zu berechnen und dann als zusätzlichen Regressor mit in die Regression einzuschließen. Ist das korrekt?

Moderator-Effekte sind Wechselwirkungen, in Regressionsmodellen kann man
solche Wechselwirkungen mit einschließen. Das eigentliche Problem ist meines
Erachtens aber wie gesagt, dass es nichts bringt, einen Haufen Variablen und
Wechselwirkungen in die Analyse zu werfen und darauf zu hoffen, dass
die Algorithmen etwas sinnvoll Wirkendes produzieren. Die Modellbildung
(Vorauswahl der Prädiktoren, Konzeption von Wechselwirkungseffekten) sollte
stärker theoriegeleitet und/oder praxisorientiert erfolgen.

Mit freundlichen Grüßen

P.

STATISTIK-FORUM.de

Multiple Regression:dichotome UVs?Test-Korrektur?Modellwahl?

Multiple Regression:dichotome UVs?Test-Korrektur?Modellwahl?

Re: Multiple Regression:dichotome UVs?Test-Korrektur?Modellw

Re: Multiple Regression:dichotome UVs?Test-Korrektur?Modellw

Re: Multiple Regression:dichotome UVs?Test-Korrektur?Modellw

Wer ist online?