STATISTIK-FORUM.de

fischmonger · von **fischmonger** » Mo 21. Mär 2016, 16:44

Hallo ihr Lieben,
ich stehe ein bisschen auf dem Schlauch.

Meine Daten: 330 internationale Studierende, befragt zu Sachen wie Lebenszufriedenheit und an wen sie sich in verschiedenenen Unterstüzungssituationen (z.B. bei emotionaler Unterstützung) wenden.
Auswertung: mit R
meine Hypothese: Eine höhere Ausprägung für die Unterstützungswahrscheinlichkeit durch host-nationals oder andere internationals
in Situationen für emotionale Unterstützung sagt eine bessere psychologische Adaptation vorher.

Mein Problem: Ich rechne eine einfache lineare Regression mit R um zu schauen, ob eine höhere Ausprägung der Unterstützung durch conationals einen Einfluss auf die Ausprägung der Adaptation hat

Code: Alles auswählen: all: lm(formula = psychadapt ~ ma$emotional_conational) Residuals: Min 1Q Median 3Q Max -2.77594 -0.61340 -0.03214 0.67413 2.09286 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.85720 0.15378 31.585 <2e-16 *** ma$emotional_conational -0.08127 0.03899 -2.084 0.0379 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.9042 on 320 degrees of freedom Multiple R-squared: 0.0134, Adjusted R-squared: 0.01031 F-statistic: 4.345 on 1 and 320 DF, p-value: 0.03791

- Unterstützung durch conationals hat also einen negativen Einfluss.
Ich füge die anderen Prädiktoren (Personen, an die sich die Leute wenden) schrittweise hinzu, nachdem ich alle einzeln getestet habe, ob sie einen Einfluss haben. Wenn alle drin sind, sieht das Modell so aus:

Code: Alles auswählen: lm(formula = psychadapt ~ ma$emotional_host + ma$emotional_international + ma$emotional_conational + ma$emotional_home) Residuals: Min 1Q Median 3Q Max -2.3243 -0.5907 -0.0611 0.6721 1.9317 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.40684 0.27684 15.918 < 2e-16 *** ma$emotional_host 0.11016 0.04040 2.727 0.00675 ** ma$emotional_international 0.12051 0.04208 2.864 0.00446 ** ma$emotional_conational -0.08931 0.03835 -2.329 0.02049 * ma$emotional_home -0.04478 0.04299 -1.042 0.29833 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.8793 on 317 degrees of freedom Multiple R-squared: 0.07581, Adjusted R-squared: 0.06415 F-statistic: 6.501 on 4 and 317 DF, p-value: 4.873e-05

Schön, ich freue mich.

Jetzt möchte ich wissen, ob noch andere Prädiktoren mein Modell verbessern, beispielsweise ob es was macht, ob man das gesamte Studium hier absolviert.

Code: Alles auswählen: Call: lm(formula = psychadapt ~ ma$emotional_host + ma$emotional_international + ma$emotional_conational + ma$emotional_home + ma$GesamtstudiumD) Residuals: Min 1Q Median 3Q Max -2.19880 -0.61689 -0.01995 0.66402 2.04489 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.03668 0.30773 13.117 < 2e-16 *** ma$emotional_host 0.12025 0.04020 2.991 0.00300 ** ma$emotional_international 0.12143 0.04168 2.913 0.00383 ** ma$emotional_conational -0.09039 0.03799 -2.379 0.01793 * ma$emotional_home -0.05103 0.04265 -1.196 0.23245 ma$GesamtstudiumD 0.26595 0.10030 2.652 0.00842 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.8711 on 316 degrees of freedom Multiple R-squared: 0.09592, Adjusted R-squared: 0.08162 F-statistic: 6.706 on 5 and 316 DF, p-value: 5.9e-06

Immernöch schön, ich freue mich.

Jetzt füge ich den Prädiktor "Individualistische Kultur" hinzu, hier "Nationalität_individuell" genannt. Den VPN wurde je nachdem aus welchem Land sie kommen, ein bestimmter Wert in Individualismus zugewiesen (beispielsweise 80 für amerikanische Probanden, 35 für chinesische Probanden). Hier gibt es allerdings sehr viele missings, weil die Stichprobe diesbezüglich relativ heterogen ist, und die Literatur nicht für alle Länder einen solchen Wert zur Verfügung stellt.

Code: Alles auswählen: lm(formula = psychadapt ~ ma$emotional_host + ma$emotional_international + ma$emotional_conational + ma$emotional_home + ma$GesamtstudiumD + Nationalität_individuell) Residuals: Min 1Q Median 3Q Max -2.18730 -0.59729 0.01014 0.67788 2.00158 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.293543 0.384086 11.179 <2e-16 *** ma$emotional_host 0.102254 0.049668 2.059 0.0407 * ma$emotional_international 0.129760 0.051314 2.529 0.0121 * ma$emotional_conational -0.080848 0.046193 -1.750 0.0815 . ma$emotional_home -0.068181 0.050804 -1.342 0.1810 ma$GesamtstudiumD 0.251512 0.123373 2.039 0.0427 * Nationalität_individuell -0.002100 0.002194 -0.957 0.3395 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.8899 on 221 degrees of freedom (94 observations deleted due to missingness) Multiple R-squared: 0.09407, Adjusted R-squared: 0.06948 F-statistic: 3.825 on 6 and 221 DF, p-value: 0.001196

- was ist denn jetzt passiert? Wieso ist das, was vorher signifikant war (nämlich der negative Einfluss der Conationals), nicht mehr signifikant? Ist das jetzt eine Mediation, oder ein Suppressoreffekt (mit beidem kenne ich mich aber überhaupt nicht aus), oder irgendetwas anderes? Wie verfahre ich jetzt weiter, um das herauszufinden, was hier eigentlich passiert ist?
Oder verwerfe ich das Modell einfach, da ja das R² kleiner wird als im vorherigen Modell? Wenn ich Individualismus allerdings als Prädiktor vorher vor dem Gesamtstudium hinzu füge, passiert das gleiche, allerdings ist das R² minimal größer als im Modell ohne Individualismus:

Code: Alles auswählen: Call: lm(formula = psychadapt ~ ma$emotional_host + ma$emotional_international + ma$emotional_conational + ma$emotional_home + Nationalität_individuell) Residuals: Min 1Q Median 3Q Max -2.30400 -0.56836 -0.01273 0.63804 1.88758 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.658351 0.342260 13.611 <2e-16 *** ma$emotional_host 0.093818 0.049846 1.882 0.0611 . ma$emotional_international 0.120927 0.051493 2.348 0.0197 * ma$emotional_conational -0.077109 0.046483 -1.659 0.0986 . ma$emotional_home -0.062658 0.051091 -1.226 0.2213 Nationalität_individuell -0.002234 0.002209 -1.011 0.3129 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.8962 on 222 degrees of freedom (94 observations deleted due to missingness) Multiple R-squared: 0.07703, Adjusted R-squared: 0.05625 F-statistic: 3.706 on 5 and 222 DF, p-value: 0.003054

Individualismus hat keinen direkten Einfluss auf die Adaptation, das hab ich getestet.

Vielen Dank für eure Tipps!

strukturmarionette · von **strukturmarionette** » Mo 21. Mär 2016, 17:34

http://www.r-forum.de/

PonderStibbons · von **PonderStibbons** » Mo 21. Mär 2016, 23:46

- was ist denn jetzt passiert? Wieso ist das, was vorher signifikant war (nämlich der negative Einfluss der Conationals), nicht mehr signifikant?

Du hast zwei unterschiedliche Stichproben. Die zweite ist deutlich kleiner.
Der Koeffizient ist derselbe, aber der Standardfehler ist jetzt größer, daher
ändert sich der p-Wert. Von 0,017 auf 0,081, also von etwas unter der magischen,
(aber sachlich eigentlich gleichgültigen) 5% Schwelle auf etwas drüber.

Wegen der Art und Weise, wie Du hier die Modelle zusammenbaust, sind die
p-Werte aber sowieso wenig aussagekräftig. Du machst Vortests, schmeißt
dann Variablen beliebig rein bzw. holst sie wieder raus, was alles die p-Werte
verzerrt. Nach all der Rumprobierei kriegst Du allzu rasch ein Modell, das
möglichst an den Stichprobendatensatz angepasst ist, aber vielfältig den
Zufall ausgenutzt hat und das fraglich generalisierbar ist. Stichwort overfitting
- das sollte Deine eigentliche Sorge sein (neben Auffrischung von Kenntnissen
über den Zusammenhang zwischen Stichprobengröße, Standardfehler und
p-Wert beim t-Test von Regressionskoeffizienten, s.o.).

Mit freudlichen Grüßen

P.

fischmonger · von **fischmonger** » Di 22. Mär 2016, 14:34

Hallo P, danke für deine Antwort- allerdings muss ich nochmal nachfragen:

-
Du hast zwei unterschiedliche Stichproben. Die zweite ist deutlich kleiner.

Ich schau mir ja die gleiche Stichprobe an, in der Variable Individualismus haben aber ganz viele Leute fehlende Werte. Ist es das, was du meinst?

Nach all der Rumprobierei kriegst Du allzu rasch ein Modell, das
möglichst an den Stichprobendatensatz angepasst ist, aber vielfältig den
Zufall ausgenutzt hat und das fraglich generalisierbar ist. Stichwort overfitting
- das sollte Deine eigentliche Sorge sein

Deiner Meinung nach wäre es also eventuell sinnvoller, R direkt eine schrittweise Regression rechnen zu lassen, statt dass ich selbst Prädiktoren ins Modell packe, die von der Theorie her passen könnten?

Danke!

PonderStibbons · von **PonderStibbons** » Di 22. Mär 2016, 14:50

Ich schau mir ja die gleiche Stichprobe an, in der Variable Individualismus haben aber ganz viele Leute fehlende Werte. Ist es das, was du meinst?

Du schaust Dir nicht die gleiche Stichprobe an. Das ist vielleicht das, was Du möchtest,
aber analysiert werden zwei sehr unterschiedliche Stichproben, zuallermindest was die
Größe angeht.

wäre es also eventuell sinnvoller, R direkt eine schrittweise Regression rechnen zu lassen,

Falls gemeint ist, schrittweise Regression mit automatischer Variablenselektion,
so kenne ich niemanden, der ernstlich sowas empfiehlt.

Was sinnvoll sein kann, vermag ich nicht zu sagen, da Du das Ziel und den Zweck der
Studie und der Datenanalyse nicht angegeben hast. Gegebenenfalls erstelle ein Modell
nach Deinen theoretischen Vorüberlegungen und teste es. Da Du Variablen mit fehlenden
Werten hast, werden Vergleiche von Modellen mit versus ohne diese Variablen aber
problematisch, eben wegen wechselnder Stichproben.

Mit freundlichen Grüßen

P.

STATISTIK-FORUM.de

Signifikanter Effekt verschwindet bei zusätzlichem Prädiktor

Signifikanter Effekt verschwindet bei zusätzlichem Prädiktor

Re: Signifikanter Effekt verschwindet bei zusätzlichem Prädi

Re: Signifikanter Effekt verschwindet bei zusätzlichem Prädi

Re: Signifikanter Effekt verschwindet bei zusätzlichem Prädi

Re: Signifikanter Effekt verschwindet bei zusätzlichem Prädi

Wer ist online?