Signifikanter Effekt verschwindet bei zusätzlichem Prädiktor

Alle Verfahren der Regressionanalyse.

Signifikanter Effekt verschwindet bei zusätzlichem Prädiktor

Beitragvon fischmonger » Mo 21. Mär 2016, 16:44

Hallo ihr Lieben,
ich stehe ein bisschen auf dem Schlauch.

Meine Daten: 330 internationale Studierende, befragt zu Sachen wie Lebenszufriedenheit und an wen sie sich in verschiedenenen Unterstüzungssituationen (z.B. bei emotionaler Unterstützung) wenden.
Auswertung: mit R
meine Hypothese: Eine höhere Ausprägung für die Unterstützungswahrscheinlichkeit durch host-nationals oder andere internationals
in Situationen für emotionale Unterstützung sagt eine bessere psychologische Adaptation vorher.

Mein Problem: Ich rechne eine einfache lineare Regression mit R um zu schauen, ob eine höhere Ausprägung der Unterstützung durch conationals einen Einfluss auf die Ausprägung der Adaptation hat


Code: Alles auswählen
all:
lm(formula = psychadapt ~ ma$emotional_conational)

Residuals:
     Min       1Q   Median       3Q      Max
-2.77594 -0.61340 -0.03214  0.67413  2.09286

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)   
(Intercept)              4.85720    0.15378  31.585   <2e-16 ***
ma$emotional_conational -0.08127    0.03899  -2.084   0.0379 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9042 on 320 degrees of freedom
Multiple R-squared:  0.0134,   Adjusted R-squared:  0.01031
F-statistic: 4.345 on 1 and 320 DF,  p-value: 0.03791


- Unterstützung durch conationals hat also einen negativen Einfluss.
Ich füge die anderen Prädiktoren (Personen, an die sich die Leute wenden) schrittweise hinzu, nachdem ich alle einzeln getestet habe, ob sie einen Einfluss haben. Wenn alle drin sind, sieht das Modell so aus:
Code: Alles auswählen
lm(formula = psychadapt ~ ma$emotional_host + ma$emotional_international +
    ma$emotional_conational + ma$emotional_home)

Residuals:
    Min      1Q  Median      3Q     Max
-2.3243 -0.5907 -0.0611  0.6721  1.9317

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)   
(Intercept)                 4.40684    0.27684  15.918  < 2e-16 ***
ma$emotional_host           0.11016    0.04040   2.727  0.00675 **
ma$emotional_international  0.12051    0.04208   2.864  0.00446 **
ma$emotional_conational    -0.08931    0.03835  -2.329  0.02049 * 
ma$emotional_home          -0.04478    0.04299  -1.042  0.29833   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8793 on 317 degrees of freedom
Multiple R-squared:  0.07581,   Adjusted R-squared:  0.06415
F-statistic: 6.501 on 4 and 317 DF,  p-value: 4.873e-05

Schön, ich freue mich.

Jetzt möchte ich wissen, ob noch andere Prädiktoren mein Modell verbessern, beispielsweise ob es was macht, ob man das gesamte Studium hier absolviert.
Code: Alles auswählen
Call:
lm(formula = psychadapt ~ ma$emotional_host + ma$emotional_international +
    ma$emotional_conational + ma$emotional_home + ma$GesamtstudiumD)

Residuals:
     Min       1Q   Median       3Q      Max
-2.19880 -0.61689 -0.01995  0.66402  2.04489

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)   
(Intercept)                 4.03668    0.30773  13.117  < 2e-16 ***
ma$emotional_host           0.12025    0.04020   2.991  0.00300 **
ma$emotional_international  0.12143    0.04168   2.913  0.00383 **
ma$emotional_conational    -0.09039    0.03799  -2.379  0.01793 * 
ma$emotional_home          -0.05103    0.04265  -1.196  0.23245   
ma$GesamtstudiumD           0.26595    0.10030   2.652  0.00842 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8711 on 316 degrees of freedom
Multiple R-squared:  0.09592,   Adjusted R-squared:  0.08162
F-statistic: 6.706 on 5 and 316 DF,  p-value: 5.9e-06

Immernöch schön, ich freue mich.

Jetzt füge ich den Prädiktor "Individualistische Kultur" hinzu, hier "Nationalität_individuell" genannt. Den VPN wurde je nachdem aus welchem Land sie kommen, ein bestimmter Wert in Individualismus zugewiesen (beispielsweise 80 für amerikanische Probanden, 35 für chinesische Probanden). Hier gibt es allerdings sehr viele missings, weil die Stichprobe diesbezüglich relativ heterogen ist, und die Literatur nicht für alle Länder einen solchen Wert zur Verfügung stellt.
Code: Alles auswählen
lm(formula = psychadapt ~ ma$emotional_host + ma$emotional_international +
    ma$emotional_conational + ma$emotional_home + ma$GesamtstudiumD +
    Nationalität_individuell)

Residuals:
     Min       1Q   Median       3Q      Max
-2.18730 -0.59729  0.01014  0.67788  2.00158

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)   
(Intercept)                 4.293543   0.384086  11.179   <2e-16 ***
ma$emotional_host           0.102254   0.049668   2.059   0.0407 * 
ma$emotional_international  0.129760   0.051314   2.529   0.0121 * 
ma$emotional_conational    -0.080848   0.046193  -1.750   0.0815 . 
ma$emotional_home          -0.068181   0.050804  -1.342   0.1810   
ma$GesamtstudiumD           0.251512   0.123373   2.039   0.0427 * 
Nationalität_individuell   -0.002100   0.002194  -0.957   0.3395   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8899 on 221 degrees of freedom
  (94 observations deleted due to missingness)
Multiple R-squared:  0.09407,   Adjusted R-squared:  0.06948
F-statistic: 3.825 on 6 and 221 DF,  p-value: 0.001196


- was ist denn jetzt passiert? Wieso ist das, was vorher signifikant war (nämlich der negative Einfluss der Conationals), nicht mehr signifikant? Ist das jetzt eine Mediation, oder ein Suppressoreffekt (mit beidem kenne ich mich aber überhaupt nicht aus), oder irgendetwas anderes? Wie verfahre ich jetzt weiter, um das herauszufinden, was hier eigentlich passiert ist?
Oder verwerfe ich das Modell einfach, da ja das R² kleiner wird als im vorherigen Modell? Wenn ich Individualismus allerdings als Prädiktor vorher vor dem Gesamtstudium hinzu füge, passiert das gleiche, allerdings ist das R² minimal größer als im Modell ohne Individualismus:

Code: Alles auswählen
Call:
lm(formula = psychadapt ~ ma$emotional_host + ma$emotional_international +
    ma$emotional_conational + ma$emotional_home + Nationalität_individuell)

Residuals:
     Min       1Q   Median       3Q      Max
-2.30400 -0.56836 -0.01273  0.63804  1.88758

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)   
(Intercept)                 4.658351   0.342260  13.611   <2e-16 ***
ma$emotional_host           0.093818   0.049846   1.882   0.0611 . 
ma$emotional_international  0.120927   0.051493   2.348   0.0197 * 
ma$emotional_conational    -0.077109   0.046483  -1.659   0.0986 . 
ma$emotional_home          -0.062658   0.051091  -1.226   0.2213   
Nationalität_individuell   -0.002234   0.002209  -1.011   0.3129   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8962 on 222 degrees of freedom
  (94 observations deleted due to missingness)
Multiple R-squared:  0.07703,   Adjusted R-squared:  0.05625
F-statistic: 3.706 on 5 and 222 DF,  p-value: 0.003054



Individualismus hat keinen direkten Einfluss auf die Adaptation, das hab ich getestet.

Vielen Dank für eure Tipps!
fischmonger
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mo 11. Jan 2016, 13:10
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Signifikanter Effekt verschwindet bei zusätzlichem Prädi

Beitragvon strukturmarionette » Mo 21. Mär 2016, 17:34

strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Signifikanter Effekt verschwindet bei zusätzlichem Prädi

Beitragvon PonderStibbons » Mo 21. Mär 2016, 23:46

- was ist denn jetzt passiert? Wieso ist das, was vorher signifikant war (nämlich der negative Einfluss der Conationals), nicht mehr signifikant?

Du hast zwei unterschiedliche Stichproben. Die zweite ist deutlich kleiner.
Der Koeffizient ist derselbe, aber der Standardfehler ist jetzt größer, daher
ändert sich der p-Wert. Von 0,017 auf 0,081, also von etwas unter der magischen,
(aber sachlich eigentlich gleichgültigen) 5% Schwelle auf etwas drüber.

Wegen der Art und Weise, wie Du hier die Modelle zusammenbaust, sind die
p-Werte aber sowieso wenig aussagekräftig. Du machst Vortests, schmeißt
dann Variablen beliebig rein bzw. holst sie wieder raus, was alles die p-Werte
verzerrt. Nach all der Rumprobierei kriegst Du allzu rasch ein Modell, das
möglichst an den Stichprobendatensatz angepasst ist, aber vielfältig den
Zufall ausgenutzt hat und das fraglich generalisierbar ist. Stichwort overfitting
- das sollte Deine eigentliche Sorge sein (neben Auffrischung von Kenntnissen
über den Zusammenhang zwischen Stichprobengröße, Standardfehler und
p-Wert beim t-Test von Regressionskoeffizienten, s.o.).

Mit freudlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Signifikanter Effekt verschwindet bei zusätzlichem Prädi

Beitragvon fischmonger » Di 22. Mär 2016, 14:34

Hallo P, danke für deine Antwort- allerdings muss ich nochmal nachfragen:

-
Du hast zwei unterschiedliche Stichproben. Die zweite ist deutlich kleiner.


Ich schau mir ja die gleiche Stichprobe an, in der Variable Individualismus haben aber ganz viele Leute fehlende Werte. Ist es das, was du meinst?

Nach all der Rumprobierei kriegst Du allzu rasch ein Modell, das
möglichst an den Stichprobendatensatz angepasst ist, aber vielfältig den
Zufall ausgenutzt hat und das fraglich generalisierbar ist. Stichwort overfitting
- das sollte Deine eigentliche Sorge sein


Deiner Meinung nach wäre es also eventuell sinnvoller, R direkt eine schrittweise Regression rechnen zu lassen, statt dass ich selbst Prädiktoren ins Modell packe, die von der Theorie her passen könnten?

Danke!
fischmonger
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mo 11. Jan 2016, 13:10
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Signifikanter Effekt verschwindet bei zusätzlichem Prädi

Beitragvon PonderStibbons » Di 22. Mär 2016, 14:50

Ich schau mir ja die gleiche Stichprobe an, in der Variable Individualismus haben aber ganz viele Leute fehlende Werte. Ist es das, was du meinst?

Du schaust Dir nicht die gleiche Stichprobe an. Das ist vielleicht das, was Du möchtest,
aber analysiert werden zwei sehr unterschiedliche Stichproben, zuallermindest was die
Größe angeht.

wäre es also eventuell sinnvoller, R direkt eine schrittweise Regression rechnen zu lassen,

Falls gemeint ist, schrittweise Regression mit automatischer Variablenselektion,
so kenne ich niemanden, der ernstlich sowas empfiehlt.

Was sinnvoll sein kann, vermag ich nicht zu sagen, da Du das Ziel und den Zweck der
Studie und der Datenanalyse nicht angegeben hast. Gegebenenfalls erstelle ein Modell
nach Deinen theoretischen Vorüberlegungen und teste es. Da Du Variablen mit fehlenden
Werten hast, werden Vergleiche von Modellen mit versus ohne diese Variablen aber
problematisch, eben wegen wechselnder Stichproben.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 11 Gäste

cron