Hallo liebes Statistik-Forum
ich möchte für meine Hausarbeit eine multiple Regression durchführen und habe als Sozialwissenschaftlerin nicht ganz so den durchblick!
Ich habe eine abhängige und bisher 13 unabhängige Variablen. Bei allen Variablen gilt die grundsätzliche Annahme der Linearität, allerdings korrelieren (nach Pearson und Spearman) nur 3 Variablen (eine mit ca 0,4 und zwei mit je ca 0,2) mit meiner abhängigen. Meine abhängige Variable ist die Abweichung in Tagen zu einem bestimmten Termin (wenn keine Abweichung dann =0), dh metrische skallierung, aber nicht stetig sondern diskret. Es handelt sich bei meinem Datensatz um einen großen realen Datensatz (über 200.000 reale Daten), den ich aus einer Datenbank von Geschäftsvorfällen habe, dh. es gibt teilweise auch Fälle die abhängig voneinander sein könnten.
Mit R habe ich eine Variabenselektion mit der Funktion step() (stepwise, forward, backward) durchgeführt, sodass mein "bestes" lineares Modell mir den folgenden Output liefert:
Residuals:
Min: -152.276
1Q: -4.305
Median: 0.422
3Q: 3.630
Max: 178.721
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.225e+00 1.115e+00 6.480 9.20e-11 ***
x1dummy1 -9.892e-01 1.155e+00 -0.856 0.391935
x1dummy2 -1.158e+01 7.947e-01 -14.569 < 2e-16 ***
x1dummy3 -9.625e+00 1.243e+00 -7.746 9.50e-15 ***
x1dummy4 -1.483e+01 7.722e-01 -19.206 < 2e-16 ***
x1dummy5 2.808e+01 8.104e-01 34.657 < 2e-16 ***
x1dummy6 -1.123e+01 7.936e-01 -14.154 < 2e-16 ***
x1dummy7 -1.300e+01 8.179e-01 -15.892 < 2e-16 ***
x1dummy8 -1.012e+01 7.686e-01 -13.168 < 2e-16 ***
x2 1.860e-01 1.346e-03 138.137 < 2e-16 ***
x3 -7.143e-02 2.197e-03 -32.516 < 2e-16 ***
x2dummy1 -2.922e+00 5.331e-01 -5.481 4.23e-08 ***
x2dummy2 -3.461e+00 5.066e-01 -6.833 8.36e-12 ***
x2dummy3 -3.629e+00 5.074e-01 -7.153 8.52e-13 ***
x2dummy4 -2.927e+00 5.196e-01 -5.632 1.78e-08 ***
x2dummy5 -4.886e-01 5.885e-01 -0.830 0.406384
x2dummy6 1.055e+01 2.568e+00 4.108 4.00e-05 ***
x2dummy7 -2.422e+00 5.045e-01 -4.801 1.58e-06 ***
x2dummy8 -1.925e+00 5.190e-01 -3.709 0.000208 ***
x2dummy9 -7.913e+00 5.457e-01 -14.500 < 2e-16 ***
x2dummy10 -3.174e+00 5.095e-01 -6.230 4.68e-10 ***
x2dummy11 -9.268e+00 1.089e+00 -8.510 < 2e-16 ***
x2dummy12 -1.536e+00 7.530e-01 -2.040 0.041335 *
x2dummy13 -1.055e+00 7.211e-01 -1.464 0.143295
x2dummy14 -2.772e+00 6.385e-01 -4.342 1.41e-05 ***
x2dummy15 -4.808e+00 8.985e-01 -5.351 8.74e-08 ***
x2dummy16 -3.384e+00 1.598e+00 -2.118 0.034145 *
x2dummy17 -1.878e+00 8.093e-01 -2.320 0.020331 *
x2dummy18 -1.023e+01 1.347e+00 -7.595 3.09e-14 ***
x2dummy19 4.842e-01 1.335e+00 0.363 0.716763
x2dummy20 -1.077e+00 6.036e-01 -1.784 0.074388 .
x2dummy21 -4.581e+00 5.067e-01 -9.041 < 2e-16 ***
x2dummy22 3.644e-08 1.337e-09 27.251 < 2e-16 ***
x3 2.682e-01 1.325e-02 20.248 < 2e-16 ***
x4dummy1 -1.721e+00 4.502e-01 -3.822 0.000132 ***
x4dummy2 -1.211e+00 4.759e-01 -2.544 0.010967 *
x4dummy3 -1.000e+00 4.119e-01 -2.428 0.015197 *
x4dummy4 -2.106e+00 5.115e-01 -4.117 3.84e-05 ***
x4dummy5 -2.577e+00 5.346e-01 -4.820 1.44e-06 ***
x4dummy6 -5.751e+00 5.568e-01 -10.329 < 2e-16 ***
x5 -1.068e+00 1.216e-01 -8.785 < 2e-16 ***
x6 -8.784e-01 6.654e-02 -13.202 < 2e-16 ***
x7 8.759e+00 7.438e-01 11.776 < 2e-16 ***
x8dummy1 3.518e+00 4.363e-01 8.063 7.46e-16 ***
x8dummy2 1.545e+00 2.878e-01 5.368 7.98e-08 ***
x9 1.349e-03 3.485e-04 3.871 0.000108 ***
x10 -5.358e-02 2.624e-02 -2.042 0.041196 *
Residual standard error: 14.79 on 280278 degrees of freedom
Multiple R-squared: 0.26, Adjusted R-squared: 0.2599
F-statistic: 2140 on 46 and 280278 DF, p-value: < 2.2e-16
Frage 1: Liege ich nun mit der interpretation richtig, dass dieses Ergebinss der Regression eine recht gute Güte aufweist? (da guter R² und Signifikanz des Models und der Prädikatoren?
Nun komme ich zu meinem eigentlichen Anliegen, nämlich der Prüfung der Modellprämissen. Dazu komme ich bzgl. Multikollinearität (vif-Test) auf gute Ergebnisse, allerdings habe Probleme und Fragen bzgl. Autokorrelation, Heteroskedastizität und normalverteilung der Residueen. Folgende Infos:
Goldfeld-Quandt test
GQ = 1.2866, df1 = 111134, df2 = 111133, p-value < 2.2e-16
Durbin-Watson test
DW = 0.1148, p-value < 2.2e-16
alternative hypothesis: true autocorrelation is not 0
Frage 2: Muss ich aufgrund meiner hohen Samplesize besondere Dinge bei der Analyse beachten? Muss ich z.B. überhaupt Residueen auf normalverteilung prüfen?
Frage 3: Wie gehe ich nun mit der durch den GQ-Test herausgefundenen Heteroskedastizität um? Kann ich diese beseitigen durch andere Methoden, z.B. andere, robustere Schätzmethoden? Ich habe auch schon rlm() versucht, also eine robuste Regression aber da ändert sich auch nicht viel..
Frage 4: Wie gehe ich mit der extremen positiven Autokorrelation um? Welche Maßnahmen gibt es hierfür?
Frage 5: Wie stehen die Chancen diese Probleme in den Griff zu bekommen und was mache ich, wenn ich diese nicht in den Griff bekomme?
Ich würde euch wirklich extrem dankbar für jegliche Art von Hilfe sein!
Liebe Grüße, Marie