STATISTIK-FORUM.de

mariiiie · von **mariiiie** » Do 21. Mai 2015, 12:44

Hallo liebes Statistik-Forum

ich möchte für meine Hausarbeit eine multiple Regression durchführen und habe als Sozialwissenschaftlerin nicht ganz so den durchblick! :roll:

Ich habe eine abhängige und bisher 13 unabhängige Variablen. Bei allen Variablen gilt die grundsätzliche Annahme der Linearität, allerdings korrelieren (nach Pearson und Spearman) nur 3 Variablen (eine mit ca 0,4 und zwei mit je ca 0,2) mit meiner abhängigen. Meine abhängige Variable ist die Abweichung in Tagen zu einem bestimmten Termin (wenn keine Abweichung dann =0), dh metrische skallierung, aber nicht stetig sondern diskret. Es handelt sich bei meinem Datensatz um einen großen realen Datensatz (über 200.000 reale Daten), den ich aus einer Datenbank von Geschäftsvorfällen habe, dh. es gibt teilweise auch Fälle die abhängig voneinander sein könnten.

Mit R habe ich eine Variabenselektion mit der Funktion step() (stepwise, forward, backward) durchgeführt, sodass mein "bestes" lineares Modell mir den folgenden Output liefert:

Residuals:
Min: -152.276
1Q: -4.305
Median: 0.422
3Q: 3.630
Max: 178.721

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.225e+00 1.115e+00 6.480 9.20e-11 ***
x1dummy1 -9.892e-01 1.155e+00 -0.856 0.391935
x1dummy2 -1.158e+01 7.947e-01 -14.569 < 2e-16 ***
x1dummy3 -9.625e+00 1.243e+00 -7.746 9.50e-15 ***
x1dummy4 -1.483e+01 7.722e-01 -19.206 < 2e-16 ***
x1dummy5 2.808e+01 8.104e-01 34.657 < 2e-16 ***
x1dummy6 -1.123e+01 7.936e-01 -14.154 < 2e-16 ***
x1dummy7 -1.300e+01 8.179e-01 -15.892 < 2e-16 ***
x1dummy8 -1.012e+01 7.686e-01 -13.168 < 2e-16 ***
x2 1.860e-01 1.346e-03 138.137 < 2e-16 ***
x3 -7.143e-02 2.197e-03 -32.516 < 2e-16 ***
x2dummy1 -2.922e+00 5.331e-01 -5.481 4.23e-08 ***
x2dummy2 -3.461e+00 5.066e-01 -6.833 8.36e-12 ***
x2dummy3 -3.629e+00 5.074e-01 -7.153 8.52e-13 ***
x2dummy4 -2.927e+00 5.196e-01 -5.632 1.78e-08 ***
x2dummy5 -4.886e-01 5.885e-01 -0.830 0.406384
x2dummy6 1.055e+01 2.568e+00 4.108 4.00e-05 ***
x2dummy7 -2.422e+00 5.045e-01 -4.801 1.58e-06 ***
x2dummy8 -1.925e+00 5.190e-01 -3.709 0.000208 ***
x2dummy9 -7.913e+00 5.457e-01 -14.500 < 2e-16 ***
x2dummy10 -3.174e+00 5.095e-01 -6.230 4.68e-10 ***
x2dummy11 -9.268e+00 1.089e+00 -8.510 < 2e-16 ***
x2dummy12 -1.536e+00 7.530e-01 -2.040 0.041335 *
x2dummy13 -1.055e+00 7.211e-01 -1.464 0.143295
x2dummy14 -2.772e+00 6.385e-01 -4.342 1.41e-05 ***
x2dummy15 -4.808e+00 8.985e-01 -5.351 8.74e-08 ***
x2dummy16 -3.384e+00 1.598e+00 -2.118 0.034145 *
x2dummy17 -1.878e+00 8.093e-01 -2.320 0.020331 *
x2dummy18 -1.023e+01 1.347e+00 -7.595 3.09e-14 ***
x2dummy19 4.842e-01 1.335e+00 0.363 0.716763
x2dummy20 -1.077e+00 6.036e-01 -1.784 0.074388 .
x2dummy21 -4.581e+00 5.067e-01 -9.041 < 2e-16 ***
x2dummy22 3.644e-08 1.337e-09 27.251 < 2e-16 ***
x3 2.682e-01 1.325e-02 20.248 < 2e-16 ***
x4dummy1 -1.721e+00 4.502e-01 -3.822 0.000132 ***
x4dummy2 -1.211e+00 4.759e-01 -2.544 0.010967 *
x4dummy3 -1.000e+00 4.119e-01 -2.428 0.015197 *
x4dummy4 -2.106e+00 5.115e-01 -4.117 3.84e-05 ***
x4dummy5 -2.577e+00 5.346e-01 -4.820 1.44e-06 ***
x4dummy6 -5.751e+00 5.568e-01 -10.329 < 2e-16 ***
x5 -1.068e+00 1.216e-01 -8.785 < 2e-16 ***
x6 -8.784e-01 6.654e-02 -13.202 < 2e-16 ***
x7 8.759e+00 7.438e-01 11.776 < 2e-16 ***
x8dummy1 3.518e+00 4.363e-01 8.063 7.46e-16 ***
x8dummy2 1.545e+00 2.878e-01 5.368 7.98e-08 ***
x9 1.349e-03 3.485e-04 3.871 0.000108 ***
x10 -5.358e-02 2.624e-02 -2.042 0.041196 *

Residual standard error: 14.79 on 280278 degrees of freedom
Multiple R-squared: 0.26, Adjusted R-squared: 0.2599
F-statistic: 2140 on 46 and 280278 DF, p-value: < 2.2e-16

Frage 1: Liege ich nun mit der interpretation richtig, dass dieses Ergebinss der Regression eine recht gute Güte aufweist? (da guter R² und Signifikanz des Models und der Prädikatoren?

Nun komme ich zu meinem eigentlichen Anliegen, nämlich der Prüfung der Modellprämissen. Dazu komme ich bzgl. Multikollinearität (vif-Test) auf gute Ergebnisse, allerdings habe Probleme und Fragen bzgl. Autokorrelation, Heteroskedastizität und normalverteilung der Residueen. Folgende Infos:

Goldfeld-Quandt test
GQ = 1.2866, df1 = 111134, df2 = 111133, p-value < 2.2e-16

Durbin-Watson test
DW = 0.1148, p-value < 2.2e-16
alternative hypothesis: true autocorrelation is not 0

Bild

Frage 2: Muss ich aufgrund meiner hohen Samplesize besondere Dinge bei der Analyse beachten? Muss ich z.B. überhaupt Residueen auf normalverteilung prüfen?
Frage 3: Wie gehe ich nun mit der durch den GQ-Test herausgefundenen Heteroskedastizität um? Kann ich diese beseitigen durch andere Methoden, z.B. andere, robustere Schätzmethoden? Ich habe auch schon rlm() versucht, also eine robuste Regression aber da ändert sich auch nicht viel..
Frage 4: Wie gehe ich mit der extremen positiven Autokorrelation um? Welche Maßnahmen gibt es hierfür?
Frage 5: Wie stehen die Chancen diese Probleme in den Griff zu bekommen und was mache ich, wenn ich diese nicht in den Griff bekomme?

Ich würde euch wirklich extrem dankbar für jegliche Art von Hilfe sein!

Liebe Grüße, Marie

DHA3000 · von **DHA3000** » Do 21. Mai 2015, 18:47

Schreib mal ein wenig mehr zu deinen Daten. Ich verstehe nur Bahnhof.
Und wie kommt dieser riesen Output zustande? Du hast 13 Variablen und anscheinend ziemlich viele Dummys. Was ist das?

mariiiie · von **mariiiie** » Do 21. Mai 2015, 22:09

Danke für die schnelle Antwort!

Zum Output: Von den ursprünglich 13 erklärenden Variablen bleiben nach Variablenselektion (mit step()-Funktion in R) noch 10 übrig, davon sind drei Variablen nominalskalliert mit verschiedenen (bis zu 22) Ausprägungen und eine ist dichotom, kann also nur zwei Werte annehmen. Ich weiß dass ich nur n-1 dummys brauche, das macht R mit der factor()-Funktion meines Wissens nach aber automatisch. Und natürlich hast du recht, eigentlich habe ich mehr als 10 Variablen, da ja jede dummy-Ausprägung eine Variable ist :roll:

Stellt das Vorhandensein von so vielen dummys etwa ein Problem dar?

Zu den Daten:
Diese insgesamt 10 übrig gebliebenen unabhängigen Variablen sollen einen Zeitpunkt voraussagen. Konkret geht es um die Rückgabe von Leihwagen - wird der Leihwagen am vereinbarten Termin (oder bei einer Mietdauer von nur ein paar Stunden noch am selben Tag) zurückgegeben, ist der Wert der abhängigen Variable 0. Wird der Leihwagen früher als vereinbart zurückgegeben, ist das Vorzeichen negativ - wird er zu spät abgegeben, positiv. Der Wert der AV bestimmt sich also je nach Anzahl der Tage, die die Rückgabe des Wagens vom ausgemachten Rückgabedatum abweicht. Bsp: Gebe ich meinen geliehenen Wagen zwei Tage zu spät zurück, ist der Wert meiner AV=2.
Die unabhängigen Variablen sind eine Reihe von Einflussfaktoren, denen ein linearer Einfluss auf das "Rückgabeverhalten" der Kunden unterstellt wird. Um z.B. kurz eine dummy-Variable zu nennen, die mit den 22 Ausprägungen steht für verschiedene Nationalitäten. Der Datensatz ist zudem ziemlich "Ausreißerbelastet".

Habe bezüglich meiner Fragen in der Zwischenzeit auch etwas recherchiert und frage mich nun, ob es bereits ausreichend ist, wenn man den Problemen der Autokorrelation und der Heteroskedastizität einfach nur "Rechnung trägt", indem man eben robuste Schätzer einsetzt. Die Daten sind ja gegeben und Autokorrelation und Heteroskedastizität werden wohl nicht einfach verschwinden? Mit anderen Worten: Kann man das Problem von Autokorrelation und Heteroskedastizität bei Residuen überhaupt anders beseitigen, als einfach robustere Schätzer wie den M-Schätzer zu benutzen? Ist speziell für das oben beschriebene Modell eine Schätzmethode besonders zu empfehlen? Wie sieht es mit Transformation der Daten im Vorfeld aus?

Entschuldigt die vielen Fragen, aber ich bin erst seit kurzem in der Materie

Vielen Dank für eure Zeit und eure Antworten!!
LG

strukturmarionette · von **strukturmarionette** » Do 21. Mai 2015, 22:55

Hi,

- bei N=200000 und bei irgendwas an x-beliebiegen UVs dazu könnte man sich über ein geeignetes Mehrebenenmodell Gedanken machen
- diese 'x-beliebigen' UVs würden dann zunächst im Mittelpunkt stehen
- Stichwort: korrekte Spezifikation des Modells
- einige Einschränkungen der multiplen Regression werden dann aufgehoben
- es gäbe aber mehr Möglichkeiten

Gruß
S.

folgende User möchten sich bei strukturmarionette bedanken:
mariiiie

mariiiie · von **mariiiie** » Do 21. Mai 2015, 23:19

Hi und merci für deinen Input, leider ist die Regression als Modellform mit dem Prof vereinbart worden und soll auch explizit verwendet werden.
Nun bin ich um ein bestmögliches Ergebinss bemüht!

LG Marie

mariiiie · von **mariiiie** » Fr 22. Mai 2015, 20:50

Habe nun meine Fragen was Heteroskedastizität angeht weitestgehend selbst beantworten können - habe aber noch zwei neue:

- Um das Heteroskedastizität zu "beheben", nehme ich nun die OLS mit robusten Standardfehlern ( package in R: sandwich -> HC1, HC2 und HC3). Ich habe gelesen, dass man wenn man sich nicht genau sicher ist woher die Heteroskedastizität kommt, weiterhin OLS verwenden soll, da die Koeffizienten mit OLS erwartungstreu (nur nicht effi
zient) geschätzt werden, anstelle der OLS Standardfehler aber robuste Standardfehler berechnet werden. Wenn man aber eine Idee davon hat, woher diese stammt, dann könnte man auch die WLS oder gar die FGLS verwenden.
Nun meine Frage:
Kann ich die Art / Ursache der Heteroskedastizität erkennen und wenn ja, wie stelle ich das an?
Bis zu welchem Grad behebe ich das Problem der Heteroskedastizität mit dem oben genannten vorgehen (OLS mit robusten Standardfehlern)?

- Was die Autokorrelation angeht, so bin ich noch nicht wirklich weiter gekommen! Was kann ich dagegen unternehmen?

DHA3000 · von **DHA3000** » Fr 22. Mai 2015, 23:00

Wennn du das wahre Modell kannst, kannst du eine WLS-Schätzung machen und damit die Struktur der Residuen implementieren.
Da das aber niemals bei dir der Fall sein wird, nimm robuste Standardfehler. Bei Autokorrelation ist die herangehensweise die Gleiche.
Nimm die HAC-Standardfehler, damit korrigierst du für beides, sofern du AC auch hast.

folgende User möchten sich bei DHA3000 bedanken:
mariiiie

mariiiie · von **mariiiie** » Sa 23. Mai 2015, 01:22

Vielen Dank!

Ich habe mich nun für den Newey-West-Standardfehler entschieden, da ich nun mehrmals gelesen habe, dass dieser für große Stichproben häufig eingesetzt wird.

Code: Alles auswählen: >library(sandwich) >library(lmtest) >coeftest(model, vcov = NeweyWest)

Dieser soll die verzerrten OLS-Standardfehler in meiner Regression, die durch Homoskedastizität und Autokorrelation in den Daten entstanden sind, korrigieren und damit den falschen Signifikanzen meiner Variablen vorbeugen. Stimmt das soweit? Einige Variablen sind nun nicht mehr signifikant, andere immernoch. Wie auch erwartet, sind die Standardfehler größer geworden, die Koeffizienten bleiben gleich.

Nun noch eine Frage:
Was passiert mit der Güte des Modells, wenn ich die Standardfehler der Variablen "bereinige"? Bleibt das Model (also z.B. Adjusted-R² und F-Test) dann gleich oder verändern sich mit den neuen Standardfehlern diese Werte? Falls ja, wie kann ich diese neuen Werte einsehen? Was ist mit der Residuenverteilung und dem Standardfehler der Residuen für das ganze Model? Meiner Überlegung nach müsste sich ja nur der F-Test ändern oder? Bei den Residuen bin ich mir nicht ganz sicher...

Leider werden in R bei der Funktion coeftest() nur Signifikanzwerte für Variablen ausgegeben...
Ich bräuchte etwas wie die summary() Funktion für mein "bereinigtes" Model - mit anderen Worten, wie kann ich meine neuen robusten Standardfehler in mein Modell implementieren?

Vielen lieben Dank und liebe Grüße!!

DHA3000 · von **DHA3000** » Sa 23. Mai 2015, 12:28

Schau doch mal, wie sich das R² errechnet. Dann wist du sehen, dass dafür nur die wahren und die geschätzten Werte von deiner abhängigen Variable benötigt werden.
Durch die Korrektur der Standardfehler ändern sich aber deine Koefficienten nicht, folglich bleibt auch das R² gleiche. Da der F-Test testet, ob das R² von 0 verschieden ist,
ändert sich auch dieser Wert nicht.
Mehr als das, was in coeftest() angegeben wird, brauchst du also nicht.

Du hast Heteroskedastizität und Homoskedastizität vertauscht.

mariiiie · von **mariiiie** » Sa 23. Mai 2015, 18:17

Alles klar, vielen Dank!

Ein Frage noch zu den Modelprämissen:
Muss der Zusammenhang zwischen der abhängigen Variable mit jeweils allen unabhängigen Variablen für sich linear sein? Ich habe ja auch einige dummys in meiner Regression, wie kann ich dort einen linearen Zusammenhang aufdecken? (Kontingenzkoeffizient zeigt ja auch nicht die Art des Zusammenhangs auf?). Bisher habe ich diese Zusammenhänge nur vermutet, einen Korrelationskoeffizienten von >0,2 haben nur 3 meiner metrischen unabhängigen Variablen mit der abhängigen Variable... heißt das, ich darf theoretisch nur diese drei Variablen verwenden? Was ist, wenn aber aufgrund von gut begründbaren Überlegungen einige unabhängige Variablen mitaufgenommen werden sollten, diese aber mit der abhängigen Variablen nicht direkt stark korrelieren? Welche Möglichkeiten gibt es beim Linearisieren einzelner Variablen bzw. Transformieren des ganzen Models?

Entschuldigt bitte die vielen Fragen, sich das ganze in so kurzer Zeit anzueignen verlangt einem einiges ab

Danke schonmal und LG!

STATISTIK-FORUM.de

Regressionsanalyse - Modelprämissen stimmen nicht

Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Re: Regressionsanalyse - Modelprämissen stimmen nicht

Wer ist online?