Regressionsdiagnostik

Alle Verfahren der Regressionanalyse.

Regressionsdiagnostik

Beitragvon MinaMina » Mo 7. Nov 2016, 11:13

Hallo zusammen,

ich bräuchte dringend kompetenten Rat!

Derzeit führe ich eine einfache lineare Regression durch, um separten Überblick über die Zusammenhänge zwischen der abhängigen und den unabhängigen Variablen zu erhalten.
Dazu verwende ich R.

Nun bin ich bei dem Thema "Regressionsdiagnostik" gelandet und musste anhand der Plots feststellen, dass im Plot "Residuals vs Fitted" eine Trichterform (also Heteroskedastizität), die sich nach hinten öffnet, vorliegt und ebenfalls die Linie nicht gerade ist (also Linear) sondern einen kleinen Bogen nach unten macht. Die Residue sind annährend normalverteilt (nur am hinteren Ende weichen die Werte von der "QQLine" ab). Nun habe ich etwa die halbe Nacht nach Möglichkeiten gesucht, wie man Heteroskedastizität entgegenwirken kann. Dabei bin ich auf die Robusten Regression gestoßen. Ich habe gesehen, dass sich die Standardfehler sowie t und p-Werte somit neu berechnen lassen und das unter:
Test1 <- vcocHC(DataFrame, type="HC3")
coeftest(DataFrame, vcov=Test1)
Somit bekomme ich wieder gültige t und p-Werte sowie einen höheren Standardfehler. Nun einige Frage:
1. Was bedeutet dieses HC3?
2. Ändert sich NUR der Standardfehler, p und t Wert? Wie interpretiere ich das nun - bleibt das R² und die Steigung erhalten nur der t und p Wert sowie der Standardfehler müssen im Vergleich zur "alten" Interpretation ersetzt werden?
3. Was ist mit der Verletzung, dass die Residuen nicht linear sind?
4. Gibt es noch einfachere/bessere Möglichkeiten?

Noch eine kleine Anmerkung: die abhängige Variable lässt sich nicht normalverteilen.

Ich freue mich riesig über Hilfe und neue Ratschläge und bedanke mich schon herzlich im Voraus!!!

Liebe Grüße
MinaMina
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mo 7. Nov 2016, 10:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regressionsdiagnostik

Beitragvon bele » Mo 7. Nov 2016, 12:01

Hallo Mina^2,

MinaMina hat geschrieben:1. Was bedeutet dieses HC3?

Mal sehen. Weil Du nicht angegeben hast, woher Du diese Funktion vcocHC() hast habe ich gegooglet und schließe, dass sie aus dem Package {sandwich} stammt. Löblicherweise kommt dieses Package mit einer ausführlichen Vignette, geschrieben von Zeileis. Die findest Du hier:
https://cran.r-project.org/web/packages ... ndwich.pdf
Merke: Wenn Du ein für Dich neues Packages nimmst, und das kommt mit Vignette, dann diese immer anschauen! Oft sind die mit viel Liebe gemacht. In diesem Fall wird Deine Frage auf Seite 4 beantwortet, wo sich die Formeln für HC0 bis HC4 finden zusammen mit folgender Feststellung:
The estimators HC1, HC2 and HC3 were suggested by MacKinnon and White (1985) to improve
the performance in small samples. A more extensive study of small sample behaviour was
carried out by Long and Ervin (2000) which arrive at the conclusion that HC3 provides the
best performance in small samples as it gives less weight to influential observations. Recently,
Cribari-Neto (2004) suggested the estimator HC4 to further improve small sample
performance, especially in the presence of influential observations.

Ja, zu jedem dieser Zitate findet sich die komplette Zitierung am Ende des Dokuments!


4. Gibt es noch einfachere/bessere Möglichkeiten?

Ich verstehe eigentlich nichts über robuste Regressionen, aber ich bin sicher, dass man für Antworten gerne mehr über die Regression wüsste, zum Beispiel ob man es mit großen oder kleinen Stichproben zu tun hat, ob es viele Ausreißer gibt, wie die diagnostischen Plots genau aussehen und wie sie mit dem eingeschlagenen Weg aussehen, ob Du es mit einem quadratischen Term versucht hast, kurzum viel mehr Background.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Regressionsdiagnostik

Beitragvon strukturmarionette » Mo 7. Nov 2016, 12:54

Hi,

Noch eine kleine Anmerkung: die abhängige Variable lässt sich nicht normalverteilen.

- Was soll denn das bedeuten?
- Benenne doch zumindest einmal Deine Stichprobengrößen.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Regressionsdiagnostik

Beitragvon MinaMina » Mo 7. Nov 2016, 13:25

Hallo,

danke für die schnellen Antworten.
Werde mir die Beschreibung bezüglich der HC durchlesen - ich dachte HC3 ist richtig, da ich gelesen habe, dass es in R als Standard gilt.

Die Stichprobengröße liegt bei etwa 1300.

Eine Normalverteilung der abhängigen Variable ist nicht möglich, da die meisten Werte zwischen 0 und 10 liegen (grob geschätzt - Mittelwert etwa bei 8) und diese Werte mit deutlich kleineren Häufigkeiten bis zu etwa 200 gehen. Im Histogram sieht es quasi aus als hätte man die rechte Hälfte einer Normalverteilung, die von der Mitte her SEHR SCHNELL abnimmt und ganz am Ende bei 200 ein paar Ausreißer hat.

Die unabhängigen Variablen lassen sich großteils normalverteilen bzw. nähern sich gut einer Normalverteilung an.

Bekomme dann meist bei der einfachen linearen Regression der verschiedenen unabhängigen Variablen (da ich im Vorfeld alle separat betrachten soll) ein R² über 45 - 50 % heraus und die Regressionsgerade beschreibt eigentlich auch ganz gut den Sachverhalt. Quasi damit ihr euch etwas darunter vorstellen könnt - hier ein Beispiel einer unabhängigen Variable die, die abhängige beschreiben soll: kleine Preise bei schlechtem Wetter und hohe Preise bei gutem Wetter. Also -> es gibt mehr schlecht Wetter mit niedrigen Preisen und diese Werte lassen sich besser vorhersagen als die hohen Preise bei gutem Wetter.

Allerdings ist das ja nicht aussagekräftig, wenn beim Untersuchen der Residuen Heteroskedastizität vorliegt und ebenso die Linearität nicht erfüllt ist.

10000 Dank für eure Hilfe!!!
MinaMina
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mo 7. Nov 2016, 10:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regressionsdiagnostik

Beitragvon strukturmarionette » Mo 7. Nov 2016, 13:49

Hi,

die Verteilungen von UVs uun AV(s) sind -inbesondere bei N =1300- unwichtig.
Klarzukriegen wären zunächst weiterhin die Skalenniveaus aller UVS und AV(s).

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Regressionsdiagnostik

Beitragvon MinaMina » Mo 7. Nov 2016, 14:10

Sowohl bei der aV als auch bei den uV handelt es sich um eine metrische Skala
MinaMina
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mo 7. Nov 2016, 10:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 16 Gäste

cron