Interpretation von Grafiken

Alle Verfahren der Regressionanalyse.

Interpretation von Grafiken

Beitragvon Berry » Mo 14. Mai 2012, 00:29

Hallo Zusammen.

Ich untersuche ein MLR-Modell Y~log(X1)+X2+sqrt(X3)+sqrt(X4)+X5+X6+X7+X8+X9+X10+X11+X12. Dabei sind die Variablen X1, X2, X3, X4 metrisch und die restlichen Variablen nominal skaliert. Die Zielvariable Y stellt eine logarithmierte tatsächlich beobachtete Zielvariable. Die visuelle Überprüfung der (transformierten) Zielvariablen Y auf Normalverteilung kann der Grafik 0 im Anhang 1 entnommen werden. Dabei basiert das linke Bild auf der vollen Datenbasis und das rechte Bild auf der Datenbasis, die durch Bereinigung der vollen Datenbasis von fehlenden Regressoren zustande kam.

Für meine Untersuchungen verwende ich R. Es gibt dort Möglichkeit, einige nützliche Grafiken zu erzeugen. Ich bin aber bei der Interpretierung dieser Grafiken nicht besonders geübt und bräuchte daher Eure Hilfe. Nachstehend werde ich meine Überlegungen zu der jeweiligen Grafik schildern und bitte Euch, mir zu sagen, wenn ich damit richtig liege. Andernfalls bitte ich Euch, mich zu korrigieren bzw. zu vervolständigen, wenn ich etwas übersehen haben sollte. Parallel dazu werde ich auch einige Fragen zum aktuellen Sachverhalt stellen.

Grafik 1: Residuals vs. Fitted (vgl. Anhang 1)

Soweit es mir bekannt ist, soll diese Grafik nur zur Aufdeckung von Heteroskedastizität dienen. Oder irre ich mich? Das Problem der Heteroskedastizität ist für mich momentan das größte Thema. Wie ich vermute, ist die rote Linie ein lowess-smoother für den Residuenmedian oder -mittelwert. Ich kann nur eine leichte Abneigung vom Null-Niveau am rechten Ende beobachten. Anhand dieser Grafik würde sagen, dass die Residuenvarianz für höhere geschätzten Zielvariablenwerte sinkt. Also hier liegt eine Heteroskedastizität vor!

Grafik 2: standardisierte Residuals vs. Fitted (vgl. Anhang 1)

Ebenso wie die Grafik 1, ist diese Grafik nur bei der Aufdeckung von Heteroskedastizität hilfreich, oder? Hier kann ich eindeutig einen negativen Trend in den std. Residuen beobachten. Heisst es, dass meine Störgrößen doch heteroskedastisch sind? Wenn ja, könnte ich damit leben bzw. wie schlimm ist diese im vorliegenden Fall? Gibt es da überhaupt einen Referenzwert zur Messung der Stärke von Heteroskedastizität? Wie kann ich rausfinden, woran es liegt? Die Zielvariable ist ja schon Normalverteilt und daher ist es nicht sinnvoll, diese nochmal zu transformieren. Oder?

Eigentlich sind es gar nicht die standardisierten Residuen, sondern ihre radizierte Absolutbeträge. Laut vielen Statistikbüchern, müssen aber die standardisierten residuen gegen die geschätzten Werte geplottet werden. Wenn ich selbst eine solche Grafik erzeuge (vgl. vgl. Anhang 1, Grafik 2.2), dann würde ich kann ich einen "Dreicksmuster" beobachten. Dies bestätigt das Vorhandensein der Heteroskedastie.
Anhang 1.jpg
Anhang 1.jpg (192.46 KiB) 1308-mal betrachtet


Grafiken 1a und 2a (vgl. Anhang 2)

Dies sind die gleichen Grafiken wie 1 und 2, jedoch für ein anderes Modell. Ich habe sie erzeugt, um den Unterschied bei der Entscheidung anhand der beiden Grafiken besser nachzuvollziehen. Wie schaut es denn hier mit dem Problem der Hetero- bzw. Homoskedastie aus, besser oder schlechter als bei meinem Modell? Bitte begründen!

Anhang 2.jpg
Anhang 2.jpg (71.42 KiB) 1308-mal betrachtet


Grafik 3: (Normal-)QQ-Plot (vgl. Anhang 3)

Hieran lässt sich überprüfen, ob die Annahme eines linearen Zusammenhangs aus Ziel- und Kovariablen wirklich gerechtfertigt war. Im vorliegenden Fall kann ich sagen, dass die Residuen (oder Störgrößen?) bzw. geschätzten Y (oder Y als Zufallsvariable?) bis auf Ränder in etwa normalverteilt sind. Genauerbetrachtet zwischen ca. -1,5 und +2. Dies und das marginale Verhalten deutet aber eher auf eine leicht liksschiefe Normalverteilung mit einer positiven Wölbung. Stimmt es? Wenn ja, was würdet Ihr sagen, ob und wie schlimm ist dies?

Grafiken 4 - 6 (vg. Anhang 3)

Bei diesen Grafiken geht es um die Erkennung von Hebelwerten und/oder Ausreißern. Dabei stellt die Grafik 4 eine Übersicht der Cook's-Distanzen aller einzelnen Datensätze. Bei einem Referenzwert von <0,5 könnte man sagen, dass hier keine Auffälligkeiten vorhanden sind. Oder?

In der Grafik 5 sind die standardisierten Residuen der jeweiligen Beobachtung gegen ihren Leverage geplottet. Die durchgezogene rote Linie ist anscheinend wieder der lowess-smoother. Hier liegt er ziemlich entlang der Null-Linie. Ist es gut? Was würde diese Linie in Zick-zack-Form oder beispielsweise streng monoton fallender Form bedeuten? Die gestriechelte rote Linie ist die Iso-Linie des 0,5-Schellenwerts der Cook-Distanz. Gäbe es hier Ausreißer, so würden ihre std. Residuen außerhalb dieser Linie liegen. Stimmt's?

Die Grafik 6 kann ich gar nicht interpretieren. Was bedeutet denn hier die rote Linie. Bei all meinen Untersuchungen war sie immer gerade gezogen, jedoch mit unterschiedlichen Steigungen. Was bedeutet denn ihre Steigung? Wozu sind die gestrichelten schwarzen Linien gut? Diese können übrigens ebenfalls unterschiedlich gerichtet werden. Also bei der uswertung dieser Grafik breuchte ich die meiste Hilfe...

Anhang 3.jpg
Anhang 3.jpg (124.67 KiB) 1308-mal betrachtet


PS: Ich bitte Euch, versucht bitte Eure Einträge auf konkrete Fragen zu beziehen und möglichst exakt zu antworten, um meine noch größere Verwirrung zu vermeiden. Dafür bin Euch im Voraus sehr dankbar.
Zuletzt geändert von Berry am Di 15. Mai 2012, 12:49, insgesamt 2-mal geändert.
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Interpretation von Grafiken

Beitragvon Berry » Di 15. Mai 2012, 12:34

ich weiß, es sind viel zu viele Fragen auf ein Mal, wahrscheinlich auch unübersichtlich, aber ihr solltet ja nicht auf alle sofort antworten und könntet zumindest auf einige davon eingehen... ich brauche echt (dringend) eure Meinung dazu
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 14 Gäste

cron