STATISTIK-FORUM.de

folterknecht · von **folterknecht** » Fr 4. Mai 2012, 11:44

Ich befasse mit mir der Überprüfung von Voraussetzungen bei der linearen Regression. Schwierig, da verschiedene Bücher unterschiedliche Angaben zu den einzuhaltenden Voraussetzungen und deren Überprüfung machen. Zwei Punkte konnte ich noch nicht abklären:

1. Für die Überprüfung der Normalverteilungs-Voraussetzung werden neben graphischen Verfahren auch Normalverteilungstests wie der KST-Test usw. genannt. Wenn ich es richtig verstehe, ist die Nullhypothese bei all diesen Tests "Es gibt keinen Unterschied, d.h. die Verteilung ist normalverteilt". In dem Fall ist aber die Nullhypothese die Hypothese die man beweisen will. Ist es dann überhaupt zulässig, so vorzugehen? Funktionieren Signifikanztests nicht grundsätzliuch nur dann, wenn man die Alternativhypothese beweisen will?

2.Eine weitere Voraussetzung ist, dass die Residuen nicht mit den AV korrelieren dürfen. Ich habe einfach die Residuen mit der AV korreliert um das zu überprüfen. Es kam eine Korrelation von .201 raus. Nicht signifikant. Nun würde ich tatsächlich davon ausgehen, dass diese unkorreliert sind. Aber was wäre denn beispielsweise, wenn die Korrelation signifikant wäre? Es gäbe eine signifikante Korrelation, diese ist aber recht niedrig ausgeprägt. Könnte ich dann noch von Unkorreliertheit ausgehen oder nicht?

Holgonaut · von **Holgonaut** » Fr 4. Mai 2012, 12:54

Hi nochmal,

zu 1. Die Vorgehensweise/Interpretation ist hier nicht anders als sonst. D.h. du behälst solange die H0 bei (Normalverteilung der Residuen), bis du Evidenz dagegen hast.

zu 2. Das ist Käse. Meinst du Endogenität? Das bedeutet, dass die Prädiktoren mit dem Fehlerterm (nicht den Residuen) nicht korrlieren dürfen. Mit dem Residuen korreliert weder UV noch AV, weil die Regressionsgerade ja per definitionem so in die Punktewolke gelegt wird, dass dies der Fall ist.

Grüße
Holger

daniel · von **daniel** » Fr 4. Mai 2012, 13:45

In dem Fall ist aber die Nullhypothese die Hypothese die man beweisen will.

Sei vorsichtig mit dem Wort "beweisen". Das ist außerhalb der theoretischen Mathematik nicht (oder nur in Ausnahmen) möglich. Wir suchen Evidenz, wie Holger es schön ausdrückt. Du hast aber mit Deinen Bedenken recht, denn "absence of evidence is not evidence of absence". Das wird deutlich, wenn Du explizite Formulierung der Interpretation eines nicht signifikanten Ergebnisses wählst. Statt "Die Daten folgen einer Normalverteiluing" sollte die Aussage korrekt lauten: "Auf X Prozent Niveau kann eine Abweichung der Daten von der Normalverteilung nicht statistisch abgesichert werden." Im Übrigen ist die Normalverteilung der Residuen bei großen Fallzahlen vernachlässigbar.

Ich habe einfach die Residuen mit der AV korreliert um das zu überprüfen. Es kam eine Korrelation von .201 raus. Nicht signifikant.

Wie Holger bereits sagt, ist die zentrale Annahme, dass die Fehlterme nicht mit den Prädikatoren (UV) korrelieren dürfen. Ebenfalls korrekt ist der Hinweis, dass die Residuen per mathematischer Konstruktion orthogonla zu den Prädikatoren im Modell sind. Falsch ist allerdings die Aussagen, dass die Residuen nicht mit der AV korrelieren können und/oder sollen.

Grüße

folterknecht · von **folterknecht** » Fr 4. Mai 2012, 16:34

Holger hat geschrieben:Statt "Die Daten folgen einer Normalverteiluing" sollte die Aussage korrekt lauten: "Auf X Prozent Niveau kann eine Abweichung der Daten von der Normalverteilung nicht statistisch abgesichert werden."

Das sehe ich auch so. Aber ist es dann nicht unsinnig, damit die Normalverteilungsannahme überprüfen zu wollen? Ist die Normalverteilungsannahme nicht eine Gleichheitshypothese? Allerdings hätten dann Normalverteilungstests grundsätzlich keine Existenzberechtigung, außer es gibt Anwendungen wo "Ist nicht normalverteilt" die Hypothese H1 ist für welche man Evidenz sucht?

Ich hatte zunächst gedacht, graphische Überprüfungen der Voraussetzungen würden nur gemacht, wenn es noch keine guten objektiven Tests gibt. Das scheint aber nicht so zu sein. Eid et al (2010) überprüfen die Normalverteilungsannahme ausschließlich mit Histogrammen und PP-Plots. Jedoch haben Urban und Mayerl neben graphischer Sichtung bereits 2006 den KS-Test und zudem Ausgabe von Schiefe und Curtosis empfohlen. Auch der in der Artikel-Bibliothek verlinkte Artikel von Schmidt (2010) empfielt Normalverteilungstests wie Lilliefors-Test und Shaipiro-Wilk-Test. Mir erscheint im Moment, mit oben stehender Begründung, die von Eid et al. beschriebene graphische Herangehensweise die Beste zu sein. Was meint Ihr?

Holger hat geschrieben:Im Übrigen ist die Normalverteilung der Residuen bei großen Fallzahlen vernachlässigbar.

Das konnte ich mittlerweile aus einem Lehrbuch jüngsten Datums (Eid et al.) nachvolziehen. Für große Stichproben würde die Schätzung der Regressionsgewichte auch bei Verletzung der Normalverteilungsannahme nicht verzerrt. Sie empfehlen, bei nicht normalverteilten Residuen zunächst die Modellspezifikationen zu überprüfen. Es wird ein Beispiel angegen, bei dem das Fehlen einer quadratischen Komponente zu eine nicht-normalverteilten Residuen führt. Wenn es nicht an der Modellspezifikation liegt, werden Transformationen empfohlen. Urban und Mayerl argumentieren, dass man nach Transformationen nicht mehr das Regressionsgewicht, nur dass es überhaupt einen signifikanten Effekt gab, interpretieren soll, wodurch sich mir die Frage stellt, ob es nicht besser ist auf die Transformation zu verzichten und lieber eine etwaige Verzerrung der Regressionskoeffizienten in Kauf zu nehmen?

Holgonaut hat geschrieben:Das ist Käse. Meinst du Endogenität? Das bedeutet, dass die Prädiktoren mit dem Fehlerterm (nicht den Residuen) nicht korrlieren dürfen. Mit dem Residuen korreliert weder UV noch AV, weil die Regressionsgerade ja per definitionem so in die Punktewolke gelegt wird, dass dies der Fall ist.

Eventuell habe ich die entsprechende Aussage in Schendera (2008) falsch verstanden:

Residuen: Für die Fehler gelten folgende Annahmen: Der Mittelwert der Residuen ist gleich Null. Die Varianz der Fehler ist konstant (Varianzhomogenität, Homoskedastizität, s.u.) Der Zusammenhang zwischen den Fehlern und den vorhergesagten Werten der abhängigen Variablen ist zufällig. Die Fehler korrelieren nicht mit der / den unabhängigen Variablen (vgl. partielle Regressionsdiagramme). Angewendet auf die graphische Residuenanalyse bedeutet dies: Die Vorhersagefehler (Residuen) eines Modells sind linear und normalverteilt und streuen um den Mittelwert 0 (Normalitätsannahme), vorausgesetzt, die Stichprobe ist groß genug. Heteroskedastizität liegt nicht vor. In partiellen Regressionsdiagrammen korrelieren die Fehler niht mit der/den unabhängigen Variablen.

Gibt es eine Möglichkeit die Endogenität mit SPSS zu überprüfen? Ich habe bei Google den Hausman-Test gefunden, aber der scheint in SPSS nicht implementiert zu sein.

Ich finde es schade, dass in den Lehrbüchern nicht darauf eingegangen wird, warum manche Verfahren bevorzugt werden und andere nicht anstatt diese totzuschweigen. So ist es ein Puzzle-Spiel, sich die nötigen Informationen zusammenzusuchen und Widersprüche aufzuklären.

Quellen:

Statistik und Forschungsmethoden; Eid, Gollwitzer & Schmitt, Weinheim: Belz, 2010.
Regressionsanalyse: Theorie, Technik und Anwendung; (Urban, Mayerl, Wiesbaden: VS Verlag, 2006.
Regressionsanalyse mit SPSS; Schendera, München: Oldenburg Verlag, 2008.
artikel-bibliothek-f34/normalverteilungsannahme-und-transformationen-bei-regression-t132.html

daniel · von **daniel** » Fr 4. Mai 2012, 17:04

Aber ist es dann nicht unsinnig, damit die Normalverteilungsannahme überprüfen zu wollen?

Ich kann das Wort "unsinnig" in diesem Kontext nicht ganz einordnen. Es gibt keinen Test der auf nicht-Normalverteilung testet, da Nullhypothesen Punkthypothesen sein müssen. Es ist aber m.E. immer noch besser sagen zu können, dass wir auf z.B. 80 % Niveau, die Normalverteuilungsannhame nicht zurückweisen können, als gar keinen Test zu machen. Wenn die Null verworfen wird, hast Du Evidenz gegen die Normalverteilung, die Du ohne Test nicht hättest, und mit hoher Wahrscheinlichkeit eine falsche Annahme getroffen hättest. Ich sehe nicht wo das "unsinnig" sein soll.

Ich hatte zunächst gedacht, graphische Überprüfungen der Voraussetzungen würden nur gemacht, wenn es noch keine guten objektiven Tests gibt. Das scheint aber nicht so zu sein. Eid et al (2010) überprüfen die Normalverteilungsannahme ausschließlich mit Histogrammen und PP-Plots. Jedoch haben Urban und Mayerl neben graphischer Sichtung bereits 2006 den KS-Test und zudem Ausgabe von Schiefe und Curtosis empfohlen. Auch der in der Artikel-Bibliothek verlinkte Artikel von Schmidt (2010) empfielt Normalverteilungstests wie Lilliefors-Test und Shaipiro-Wilk-Test. Mir erscheint im Moment, mit oben stehender Begründung, die von Eid et al. beschriebene graphische Herangehensweise die Beste zu sein. Was meint Ihr?

Es ist (hoffentlich) bekannt, dass die Signifikanz eine Funktion des Stichprobenumfangs ist. Bei großer Stichprobe ist es demnach sehr wahrscheinlich, dass der Test auf Normalverteilung signifikant ausfällt, auch wenn die Daten nur minimale Abweichgunen von einer Normalverteilung zeigen. Minimale Abweichungen von der Normalverteilung sind aber für die Regressionsschätzung möglicherweise irrelevant. Das lässt sich grafisch überprüfen.

Für große Stichproben würde die Schätzung der Regressionsgewichte auch bei Verletzung der Normalverteilungsannahme nicht verzerrt.

Das ist falsch. Die Unverzerrtheit der Regressionsgewichte ist grundsätzlich unabhängig von der Stichprobengröße. Die Normalverteilung wird nur für inferenzstatistische Zwecke benötigt. Die Regressionsgewichte sind in großen Stichproben normalverteilt nach zentralem Grenzwertsatz. Sind die Regressionsgewichte verzerrt (wegen Endogenität), dann ändert an dieser Tatsache auch ein großer Stichprobenumfang nichts.

Sie empfehlen, bei nicht normalverteilten Residuen zunächst die Modellspezifikationen zu überprüfen. Es wird ein Beispiel angegen, bei dem das Fehlen einer quadratischen Komponente zu eine nicht-normalverteilten Residuen führt. Wenn es nicht an der Modellspezifikation liegt, werden Transformationen empfohlen. Urban und Mayerl argumentieren, dass man nach Transformationen nicht mehr das Regressionsgewicht, nur dass es überhaupt einen signifikanten Effekt gab, interpretieren soll, wodurch sich mir die Frage stellt, ob es nicht besser ist auf die Transformation zu verzichten und lieber eine etwaige Verzerrung der Regressionskoeffizienten in Kauf zu nehmen?

Eine Verzerrung der Koeffizienten hängt, wie oben beschrieben, nicht von der Normalverteilung der Residuen ab. Eine Verzerrung der Koeffizienten willst Du niemals in Kauf nehmen, weil sie dann nicht mehr sinnvoll zu interpretieren sind. Wenn die Stichprobe groß ist und die Abweichung von der Normalverteilung in den Residuen nicht allzu dramatisch ist, v.a. was die Symmetrie angeht, würde ich auf Transformationen verzichten.

Eventuell habe ich die entsprechende Aussage in Schendera (2008) falsch verstanden:

Ja, das hast Du falsch verstanden. Die vorhergesagten Werte findest Du nicht in der AV. Die vorhergesagten Werte sind, per Konstruktion des OLS Verfahrens von den Residuen unabhängig.

Gibt es eine Möglichkeit die Endogenität mit SPSS zu überprüfen? Ich habe bei Google den Hausman-Test gefunden, aber der scheint in SPSS nicht implementiert zu sein.

Das Stichwort "Hausman-Test" ist schon mal gut. Wenn Du Zeit und Lust hast, such mal nach Instrumentvariablen Schätzung. Eie Intuitive Erklärung findest Du in Kennedy (2008). Mit SPSS kenne ich mich nicht gut aus, aber gegeben der Tatsache, dass noch nicht einmal Huber-White Standardfehler, die für Heteroskedastie korrigieren implementiert sind, sehe ich bei komplexeren Verfahren mit dieser Software schwarz. Andere mögen widersprechen.

Kennedy, Peter (2008). A Guide to Econometrics. 6th Ed. Wiley.

folgende User möchten sich bei daniel bedanken:
folterknecht

STATISTIK-FORUM.de

Residuenanalyse bei linearer Regression

Residuenanalyse bei linearer Regression

Re: Residuenanalyse bei linearer Regression

Re: Residuenanalyse bei linearer Regression

Re: Residuenanalyse bei linearer Regression

Re: Residuenanalyse bei linearer Regression

Wer ist online?