Einfache lineare Regression, Normalverteilung Residuen?

Alle Verfahren der Regressionanalyse.

Einfache lineare Regression, Normalverteilung Residuen?

Beitragvon CarryDN » Do 2. Jan 2020, 15:59

Hallo zusammen,

ich habe eine Frage und zwar möchte bzw. muss ich für die Uni einen möglichen Zusammenhang zwischen Dauer der Schuldbildung und Alter herstellen. (educ als abhängige Variable von age).

Die Stichprobengröße liegt bei circa 27.500.
Eine der Annahmen für das Regressionsmodell ist ja die Normalverteilung der Residuen. Nach grafischen Prüfung mittels Histogramm und Anwendung einiger Tests auf Normalveteilung ist eindeutig klar, die Residuen sind nicht normalverteilt. (Histogramm beigefügt).

Jetzt gibt es ja den zentralen Grenzwertsatz ab n>30, kann ich diesen auf die Verteilung der Residuen anwenden?
Also erlaubt mir der zentrale Grenzwertsatz, dass ich die Verletztung der Normalverteilung der Residuen ignorieren kann?

Danke euch.
LG Carina
CarryDN
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 2. Jan 2020, 15:46
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Einfache lineare Regression, Normalverteilung Residuen?

Beitragvon strukturmarionette » Do 2. Jan 2020, 16:30

Hi,

Nach grafischen Prüfung mittels Histogramm und Anwendung einiger Tests auf Normalveteilung ist eindeutig klar

- ist ungeeignet. Besser bspw PP-Plot.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Einfache lineare Regression, Normalverteilung Residuen?

Beitragvon CarryDN » Do 2. Jan 2020, 17:03

Danke für die rasche ANtwort. Selbst mittels pp-Plot kommt raus, dass es nicht normalverteil ist,....
CarryDN
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 2. Jan 2020, 15:46
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Einfache lineare Regression, Normalverteilung Residuen?

Beitragvon PonderStibbons » Do 2. Jan 2020, 18:02

CarryDN hat geschrieben:Eine der Annahmen für das Regressionsmodell ist ja die Normalverteilung der Residuen.

Keineswegs. Da ist eine Annahme für den F-Test (den Signifikanztests), nicht für das Regressionsmodell.
Aber wieso sollte man bei einer solch riesigen Stichprobengröße noch eigens einen Signifikanztest rechnen
wollen? Der Standardfehler einer einfachen Regression mit N=27.000 ist so winzig, was soll da noch ein
formaler Nullhypothesenablehnungstest.
Jetzt gibt es ja den zentralen Grenzwertsatz ab n>30, kann ich diesen auf die Verteilung der Residuen anwenden?

Ja, das kommt noch dazu.

LG

wtf

Mit freundichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Einfache lineare Regression, Normalverteilung Residuen?

Beitragvon CarryDN » Do 2. Jan 2020, 19:03

Danke für deine Antwort.

Dann habe ich nochmal eine Verständnis-Frage zum F-Test: Die Nullhypothese des F-Tests besagt ja, dass alle Koeffizienten gemeinsam gleich 0 sind. Warum macht man einen gesonderten Signifikanztest im Normalfall überhaupt?

LG Carina
CarryDN
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 2. Jan 2020, 15:46
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Einfache lineare Regression, Normalverteilung Residuen?

Beitragvon PonderStibbons » Do 2. Jan 2020, 19:16

Die Nullhypothese des F-Tests besagt, dass die Varianzaufklärung des Modells in der Grundgesamtheit = 0,000000...0 beträgt.
Warum macht man einen gesonderten Signifikanztest im Normalfall überhaupt?

Leider verstehe ich nicht, was Du meinst.

Mit freundlichen Grüßen

Ponderstibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Einfache lineare Regression, Normalverteilung Residuen?

Beitragvon CarryDN » Do 2. Jan 2020, 19:21

Also wenn ich das richtig verstanden habe, dann untersucht der F-Test die Varianz also Residuen. H0 ist dass kein Zusammenhang besteht, d.h. Die Regressionskoeffizieten sind 0. Wenn H0 also nicht verworfen werden kann, wäre das Modell sinnlos. Kann man H0 verwerfen, dann sagt das im Endeffekt nur aus dass unser Modell nicht zufällig ist oder?

Und du meintest, da meine Stichprobe sehr groß ist, wäre der f-test „witzlos“, weil der Standardfehler sowieso klein ist. Selbiges gilt dann natürlich auch für die Residuen.

Heißt in Summe wird die Normalverteilung der Residuen ‚nur‘ für den F-Test benötigt, der bei kleinen Stichproben durchaus sinnvoll ist. Richtig?

LG Carina
CarryDN
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 2. Jan 2020, 15:46
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Einfache lineare Regression, Normalverteilung Residuen?

Beitragvon PonderStibbons » Fr 3. Jan 2020, 01:04

Also wenn ich das richtig verstanden habe, dann untersucht der F-Test die Varianz also Residuen.

Die Formel für den F-Test lässt sich ja leicht recherchieren.
Wenn H0 also nicht verworfen werden kann, wäre das Modell sinnlos.

Ich weiß nicht, inwiefern oder in welcher Hinsicht ein p > 0,05 etwas den Sinn entzieht.
Wenn H0 nicht verworfen werden kann, ist innerhalb der Logik des Nullhypothesentestens
entweder ein Fehler 2. Art passiert, oder H0 ist gültig.
Und du meintest, da meine Stichprobe sehr groß ist, wäre der f-test „witzlos“, weil der Standardfehler sowieso klein ist. Selbiges gilt dann natürlich auch für die Residuen.

Das hat mit der Größe der Residuen nicht zu tun. Die hängen ab von der
Varianzaufklärungsleistung des Regressionsmodells. Der Standardfehler
betrifft die Frage, wie sehr die anhand der Stichprobe geschätzten
Parameter von den tatsächlichen Parametern in der Grundgesamtheit
abweichen können.
Heißt in Summe wird die Normalverteilung der Residuen ‚nur‘ für den F-Test benötigt, der bei kleinen Stichproben durchaus sinnvoll ist. Richtig?

Die Normalverteilung der Residuen (in der Grundgesamtheit) stellt sicher, dass der F-Test
zuverlässig ist. Ist die Stichprobe ausreichend groß (Orientierungsgröße gemeinhin n > 30),
dann ist der F-Test auch bei (in der Grundgesamtheit) nicht-normalverteilten Residuen
zuverlässig.

Es ging mir bei der Frage des Signifikanztestens im vorliegenden Fall auch nur um den
gesunden Menschenverstand, der nahelegt, dass man nicht noch einen Test zu der Frage
rechnen muss, ob R² = 0 in der Grundgesamtheit ist oder ein Regressionsgewicht b=0
in der Grundgesamtheit ist, wenn man sein R² oder b auf Basis von 27.000 Bebachtungen
geschätzt hat. Aber vergiß' den Hinweis vielleicht besser, in den meisten Disziplinen wird
gnadenlos jeder Parameter in jedem Kontext mit Signifikanztests behandelt, egal ob das
Sinn ergibt oder nicht; wenn man dieser Praxis folgt, eckt man nicht an.

LG

wtf

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 12 Gäste