Normaverteilung der Residuen

Alle Verfahren der Regressionanalyse.

Normaverteilung der Residuen

Beitragvon Clet » Do 30. Sep 2021, 11:53

Hallo liebes Forum,

mir geht es um die Normalverteilung der Residuen (bei N=212).

In dem Buch (Angewandte Regressionsanalyse: Theorie, Technik und Praxis) von Urban und Majer steht Folgendes:

"Eine empirische Überprüfung der A5-Annahme (Normalverteilung) ist vor allem dann angezeigt, wenn [...] c) wenn sich hinsichtlich der empirischen Verteilung einer Y-Variablen aufgrund theoretischer Überlegungen oder praktischer Erfahrungen vermuten lässt, dass die Normalverteilungsannahme bei Analyse dieser Variablen gefährdet sein könnte. So weist beispielsweise das Nettoeinkommen in aller Regel eine rechtsschiefe Verteilung auf . Und die gemessene Lebenszufriedenheit zeigt fast immer eine linksschiefe Verteilung. In solchen Fällen geschieht es nicht selten, dass bei Berücksichtigung dieser Variablen in Regressionsschätzungen empirische Residuenverteilungen entstehen, die vom Ideal einer Normalverteilung stark abweichen . Allerdings muss das nicht so sein, und auch eine sehr schief verteilte Y-Variable kann für eine inferenzstatistisch durchgeführte Regressionsanalyse vollkommen ohne Bedeutung sein . Denn die A5 (Normalverteilungsannahme) bezieht sich allein auf die Residuenverteilung und nicht auf die empirische Verteilung der Y-Variablen einer Regressionsanalyse."

Nun ist es bei mir so, dass meine Y-Variable rechtsschief ist (Abbruchintensität bezogen auf einen Studienabbruch). (M=1,79, SD=1,07, bei einer Antwortskala von 1 bis 7). In zwei anderen Studien war die Verteilung dieser Variable in der Stichprobe auch eher rechtsschief. Meine Betreuerin gab mir die Info, dass dies eine übliche Verteilung für diese Variable ist. Wäre das eine Gefährdung der Normalverteilung bei der Analyse der Variablen (wie es im Zitat angesprochen wird)? Dann würde ich ja Gegenmaßnahmen ergreifen müssen. Ich dachte da an Bootstrap.

In meiner Regression weicht tatsächlich die Residuenverteilung von der Normalverteilung ab. Nun bin ich mir nicht sicher, ob ich mich auf den zentralen Grenzwertsatz berufen kann (anhand meiner Stichprobengröße wäre dies ja möglich) oder von einer Verletzten Normalverteilung (wegen der Grundgesamtheit) ausgehen muss.

Oder kann es sein, dass meine Überlegungen nicht ganz plausibel sind bzw. ich das nicht richtig verstanden habe?

Über eine erfahrene Einschätzung wäre ich sehr dankbar :-) :-)

Viele Grüße
Clet
Clet
Beobachter
Beobachter
 
Beiträge: 16
Registriert: Do 19. Aug 2021, 09:50
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Normaverteilung der Residuen

Beitragvon strukturmarionette » Do 30. Sep 2021, 18:51

Hi,

bei einer Antwortskala von 1 bis 7

- demnach ist deine Kriteriumsvariable kategorial
- somit stellt sich die Frage nach einer Normalverteilung nicht

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Normaverteilung der Residuen

Beitragvon Clet » Fr 1. Okt 2021, 09:13

Guten Morgen S.,

nein, es sind keine kategorialen Daten. Es handelt sich um eine Likert-Skala und insgesamt besteht die Skala für das Konstrukt aus mehreren Items. Aus den Antworten der einzelnen Personen wird über die Items hinweg ein Mittelwert gebildet, so dass dieser dann als kontinuierlich angesehen wird. Ich schreibe meine Arbeit in den Sozialwissenschaften.

VG
Clet
Clet
Beobachter
Beobachter
 
Beiträge: 16
Registriert: Do 19. Aug 2021, 09:50
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Normaverteilung der Residuen

Beitragvon bele » Fr 1. Okt 2021, 16:14

Hallo Clet,

wie Dein Zitat schon schreibt, geht es um die "Normalität" der Residuenverteilung, nicht um die Kriterienvariable. Nun ist im echten Leben wirklich gar nichts streng normalverteilt, denn Normalverteilung ist eine mathematische Idee. Im echten Leben stellt sich daher nie die Frage, ob die Residuen perfekt normalverteilt sind, sondern ob sie "normal genug" sind, um aus der Regression plausibel Schlüsse ziehen zu können. Die Frage, was "normal genug" bedeutet ist eine subjektive und dort geht ein, wie groß die Stichprobe ist, wie plausibel das entstehende lineare Modell generell ist, ob die Ergebnisse der Regression starke oder nur fragile Argumente für die eigene Argumentation bietet, ob es mit einfachen Anpassungen des Modells möglich ist, die Normalität erheblich zu verbessern und so weiter.

Es ist also in aller Regel gar kein Problem, wenn Deine Residuen nicht eine schöne symmetrische Glockenkurve formen. Oft ist es in sozialwissenschaftlichen Fächern auch nicht möglich, wenn für abhängige und unabhängige Variablen nur zensierte Messwerte zur Verfügung stehen. Wenn die Residuen aber völlig wild aussehen ist das ein guter Anlass sich Gedanken zu machen, ob das den Daten aufgezwungene statistische Modell, hier das lineare Modell, und die Messverfahren, beispielsweise deren Messbereich, überhaupt passt.

Demnach würde ich die Normalverteilung der Residuen nicht so sehr als Hürde ansehen, die es zu überspringen gilt, sondern als Chance, die Plausibilität des eigenen Vorgehens noch einmal zu hinterfragen. (Du wirst auch bei Deiner Mittelwertskala zugeben müssen, dass sie streng genommen diskret ist, aber als "kontinuierlich genug" gilt, um sie wie eine kontinuierliche zu behandeln.)

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Normaverteilung der Residuen

Beitragvon Clet » Mi 6. Okt 2021, 10:40

Hallo Bernhard,

vielen Dank für deine ausführliche Antwort!!

Ich muss zugeben, dass die Verteilung meiner Resiuden nicht so toll ist. aber um nun in der Arbeit weiter zu kommen, werde ich mich nun auf den zentralen Grenzwertsatz berufen.

Meinst du mit deiner Aussage: "ob es mit einfachen Anpassungen des Modells möglich ist, die Normalität erheblich zu verbessern" eine Transformation der Daten? Davor wollte ich eigentlic absehen, da es ja zu Verzerrungen führen kann oder es dann bei der Interpretation der Ergebnisse hinderlich sein kann.

Es gibt tatsächlich zwischen der UV und der AV keinen großen Zusammenhang (r=0,116). Der sich dann unter Hinzunahme von zwei Mediatoren (in Serie) komplett aufhebt. In dem Mediationsmodell liegt dann noch Heteroskedatizität der Residuen vor (ich nutze PROCESS und habe dann entsprechend mit robuste Standardfehler die Schätzung durchgeführt.

Diese beiden Fakten (Verteilung der Residuen und Heteroskedatizität) würden nun nicht unbedingt für mein Modell und die lineare Regression sprechen. Ich denke, es liegt maßgeblich an der schiefen Verteilung der AV. Diese Verteilung wird aber auch in anderen Studien so gemessen und ist daher normal (wie schiefe Verteilungen bei z. B. Einkommen oder Zufriedenheit).

Und die ganzen Punkte, die du angesprochen hat, um das Modell zu hinterfragen überfordern mich leider etwas. Da bin ich viel zu unerfahren. Ich weiß daher auch nicht, ob das Modell tatsächlich anzuzweifeln wäre und was die Alternative sein könnten. Oder hätte ich doch lieber transformieren sollen....... :roll:

Und ja, die Sache mit der "gekünstelten" kontinuierlichen Skala ist mir bekannt. Aber es ist das "normale" Vorgehen und ich will einfach nur fertig werden :?


Viele Grüße
Clet
Clet
Beobachter
Beobachter
 
Beiträge: 16
Registriert: Do 19. Aug 2021, 09:50
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Normaverteilung der Residuen

Beitragvon bele » Mi 6. Okt 2021, 12:02

Hallo Clet,

Clet hat geschrieben:Meinst du mit deiner Aussage: "ob es mit einfachen Anpassungen des Modells möglich ist, die Normalität erheblich zu verbessern" eine Transformation der Daten? Davor wollte ich eigentlic absehen, da es ja zu Verzerrungen führen kann oder es dann bei der Interpretation der Ergebnisse hinderlich sein kann.


Ja, eine Transformation der Daten wäre eine Möglichkeit ein Modell zu verändern.

Ich denke, es liegt maßgeblich an der schiefen Verteilung der AV. Diese Verteilung wird aber auch in anderen Studien so gemessen und ist daher normal (wie schiefe Verteilungen bei z. B. Einkommen oder Zufriedenheit).


Drum gibt es ja eine ganz Literatur um die Frage, ob man Einkommen eher logarithmiert werden sollte, bevor man es in eine Regression einsetzt, z. B. https://doi.org/10.1111/j.1468-0084.2008.00531.x

Und die ganzen Punkte, die du angesprochen hat, um das Modell zu hinterfragen überfordern mich leider etwas. Da bin ich viel zu unerfahren.


Wenn das eine Qualifizierungsarbeit (Semesterabschluss-, Bachelor-, Master-, Promotionsarbeit) ist dann kann man Dir nicht mehr abverlangen als Du gelernt hast. Wenn Du aber mit diesen Daten weitere Forschungsgelder beantragen willst kann es sich ggf lohnen nach jemandem zu suchen, der erfahrener ist.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Normaverteilung der Residuen

Beitragvon Clet » Mi 6. Okt 2021, 13:36

Hallo Bernhard,

vielen Dank für deine Antwort!

Ja, das ist eine Qualifizierungsarbeit (Bachelor). Leider hat man uns nur beigebracht, was es für Voraussetzungen gibt und wie man die Überprüft. Aber was machen, wenn die verletzt sind.....????? Da hörte wohl das Semester auf :lol:

Ich weiß auch nicht, wie eigentlich mit dieser AV in der Forschung umgegangen wird. Meine Betreuerin ist nicht sehr auskunftsfreudig. Sie meinte mal, dass was ich mache, muss ich halt begründen. Zur Auswertung dieser AV hat sie mir keine Infos gegeben (damit war sie eh sparsam).

Ich rechne das jetzt einfach so. Zudem habe ich jetzt noch (empfohlen von Urban und Maye)r die Regression mit Bootstrap gemacht und die Ergebnisse verglichen. Es gab so gut wie keine Verzerrungen (das war diese komische Zahl aus meiner anderen Frage) und die K-Intervalle sind auch fast gleich (nur die Signfikanz war etwas besser, aber signifikant war es eh schon). Ich werde schreiben, dass die Verteilung der Residuen nicht gut war und die Normalverteilungsannahme verletzt sein könnte, so dass ich die Analyse mit Bootstrap verglichen habe, es jedoch keine Verzerrungen gab. Das werde ich dann mit berichten und daher nichts weiter wegen der Verteilung der Residuen machen (da es ja keine Verzerrungen gab und der Grenzwertsatz zudem gut greift). Das sollte wohl ausreichen....

Wäre es sinnvoll in der Diskussion darauf einzugehen, dass die AV eventuell transformiert hätte werden können oder ein anderes Modell gerechnet werden hätte können (nur welches)? So das die Daten besser beschrieben werden könnten?

Viele Grüße
Clet
Clet
Beobachter
Beobachter
 
Beiträge: 16
Registriert: Do 19. Aug 2021, 09:50
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Normaverteilung der Residuen

Beitragvon bele » Mi 6. Okt 2021, 15:14

Naja, eine Log-Transformation mit anschließender Wiederholung der Regression kostet 5 Minuten, die Diskussion dieses Vorgehens zu schreiben vielleicht 30 Minuten, mit Literaturangabe 60. So oder so, wenn Du im Studium was über Transformationen gelernt hast, dann wäre das jetzt die Gelegenheit darauf hinzuweisen, dass was hängen geblieben ist.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 14 Gäste

cron