Modellannahmen Residuen

Alle Verfahren der Regressionanalyse.

Modellannahmen Residuen

Beitragvon Casual » So 31. Mai 2015, 09:57

Hallo liebe Community,

ich habe mittels SPSS bei einem Sport-Datensatz eine multiple lineare Regression angewandt (Backwardmethode). Nachdem ich das Modell erzeugt hatte, habe ich die Modellannahmen überprüft. Leider habe ich hier Probleme mit den Residuen:
Bild
Bild

Meine Frage nun: Ein lineares Modell scheint für meinen Datensatz scheinbar nicht geeignet zu sein. Mir ist auch keine sinnvolle Transformationen eingefallen. Denkt ihr eine Regression macht bei diesem Datensatz überhaupt Sinn bzw. was würdet ihr als nächste probieren, wenn ihr einen solchen Plot erhaltet?

Die anderen anderen Voraussetzung (Multikollinearität, Autokorrelation etc.) werden erfüllt.

Grüße
Casual
Mitglied
Mitglied
 
Beiträge: 24
Registriert: Fr 28. Dez 2012, 13:43
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Modellannahmen Residuen

Beitragvon PonderStibbons » So 31. Mai 2015, 15:08

ich habe mittels SPSS bei einem Sport-Datensatz eine multiple lineare Regression angewandt (Backwardmethode).

Meint das: automatisierter Variablenausschluss? Das gilt weithin
als extrem problematische Methode.

Worum geht es denn bei der Studie, we viele Variblen wurden ursprünglich eibezogen,
wieviele blieben übrig, wie groß ist die Stichprobe?

Meine Frage nun: Ein lineares Modell scheint für meinen Datensatz scheinbar nicht geeignet zu sein.

Woran siehst Du das bzw. welche Voraussetzungen siehst Du verletzt?

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Modellannahmen Residuen

Beitragvon Casual » So 31. Mai 2015, 17:26

Hallo,

ja, automatischer Variablenausschluss. Ich habe die Methode gewählt, da diese, laut Theorie, ganz gut mit Multikollinearität umgehen kann. Bei mir ist es in der Tat manchmal der Fall, dass zwischen den Prädiktoren untereinander eine höhere Korrelation vorliegt als zur abhängigen Variable.

Ursprünglich habe ich 7 unabhängige Variablen, wovon am Ende 4 übrig blieben. Die Stichprobengröße beträgt 256.

Meine Frage nun: Ein lineares Modell scheint für meinen Datensatz scheinbar nicht geeignet zu sein.

Woran siehst Du das bzw. welche Voraussetzungen siehst Du verletzt?


Verletzt sehe ich die Normalverteilungsannahme der Residuen. Weiterhin ist im obigen Plot ja eine deutliche Struktur zu erkennen, weswegen die zufällige Streuung und Linearität meiner Meinung nach auch verletzt ist.
Ich habe weiterhin auch Scatterplotmatrizen zwischen der abhängigen Variablen und der einzelnen Prädiktoren erstellt. Bereits da zeigt sich rein optisch keine lineare Beziehung bzw. kann ich ehrlich gesagt überhaupt keine Struktur erkennen.

Hier ein paar Beispielplots zwischen der abhängigen Variable und Prädiktoren:
Bild
Bild
Bild

Es geht nochmal um den in einem vorherigen Beitrag diskutierten Tennisdatensatz.
Ich habe die Daten einzelner Spieler (unabhängige Variablen: Aufschlaggeschwindigkeit, Anzahl an unerreichbaren Schlägen (Winners), Anzahl unerzwungerner Fehler...) aus den ersten beiden Runden gemittelt und versuche nun anhand dieser Daten vorherzusagen, wie weit es der jeweilige Spieler im Turnier schafft, also wie viele Runden er erreicht.
Meine abhängige Variable ist daher die Anzahl der erreichten Runden und kann die Werte 1,2,3,4,5,6,7,8 annehmen.

Hier mal ein meine Ergebnisse des linearen Modells:

Bild
Bild
Bild
Bild

Ich habe es auch mit einer ordinalen Regression probiert. Da erhalte ich annähernd die gleichen Ergebnisse für meine Beta-Koeffizienten.
Casual
Mitglied
Mitglied
 
Beiträge: 24
Registriert: Fr 28. Dez 2012, 13:43
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Modellannahmen Residuen

Beitragvon PonderStibbons » So 31. Mai 2015, 18:29

Verletzt sehe ich die Normalverteilungsannahme der Residuen.

Das ist bei n > 50 kein relevantes Problem mehr, der Signifikanztest
wird dadurch nicht verzerrt (Stichwort u.a. zentraler Grenzwertsatz).
Weiterhin ist im obigen Plot ja eine deutliche Struktur zu erkennen, weswegen die zufällige Streuung und Linearität meiner Meinung nach auch verletzt ist.

Kann ich jetzt leider nicht erkennen. Aber es gibt Leute hier, die vielleicht mehr
Routine darin haben.

Hier ein paar Beispielplots zwischen der abhängigen Variable und Prädiktoren:

Das ist für die Linearitätsbetrachtung des Modells nicht relevant, soweit ich weiß.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Modellannahmen Residuen

Beitragvon Casual » So 31. Mai 2015, 19:54

Verletzt sehe ich die Normalverteilungsannahme der Residuen.

Das ist bei n > 50 kein relevantes Problem mehr, der Signifikanztest
wird dadurch nicht verzerrt (Stichwort u.a. zentraler Grenzwertsatz).


Wenn ich mit den standardisierten Residuen einen Kolmogorov-Smirnov-Test mache, dann erhalte ich einen Signifikanzwert von 0,000. Also liegt laut Test keine Normalverteilung meiner Residuen vor. Das heißt doch, dass die Annahme verletzt ist oder ? Also ganz unabhängig von meiner Stichprobengröße.


Weiterhin ist im obigen Plot ja eine deutliche Struktur zu erkennen, weswegen die zufällige Streuung und Linearität meiner Meinung nach auch verletzt ist.

Kann ich jetzt leider nicht erkennen. Aber es gibt Leute hier, die vielleicht mehr
Routine darin haben.


Ich hatte mal gelernt, zumindest meine ich mich so daran zu erinnern, dass für die Annahme von Linearität (und Homoskedastizität) die standardisierten Residuen halbwegs gleichmäßig sowie zufällig um die Horizontale streuen sollten und das man keine ausgeprägten Muster erkennen sollte. Irre ich mich da oder interpretiere ich meinen Plot falsch ?
Casual
Mitglied
Mitglied
 
Beiträge: 24
Registriert: Fr 28. Dez 2012, 13:43
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Modellannahmen Residuen

Beitragvon PonderStibbons » So 31. Mai 2015, 19:58

Wenn ich mit den standardisierten Residuen einen Kolmogorov-Smirnov-Test mache, dann erhalte ich einen Signifikanzwert von 0,000. Also liegt laut Test keine Normalverteilung meiner Residuen vor. Das heißt doch, dass die Annahme verletzt ist oder ? Also ganz unabhängig von meiner Stichprobengröße.

Dass die Annahme verletzt ist, spielt bei n > 50 keine Rolle mehr
für die lineare Regressionsanalyse (genauer gesagt, die Gültigkeit
des F-Tests).

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Modellannahmen Residuen

Beitragvon Casual » So 31. Mai 2015, 20:34

Wenn ich mit den standardisierten Residuen einen Kolmogorov-Smirnov-Test mache, dann erhalte ich einen Signifikanzwert von 0,000. Also liegt laut Test keine Normalverteilung meiner Residuen vor. Das heißt doch, dass die Annahme verletzt ist oder ? Also ganz unabhängig von meiner Stichprobengröße.

Dass die Annahme verletzt ist, spielt bei n > 50 keine Rolle mehr
für die lineare Regressionsanalyse (genauer gesagt, die Gültigkeit
des F-Tests).


Aber wenn der Signifikantes eine Normalverteilung ablehnt, dann liegt doch keine Normalverteilung (nicht einmal approximativ) vor oder ? Ich bin bezüglich des zentralen Grenzwertsatzes gerade etwas verwirrt. Bei inferenzstatistischen Methoden wie dem t-test gilt zwar ab n>50 per Annahme das eine Normalverteilung vorliegt, ob dies aber auch tatsächlich der Fall ist, muss doch dann per Kolmogorov oder Shapiro-Will geprüft werden. Wenn dies nicht der Fall ist, dann sollte ein t-test doch auch nicht angewendet werden ?

Eine andere Sache, die ich vergessen hatte zu erwähnen: Bei meinem Datensatz handelt es sich um eine Vollerhebung/Totalerhebung. Ich möchte also anhand der Vollerhebung schauen, ob sich mit Hilfe der Regression eine Tendenz erkennen lässt, welche Prädiktoren entscheidend dafür sind, wie weit ein Spieler im Turnier kommt (=abhängige Variable "erreichte Runde" mit 1,2,3,4,5,6,7,8 den Werten). Muss ich etwas besonderes bei einer Vollerhebung beachten ?

Danke vielmals!
Casual
Mitglied
Mitglied
 
Beiträge: 24
Registriert: Fr 28. Dez 2012, 13:43
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Modellannahmen Residuen

Beitragvon PonderStibbons » So 31. Mai 2015, 20:55

Aber wenn der Signifikantes eine Normalverteilung ablehnt, dann liegt doch keine Normalverteilung (nicht einmal approximativ) vor oder ?

Der Test sagt zwar aus, dass die Nuyllhypothese abgelehnt wird, welche lautet,
dass die Stichproben-Residuen aus einer normalverteilten Grundgesamtheit
stammen. Die Annahme normalverteilter Residuen muss bei ausreichend großem N
allerdings nicht mehr erfüllt sein, um die Gültigkeit des F-Tests zu gewährleisten.

Ich bin bezüglich des zentralen Grenzwertsatzes gerade etwas verwirrt. Bei inferenzstatistischen Methoden wie dem t-test gilt zwar ab n>50 per Annahme das eine Normalverteilung vorliegt,

Keineswegs. Aber bei ausreichender Stichprobengröße ist analog zu oben
der t-Test auch dann gültig, wenn die Annahme verletzt ist.

Eine andere Sache, die ich vergessen hatte zu erwähnen: Bei meinem Datensatz handelt es sich um eine Vollerhebung/Totalerhebung.

Du willst doch über Deinen Datensatz hinaus verallgemeinern. Daher hast
Du eine Stichprobe, keine Vollerhebung. Wolltest Du nicht veralgemeinern
und betrachtetest Deine Stichprobe als Vollerhebung, wäre jedweder
Signifikanztest fehl am Platz. Der ist zur Verallgemeinerung von
Stichprobendaten auf die Population, aus der die Stichprobe gezogen
wurde.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Modellannahmen Residuen

Beitragvon Casual » So 31. Mai 2015, 21:16

Also sind deiner Meinung nach meine Modellannahmen erfüllt ?

Etwas verwirrt bin ich immer noch. Kann das noch jemand anders bestätigen.

Vielen, vielen Dank für eure Hilfe:)
Casual
Mitglied
Mitglied
 
Beiträge: 24
Registriert: Fr 28. Dez 2012, 13:43
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Modellannahmen Residuen

Beitragvon PonderStibbons » Mo 1. Jun 2015, 09:01

Also sind deiner Meinung nach meine Modellannahmen erfüllt ?

Die Normalverteilungsannahme der residuen anscheinend ja nicht, was aber
wegen einer ausreichenden Fallzahl kein wesentliches Problem darzustellen
scheint. Zum Rest kann ich nichts sagen.

Probleme liegen erstmal woanders. a) passt das Design anscheinend nicht zur
Forschungsfrage. Die Spielweise in Runden 1 und 2 wird zum Prädiktor des
Abschneidens in späteren Runden. Die Spielweise ist aber keine statische
Eigenschaft der Spieler, sondern ändert sich entsprechend der Gegner.
2.) Du verwendest eine automatische schrittweise Eliminierung. Das
verzerrt die Ergebnisse.
Und selbst wenn man über diese beiden Punkte hinwegsieht, bleibt noch das
zentrale Problem, dass 3.) keine 256 unabhängigen Beobachtungen vorliegen.
Die Spieler treten gegeneinander an und beeinflussen die Spielweise des
jeweiligen Gegners, und sie determinieren natürlich auch wechselseitig das
Weiterkommen, also die Ausprägung der abhängigen Variabe. Daher ist die
Grundvoraussetzung für die Durchführung der Regression verletzt. Das
ganze Verfahren ist in der Form unzulässig.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Nächste

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste