Regressionsanalyse - bei Rückwärts alles weg?

Alle Verfahren der Regressionanalyse.

Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon Nanina » Di 13. Sep 2022, 14:36

Hallo zusammen :)

Mich nervt meine Regressionsanalyse... Mir ist bereits klar, dass ich (aus vielen Gründen) "Einschluss" wählen werde (Wahl der Prädiktoren literaturgestützt und mit Korrelation zum Kriterium), aber eine Sache lässt mich nicht los: Während mit der "Einschluss"-Methode mehrere Prädiktoren signifikante und relevante Einflüsse zeigen, gibt es mit "Rückwärts" gar keine signifikanten Prädiktoren mehr im Modell.

Ich habe zwei getrennte Regressionsmodelle. Das Kriterium ist der gesundheitliche Zustand, einmal körperlich und einmal psychisch. N=80. Die Prädiktoren werden blockweise in das Modell aufgenommen. Die Voraussetzungen für eine Regressionsanalyse sind erfüllt.

Für das körperliche Modell sieht das so aus:
Block 1: Alter.
Block 2: ein psychischer Prädiktor A
Block 3: 12 Prädiktoren körperlicher Natur, B-N

Die Ergebnisse für das körperliche Modell:
Einschluss: Variablen A, D zeigen einen signifikanten Einfluss
Rückwärts: Keine Variable zeigt einen signifikanten Einfluss (Block 1: Alter bleibt bei Einschluss)
Vorwärts: Variablen A, D, G, K zeigen einen signifikanten Einfluss (Block 1: Alter bleibt bei Einschluss)


Für das psychische Modell sieht das so aus:
Block 1: Alter.
Block 2: 6 psychische Prädiktoren A-F
Block 3: 2 soziale Prädiktoren G, H
Block 4: 3 Prädiktoren körperlicher Natur, I-K

Die Ergebnisse für das psychische Modell:
Einschluss: Variable B zeigt einen signifikanten Einfluss
Rückwärts: Keine Variable zeigt einen signifikanten Einfluss (Block 1: Alter bleibt bei Einschluss)
Vorwärts: Variablen A, B, C, D zeigen einen signifikanten Einfluss (Block 1: Alter bleibt bei Einschluss)

Die Frage ist nun: Warum fliegt bei Rückwärts alles raus? Und kann ich dann meinem Modell mit Einschluss überhaupt vertrauen? Und wie finde ich das raus? :|

Ich freue mich auf Rückmeldung :)

Vielen Dank
Nanina
Nanina
User
User
 
Beiträge: 49
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon PonderStibbons » Di 13. Sep 2022, 18:13

Die Frage ist nun: Warum fliegt bei Rückwärts alles raus?

Deine Software müsste eigentlich das Kriterium genannt haben, nach dem darüber bestimmt wird.
Und kann ich dann meinem Modell mit Einschluss überhaupt vertrauen?

Ein schrittweise-vorwärts konstruierte Modell ist wahrscheinlich überangepasst (zumal angesichts
von 14 Prädiktoren bei gerade mal 80 Fällen) und daher nicht vertrauenswürdig.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Nanina

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon bele » Di 13. Sep 2022, 18:31

Auf https://stats.stackexchange.com/a/321775/117812 findet man das hier und mehr, zum Beispiel Verweise auf weitere Quellen:

The facts that you are getting different answers from forward and backward selection, and that you get different answers when you change the seed, should give you pause. Clearly, these can't all be right. Most likely, none of them are. The simplest answer is that you should not use these methods at all.


Zitierfähig und um zu zeigen, dass das keine neue Erkenntnis ist:

Michael S Lewis-Beck
Stepwise regression: A caution
Political Methodology, 213-240, 1978
https://www.jstor.org/stable/25791533
Although quantitative researchers in political science and sociology have used stepwise regression to select independent variables and to rank them in terms of their impact on a dependent variable, the technique should not be employed for these purposes. It is inappropriate for selecting independent variables...

(tl;dr)

Etwas neuer und mit lustigerem Titel
Gary Smith
Step away from stepwise
Journal of Big Data 5 (1), 1-12, 2018
tl;dr: https://rdcu.be/cVvON

Choosing a model’s explanatory variables based on R2 or statistical significance is treacherous—and this is the most fundamental problem with stepwise regression and the most compelling reason why researchers should stop using it.

Sorry, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
Nanina

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon Nanina » Do 15. Sep 2022, 14:06

Vielen Dank für das Feedback und die Links!

Ich arbeite mit SPSS (V27). So wie ich das verstehe, sind die Regressionsmethoden "Vorwärts/Forwards", "Rückwärts/Backwards" und "Schrittweise/Stepwise" die schrittweisen Methoden, die zwar viel zu oft genutzt werden, aber nicht sinnvoll sind (aus in den Links erwähnten Gründen und weiteren). Die "Einschluss/Enter"-Methode ist jedoch keine schrittweise Methode und arbeitet auf Basis der zugrundeliegenden Literatur sowie der Interpretation durch den Rechnenden, richtig? Das ist zumindest meine Grundannahme, und warum ich "Einschluss" für das tatsächliche Modell wählen möchte. Über die schrittweisen Methoden bin ich also schon hinweg ;)

Ich stimme zu, dass das Vorwärts-Modell wahrscheinlich überangepasst ist, und das will ich ja auch gar nicht benutzen. Die Frage ist: Kann ich dem "Einschluss"-Modell vertrauen? Augenscheinlich könnte man ja denken, "ok, schrittweise Methoden sind eh problematisch, daher ist Vorwärts überangepasst und Rückwärts unterangepasst, aber Einschluss sollte ok sein." Aber ist der Gedanke auch legitim?

Ich hätte ja direkt nur mit "Einschluss" gerechnet, aber von oben (wo noch die alte Schule regiert) kam folgende Weisung: "Rechne das einmal vorwärts und einmal rückwärts, und wenn es keine Unterschiede gibt dann nimm vorwärts." Tja, und da gab es ja nun erhebliche Unterschiede. Und bevor ich damit weitermache (die Rechnungen sind für eine Abschlussarbeit, die ich betreue), muss ich jetzt natürlich herausfinden, ob ich dennoch dem "Einschluss"-Modell vertrauen kann. Ich nehme ohnehin die schrittweisen Methoden nicht. Und wenn ich dem Einschluss-Modell nicht mehr vertrauen kann, was dann? Für die Abschlussarbeit darf es nicht allzu schwierig werden (es gibt ja Gründe, warum ich die statistische Arbeit schonmal vorbereite...), aber die Forschungsfrage möchte natürlich beantwortet werden.

Als Kriterien für den Einschluss bzw. Ausschluss benutze ich den Standard von SPSS: /CRITERIA=PIN(.05) POUT(.10) ... Auch eine Veränderung von POUT bringt keinen Unterschied: Es fliegen weiterhin alle Prädiktoren aus dem Modell.
Nanina
User
User
 
Beiträge: 49
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon Nanina » Do 15. Sep 2022, 14:12

In Weiterführung des Threads auf Stackexchange:

"There are several alternatives to Stepwise Regression. The most used I have seen are:

Expert opinion to decide which variables to include in the model.
Partial Least Squares Regression. You essentially get latent variables and do a regression with them. You could also do PCA yourself and then use the principal variables.
Least Absolute Shrinkage and Selection Operator (LASSO)."

https://stats.stackexchange.com/questio ... regression

Für das Einschluss-Modell habe ich "expert opinion" genutzt, sofern die Prädiktoren mit dem Kriterium relevant korrelierten. Wenn man das so machen kann, dann würde ich das auch so machen.

Ich stimme überein mit: "The facts that you are getting different answers from forward and backward selection, and that you get different answers when you change the seed, should give you pause." ... und das tut es ja auch, deswegen frage ich ja hier nach :) Aber dabei geht es ja bei beiden Fällen um schrittweise Selektion, die ich ohnehin vermeide. Nun bin ich allerdings durch die "Weisung von oben" mit vorwärts und rückwärts darauf gestoßen, dass die Modelle dann jeweils anders sind, und nun hinterfrage ich mein Einschluss-Modell, welches aber nach allem was ich gelesen habe legitim sein sollte...

PLS und LASSO sind leider auch nicht wirklich Alternativen, denn wie schon gesagt, ich arbeite mit SPSS, müsste kostenpflichtige Add-Ons selbst bezahlen und es darf eben nicht zu schwierig werden für die Abschlussarbeit die ich hier betreue :?
Nanina
User
User
 
Beiträge: 49
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon bele » Do 15. Sep 2022, 16:10

Hallo Nanina,

Nanina hat geschrieben:Über die schrittweisen Methoden bin ich also schon hinweg ;)


Das ist gut und damit ist dann ja schon viel gewonnen.

Nanina hat geschrieben:Einschluss sollte ok sein." Aber ist der Gedanke auch legitim?


Ich bin immer etwas unsicher mit der SPSS-Nomenklatur, da ich nie SPSS nutze. Ich halte immer wieder "Einschluss" für "Vorwärts" und wenn iich dann nachlese und das richtig verstehe heißt "Einschluss": Das, was Du als Wissenschaftlerin zur Unabhängigen wählst, ist dann auch unabhängige Variable und kein (auf der Ebene der Sachwissenschaft blinder) Algorithmus redet Dir da rein. Wenn ja, würde ich das als "normal" bezeichnen und die Legitimität hängt dann nur von Deinem Denken und Deinem Sachverstand ab.

Für das Einschluss-Modell habe ich "expert opinion" genutzt, sofern die Prädiktoren mit dem Kriterium relevant korrelierten. Wenn man das so machen kann, dann würde ich das auch so machen.


Das mit dem vorher korrellieren ist sicher auch so eine Sache, über die man lebhaft diskutieren kann, aber wohl nicht so ein Sündenfall wie stepwise?

Nanina hat geschrieben:Ich hätte ja direkt nur mit "Einschluss" gerechnet, aber von oben (wo noch die alte Schule regiert) kam folgende Weisung:


Ja, "von oben" redet in den Fragen, die hier im Forum gerechnet werden gerne rein und hat auch immer irgendwie Recht, selbst wenn "von oben" völlig daneben liegt. Ob Du jetzt, da die Weisung "von oben" nicht funktioniert hast einfach machen darfst, was Du für richtig hälst oder gehalten bist, wieder "von oben" zu fragen, musst Du entscheiden. Da können wir naturgemäß nicht mitreden. Es gibt einige "von obens", die man nicht einfach mit guter Literatur korrigieren kann.

Was die "alte Schule" angeht, es war schon Absicht, dass ich eine Arbeit von 1978 zitiert habe -- das war auch schon falsch, als "von oben" noch gelernt hat.

Nanina hat geschrieben: ich dennoch dem "Einschluss"-Modell vertrauen kann.


Erklär bitte im Zweifel nochmal, inwiefern das ein Modell ist. Wenn es eine automatisierte Form ist, die wichtige von unwichtigen Variablen unterscheiden will, dann solltest Du ihr im Zweifel nicht vertrauen.

Nanina hat geschrieben:Als Kriterien für den Einschluss bzw. Ausschluss benutze ich den Standard von SPSS: /CRITERIA=PIN(.05) POUT(.10) ... Auch eine Veränderung von POUT bringt keinen Unterschied: Es fliegen weiterhin alle Prädiktoren aus dem Modell.


Ich verstehe leider die SPSS-Syntax nicht, aber PonderStibbons und strukturmarionette wird es etwas sagen. Was ich nicht verstehe, ist wo bei "Einschluss" jetzt noch was herausfliegen soll und, was damit auch immer gemeint ist, das auch die Variablen betrifft, die mit "Einschluss" gerechneten und dort signifikant gewordenen Prädiktoren? Es tut mir Leid falls fehlende Kenntnisse im SPSS Jargon meinerseits Grund für dumme Rückfragen sein sollten.

Oder willst Du nach der Regression die nicht-signifikanten Prädiktoren 'rausschmeißen? dann würde ich gerne wieder mit einer treffenden CrossValidated-Antwort antworten:
https://stats.stackexchange.com/a/413609/117812 (Demetri Pananos am 18.7.2019)

PLS und LASSO sind leider auch nicht wirklich Alternativen, denn wie schon gesagt, ich arbeite mit SPSS


Nun ja, wenn die Forschungsfrage damit am besten zu beantworten wäre und es darum geht, jemanden zu finden, der einem einmal eine LASSO-Regression in einem anderen System rechnet, dann wird sich das schon finden lassen. Stellt sich aber die Frage, warum nicht einfach Einschluss-OLS und gut ist?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
Nanina

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon Nanina » Do 15. Sep 2022, 16:38

Hi Bernhard,

vielen Dank für die schnelle Antwort. Die Methode "Einschluss" bzw. "Enter" schließt in SPSS alle Prädiktoren in das Modell ein, und gibt für jeden alle statistischen Werte aus. Es wird also nichts automatisch rausgeworfen oder reingenommen. Am Ende hat man ein Modell, in dem prädiktive Beitrag aller Prädiktoren angezeigt wird, mit Regressionskoeffizient B, SE, Beta, T, p und 95% CI (und auf Wunsch VIF und Toleranz, da ist aber alles gut). Und dann kann man ja selbst sehen, welche Prädiktoren da sinnvollen/relevanten Einfluss haben und welche nicht.

Soweit ich bisher weiß, ist das die sinnvolle Vorgehensweise. Ich war nur irritiert, warum Vorwärts und Rückwärts deutlich andere Ergebnisse erbracht haben, und ob ich dem Einschluss-Modell dennoch trauen kann. Es wäre allerdings für mich auch völlig logisch zu sagen, dass Vorwärts überangepasst ist und Rückwärts unterangepasst. Falls das tatsächlich der logische Schluss ist! Ich bin nicht ganz doof in Statistik, aber an der Stelle fehlt mir dann auch etwas mathematisches Hintergrundwissen, um so etwas mit Überzeugung zu behaupten. Man könnte auch sagen, hätte ich nur das Einschluss-Modell gerechnet und diesen ganzen Schrittweise-Bullshit nicht machen müssen, hätte ich mich das nie gefragt.

Ja, das mit dem vorher korrelieren ist so eine Sache. Einerseits macht es ja schon Sinn, dass Prädiktor und Kriterium irgendwie zusammenhängen sollten, aber es ist ganz sicher nicht das Ende der Fahnenstange. Solange es aber nicht zu den "großen Sünden" gehört würde ich sagen, ich lebe der Einfachheit halber damit :)

Und mein "von oben" lässt sich durchaus überzeugen, aber dann muss *ich* eben auch sehr davon überzeugt sein, dass das jetzt richtig so ist :) Bin ich grundsätzlich, aber dann kläre ich meine Unsicherheiten gerne vorher (z.B. hier und jetzt :D )

Danke auch für den weiteren Link zu Stackexchange! Ich würde, wie Demetri Paranos, die nicht-signifikanten Prädiktoren auch im Modell lassen, und in der Diskussion einfach erwähnen, welche Prädiktoren im Modell waren und welche davon einen signifikanten und sinnvollen Einfluss gezeigt habe und welche nicht.
Nanina
User
User
 
Beiträge: 49
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon bele » Do 15. Sep 2022, 21:16

Hallo Nanina,

Nanina hat geschrieben:Soweit ich bisher weiß, ist das die sinnvolle Vorgehensweise. Ich war nur irritiert, warum Vorwärts und Rückwärts deutlich andere Ergebnisse erbracht haben, und ob ich dem Einschluss-Modell dennoch trauen kann.


Stell Dir eine Funktion vor, die aus einer Auswahl an Prädiktoren ein Maß der Anpassungsgüte des Modells zuordnet. Dann finden Vorwärts und Rückwärts irgendwelche lokalen Maxima dieser Funktion, mit der Betonung auf irgendwelche und auf lokale Maxima. Das absolute Maximum könnte man bestimmen, indem man alle Kombinationen Deiner Prädiktoren durchprobiert. Bei elf Prädiktoren zweitausend Möglichkeiten -- das lässt sich machen, führt zum optimalen Modell für diese Stichprobe und läuft garantiert gegen die Wand, wenn man das Modell an neuen, frischen Daten ausprobiert. Stepwise führt zu zufälligen Ergebnissen und bei Dir eben vorwärts und rückwärts zu verschiedenen. Hätte es zum gleichen geführt, wäre auch das wahrscheinlich Zufall und keine Berechtigung, das zu verwenden.

Es wäre allerdings für mich auch völlig logisch zu sagen, dass Vorwärts überangepasst ist und Rückwärts unterangepasst
.
Beides überangepasst (overfitting, zu sehr an die Zufallsstichprobe angepasst), aber das spielt keine Rolle.

Ja, das mit dem vorher korrelieren ist so eine Sache. Einerseits macht es ja schon Sinn, dass Prädiktor und Kriterium irgendwie zusammenhängen sollten, aber es ist ganz sicher nicht das Ende der Fahnenstange.

Es wäre ja grundsätzlich denkbar, dass zwei Prädiktoren sich immer genau so ergänzen, dass sie in der Summe hervorragend vorhersagen, ohne den jeweils anderen aber nicht.

Code: Alles auswählen
...würde ich sagen, ich lebe der Einfachheit halber damit  :) 

Wenn das so üblich ist und keinen stört.

Danke auch für den weiteren Link zu Stackexchange! Ich würde, wie Demetri Paranos, die nicht-signifikanten Prädiktoren auch im Modell lassen, und in der Diskussion einfach erwähnen, welche Prädiktoren im Modell waren und welche davon einen signifikanten und sinnvollen Einfluss gezeigt habe und welche nicht.

Das scheint mir der angemessene Weg zu sein.

GLG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
Nanina

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon Nanina » Sa 17. Sep 2022, 17:36

Top, vielen Dank für die Rückversicherung! Dann bin ich auf dem richtigen Weg (bzw. richtig genug)! :)

Doofe Frage: Habt ihr eigentlich sowas wie eine Kaffeekasse? Ich hab inzwischen ganz schön oft von eurem Rat profitiert :P :D
Nanina
User
User
 
Beiträge: 49
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Regressionsanalyse - bei Rückwärts alles weg?

Beitragvon bele » Sa 17. Sep 2022, 17:52

Nanina hat geschrieben:Doofe Frage: Habt ihr eigentlich sowas wie eine Kaffeekasse? Ich hab inzwischen ganz schön oft von eurem Rat profitiert :P :D


Ja, da gibt es zwei Varianten: Wir haben einen Thanks-Button in unseren Beiträgen, auf den man klicken kann, wenn man sich für einen konkreten Beitrag bedanken will. Was an diesem Forum hier wirklich schade ist: Die allermeisten kommen, stellen Fragen für eine Klausur oder eine Abschlussarbeit, beantworten nie eine Frage und verschwinden dann auf Dauer. Nachhaltig ist das nicht. Ich würde mich freuen, wenn Du hier oder irgendwo anders im Netz, in einem anderen Forum zu einem anderen Thema oder auf der Straße einem zufälligen Fremden eine Frage beantworten oder ihm anders helfen würdest. Wenn wir das alle machen, dann wird die Welt in der wir leben besser.

GLG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
Nanina


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste