STATISTIK-FORUM.de

surfergirl · von **surfergirl** » Do 15. Dez 2011, 07:51

Hallo liebe Statistik- Checker :-)

Bitte helft mir weiter, wenn ihr könnt, ich komm allein einfach nicht weiter...

Es geht um 2 ähnliche Fälle:

1. Ich möchte den Einfluss von verschiedenen Prädiktoren (Alter, Geschlecht,..., Dauer der Abhängigkeit) auf meine AV (Abbruch einer Therapie) durch eine binär logistische Regression überprüfen. Leider korrelieren 2 der Prädiktoren (Alter und Dauer der Abhängigkeit) stark miteinander. Eigentlich dürfte ich die beiden dann ja nicht gleichzeitig in die Analyse aufnehmen. Aber ich möchte dennoch beide prüfen. Wie soll ich hier vorgehen?

2. Ich möchte den Einfluss von 2 hochkorrelierten Prädiktoren (Abstinenz, Abbruch der Therapie) auf meine AV messen (Lebenszufriedenheit). Die Überlegung dahinter ist: Beeinflusst der Abbruch einer Therapie (UV1) die Lebenszufriedenheit (AV) über die Abstinenz (UV2) hinaus? Hier ist auch wieder die Voraussetzung der Unabhängigkeit verletzt. Doch wie kann ich dann rechnen? Mein Betreuer schlug mir vor, die beiden Variablen blockweise in die Analyse aufzunehmen. Aber alle Statistikbücher warnen davor. Was soll ich also tun?

Ich bin über jede Hilfe dankbar!
Euer surfergirl

daniel · von **daniel** » Do 15. Dez 2011, 12:07

Zunächst das Wichtigste:

Hier ist auch wieder die Voraussetzung der Unabhängigkeit verletzt.

Das hört man immer wieder einmal. Die Aussage, die Prädikatoren in einer Regression dürften nicht korreliert sein ist schlicht und ergreifend falsch.* Wären die Prädikatoren unkorreliert dann bräuchten wir keine Regressionsanalysen sondern könnten einfach eine Reihe bivariater Korrelationen prüfen.

Mein Betreuer schlug mir vor, die beiden Variablen blockweise in die Analyse aufzunehmen. Aber alle Statistikbücher warnen davor. Was soll ich also tun?

Ich vermute Du und Dein Betreuer redet da ein wenig aneinander vorbei. Was Du im Sinn hast ist ein "stepwise" Vorgehen zur Modelspezifikation, dass tatsächlich nicht empfehlenswert ist. Was Dein Betreuer aber verutlich meint, ist ein schrittweises Einführen der Variablen in das Modell. Wo liegt der Unterschied, außer, dass ich bei ersterem den englischen Begriff benutzt habe?
Ersteres hat i.d.R. zum Ziel aus einer Reihe möglicher Prädikatoren diejenigen zu finden, die "relevant" sind und so das "beste" Modell zu wählen. Das funktioniert aus verschiedenen Gründen nicht (eine kurze Zusammenfassung findest Du z.B. hier: http://www.stata.com/support/faqs/stat/stepwise.html).
Beim zweiten (Blockweise/Schrittweise) Vorgehen, steht das Modell von vorneherein fest. Es ist aus der Theorie hergeleitet. Man zeigt hier allerdings nicht nur das komplette Modell, sondern baut dieses schrittweise auf, um die Veränderung der Koeffizienten der Prädikatoren mit und ohne Kontrolle weiterer Prädikatoren herausarbeiten zu können.**
Du könntest z.B. In einem ersten Modell den Einfluss von "Abruch der Therapie" auf Lebenszufriendenheit zeigen. In einem zweiten Modell zeigst Du den Einfluss von "Abstinenz". In einem dritten Modell fügst Du schließlich beide Prädikatoren simultan ein. Hier kannst Du (i) sehen, ob "Abruch der Therapie" auch unter Kontrolle von "Abstinenz" einen Effekt hat und (ii) im Vergleich mit Modell 1 die Reduktion des Effektes durch "Abstinenz" sogar quantifizieren. Würden Deine Prädikatoren nicht korrelieren, dann wären die Koeffizienten der Prädikatoren in allen drei Modellen gleich.***

Anmerkungen

Wenn ich in diesem Beitrag von "Einfluss", "Effekt", etc. spreche, beziehe ich mich auf die theoretische Idee kausaler Zusämmenhänge. Ob, und in wieweit ökonometrische Verfahren tatsächlich dazu geeigent sind kausale Zusammenhänge zu zeigen, ist eine andere Frage.

* Diese "Annahme" wird oft mit der Vorraussetzung des vollen Rangs der X Matrix (wir nennen es "keine Mutlikolliniarität") verwechselt. Hohe(!) Korrelationen der Prädikatoren führen zu hohen Standardfehlern, und damit zu "unsichern" Schätzungen. Auch wenn sich Gerüchte über die Wunderwikrung zentrierter/standardisierter Variabelen in diesem Zusammenhang hartnäckig halten, scheint der einzig wirksame Weg zu sein, die Stichprobe zu vergrößern und so mehr Informationen in das Modell einfließen zu lassen.

** In nicht-linearen Modellen (z.B. binär logistisches Modell) ist der Vergleich von Koeffizienten über sogn. genestete Modelle nicht ohne Weiteres möglich. Man sieht häufig, dass auch diese Modelle schrittweise aufgebaut werden, aber ohne geeigente Maßnahmen (z.B. y-standardisierte Koeffizienten) ist ein Vergleich der Koeffizienten nicht möglich.

*** Dieser Satz gilt nur für lineare Modelle.

folgende User möchten sich bei daniel bedanken:
surfergirl

surfergirl · von **surfergirl** » Do 15. Dez 2011, 17:38

Hallo Daniel,

vielen Dank für Deine ausführliche Hilfe! Das hat mich wirklich weitergebracht! Ist eine super Idee!

Zur ersten Frage nochmal- meinst Du also, dass ich bei den vielen Prädiktoren, die beiden hochkorrelierten also einfach so alle in einem Block aufnehmen darf (Dauer der Abhängigkeit und Alter)?

daniel · von **daniel** » Do 15. Dez 2011, 18:23

Zur ersten Frage nochmal- meinst Du also, dass ich bei den vielen Prädiktoren, die beiden hochkorrelierten also einfach so alle in einem Block aufnehmen darf (Dauer der Abhängigkeit und Alter)?

Die Frage lässt sich sinnvoll in zwei Teilfragen untergliedern.

1. Ist es sinnvoll nicht-lineare Modelle Block/Schrittweise aufzubauen? Wenn einfach die "rohen" Koeffizienten angegeben werden, dann ist die Antwort m.E. nein. Ohne geeignete Maßnahmen sind die genesteten Modelle und die Veränderung der Koeffizienten von Bock zu Block nicht miteinander zu vergleichen.

2. Dürfen (hoch) korrelierte Prädikatoren simultan in das Modell aufgenommen werden? Hier verstehe ich die Frage nicht ganz, daher zunächst eine ernst gemeinte Gegenfrage: Woher Dein Zweifel, ob Du das "darfst"? Welche Konsequenzen befürchtest Du denn?

Btw. vieleicht kannst Du "hoch korreliert" ein bisschen genauer quantifizieren?

surfergirl · von **surfergirl** » Fr 16. Dez 2011, 14:05

zu 1. Mein Betreuer schlug vor:
1. Block: demographische Variablen (u.a. Dauer der Abhängigkeit und Alter)
2. Block: Abbruch der Therapie
3. Block: Abstinenz

Meine 2 Fragen beziehen sich also beide auf dieses Gesammtmodell.

zu 2.: Mein Zweifel, ob ich das "darf", habe ich aus Statistikbüchern: sinngemäß: Vorraussetzung ist Unabhängigkeit der Variablen, wenn nicht gegeben, eine davon löschen. Aber ich will ja auf jeden Fall beide testen, da beide Variablen in der Literatur separat als Prädiktoren gefunden wurden.

Alter und Dauer der Abhängigkeit korrelieren mit Spearman Rho: 0,901 (p>0,001, n=243)

daniel · von **daniel** » Fr 16. Dez 2011, 17:18

Zum Blockweisen vorgehen bei nicht-linearen Modellen wiederhole ich mich nicht mehr.

Vorraussetzung ist Unabhängigkeit der Variablen, wenn nicht gegeben, eine davon löschen.

Das beantwortet meine Frage nach den befürchteten Konsequenzen nicht wirklich, aber egal.

Also, unabhängig müssen die Variablen schon mal auf gar keinen Fall sein. Wie gesagt wäre dann eine Regressionsanalyse in den meisten Fällen komplet überflüssig. In welchem "Statistikbuch" steht denn sowas drin?

Den Ratschlag eine der beiden (hoch) korrelierten Variablen aus dem Modell zu entfernen ist mir auch schon untergekommen, ich halte ihn aber für eher unbrauchbar. Andere mögen widersprechen.
Ich erkläre kurz (anhand des linearen Modells) wieso das m.E. eine sehr schlechte Idee ist. Wir wissen, dass Koeffizienten verzerrt sind, wenn Variablen ausgelassen werden, die sowohl mit dem outcome als auch mit einem der Prädikatoren korrelieren (bei nicht-linearen Modellen genügt bereits die Korrelation mit dem outcome). Genau das ist ja hier aber der Fall. Lassen wir also einfach eine der Variablen, von der wir genau wissen, dass sie sowohl mit dem outcome als auch mit einem der Prädikatoren korreliert, aus dem Modell, dann wissen wir auch, dass die Koeffizineten, die wir schätzen, verzerrt sind. I.d.R. ist das das letzte was man möchte. Alternativ bekommen wir gegebenenfalls infaltionäre Standardfehler und "unzuverlässige" Koeffizienten. In beiden Fällen sind die Ergbnisse mit Vorsicht zu genießen, wobei wir im ersten Fall (Ausschluss der Variable) sicher wissen, dass die Koeffizineten verzerrt sind, während sie im zweiten Fall zumindest theoretisch noch konsitient sind. Diesen Ratlag kann ich daher absolut nicht nachvollziehen.

Alter und Dauer der Abhängigkeit korrelieren mit Spearman Rho: 0,901 (p>0,001, n=243)

Darf ich fragen wieso Du Spearman verwendest, statt einer einfachen Pearson Korrelation, wenn Du offenbar zwei metrische Variablen hast? Davon ausgehend, dass die Korrelation tatsächlich größer ist als .8 hast Du vermutlich tatsächlich ein praktisches Problem. Was sagen den die VIFs?
Deine Koeffzinten sind bei derart starken Zusammenhängen vermutlich nicht sehr "stabil". Zudem werden die Standardfehler relativ groß werden, was dazu führt, dass eventuell keine Deiner beiden Variablen statistisch signifikant von Null verschieden ist. Die Frage ist: was tun?

Wie oben erläutert halte ich das Ausschließen einer Variable nicht für eine akzeptable Lösung. Wenn die zwei korrelierten Variablen sinnvoll als Manifestation eines latenten Konstruktes interpretiert werden können, dann sollte man sich überlegen diese Variablen zusammenzufassen. Das ist aber bei Dir wohl nicht der Fall.

Da es sich bei Kollinearität im Prinzip um ein Problem mangelder Information (i.e. Varianz) handelt, kann man sich weiter überlegen, wie man mehr Information in das Modell bekommt. Die vermutlich beste Möglichkeit, die in der Praxis leider häufig nicht umsetzbar ist, ist die Stichprobe zu vergrößern.
In Deinem Fall kannst Du auch überlegen, was genau Du mit dem Proxy "Alter" abbilden willst. Du wirst ja nicht davon ausgehen, dass die Anzahl der Jahre seit der Geburt eine kausalen Effekt auf irgendetwas haben. Überleg Dir, ob Du das was Du damit abbilden willst vielleicht mit anderen Variablen besser erfassen kannst.

Zum Thema Kollinearität fallen mir ansonsten noch die Stichworte "ridge regression" und "exact maximum likelihood" ein. Zu beiden habe ich nicht viel gelesen und selbst auch noch keines der Verfahren benutzt. Ersteres Verfahren liefert m.W. verzerrte Koeffizienten aber eventuell einen geringeren MSE, Letztres wird oft im Zusammenhang mit Separierung diskutiert und ich bin nicht sicher inwieweit das bei Kollinearität sinnvoll eingesetzt werden kann.

surfergirl · von **surfergirl** » Mi 21. Dez 2011, 10:55

Hallo daniel!

Merke gerade, dass meine Antwort nicht übertragen wurde, obwohl ich sie abgeschickt hatte und eine Bestätigung kam, komisch.

Danke für Deine Vorschläge zum Thema streichen einer Variablen. Meine Befürchtung war eben, wie Du meintest, dass die Zusammenhänge nicht mehr stabil sind.
Bezüglich der Variable "Alter" werde ich mir was überlegen, wie ich das besser darstellen kann. Nicht so einfach...

Spearman Rho hatte ich verwendet, da die Variable nicht normalverteilt war.

Werde mich auch einfach nochmal mit meinem Betreuer zusammen setzen. Deine Hilfe war aber super, jetzt habe ich einen klareren Durchblick!
Vielen Dank nochmal!!!

daniel · von **daniel** » Mi 21. Dez 2011, 12:26

Falls Du doch nochmal hier reinliest, ich bin gestern über eine interesante Methode gestolpert. Das Ganze könnte man "Orthogonalisierung" nennen. Kannst Du mal googeln (auch: Gram–Schmidt) und ein bisschen reinlesen. Ich bin da auch noch nicht so voll durchgestiegen, aber die Grundidee scheint zu sein, aus dem (Vektor)Raum den zwei Variablen aufspannen, zwei neue Variablen zu konstruieren, die orthogonal (i.e. unabhängig) zueinander sind, jedoch den gleichen Vektorraum beschrieben. Mit diesen Variablen kann man dann wohl die (lineare) Regression schätzen um nicht-inflationäre Standardfehler und numerisch stabile Resultate zu bekommen. Mittels geeigneter Transformation können die Koeffizienten wieder in ihre Originalmetrik rücktransformiert werden.

Ich weiß nicht, inwieweit das tatsächlich funktioniert und inwieweit sich das Konzept eventuell auf Nicht-lineare Modelle, die ja bekanntlich mittels ML geschätzt werden übertragen lässt. Wie gesgat bin ich erst gestern auf diese Methode gestoßen. Vielleicht können andere mehr dazu sagen.

Refernez

Golub, G. H., and C. F. Van Loan. 1996. Matrix Computations. 3rd ed. Baltimore: Johns Hopkins University Press.

Zum Thema Speamn vs. Pearson. Ich meine gelesne zu haben, dass die (bivariate) Normalverteilung der Variablen lediglich für das Testen von Hypothesen nötig ist und für den Punktschätzer irrelevant.

surfergirl · von **surfergirl** » Do 22. Dez 2011, 18:34

Klingt ja nach einem interessanten Ansatz, werd mich mal ein bisschen einlesen.
Auf jeden Fall nochmal ein riesen großes Dankeschön für Deine super Ideen!

STATISTIK-FORUM.de

Prädiktoren in log. Regression korreliert- was tun?

Prädiktoren in log. Regression korreliert- was tun?

Re: Prädiktoren in log. Regression korreliert- was tun?

Re: Prädiktoren in log. Regression korreliert- was tun?

Re: Prädiktoren in log. Regression korreliert- was tun?

Re: Prädiktoren in log. Regression korreliert- was tun?

Re: Prädiktoren in log. Regression korreliert- was tun?

Re: Prädiktoren in log. Regression korreliert- was tun?

Re: Prädiktoren in log. Regression korreliert- was tun?

Re: Prädiktoren in log. Regression korreliert- was tun?

Wer ist online?