Zum Blockweisen vorgehen bei nicht-linearen Modellen wiederhole ich mich nicht mehr.
Vorraussetzung ist Unabhängigkeit der Variablen, wenn nicht gegeben, eine davon löschen.
Das beantwortet meine Frage nach den befürchteten Konsequenzen nicht wirklich, aber egal.
Also, unabhängig müssen die Variablen schon mal auf gar keinen Fall sein. Wie gesagt wäre dann eine Regressionsanalyse in den meisten Fällen komplet überflüssig. In welchem "Statistikbuch" steht denn sowas drin?
Den Ratschlag eine der beiden (hoch) korrelierten Variablen aus dem Modell zu entfernen ist mir auch schon untergekommen, ich halte ihn aber für eher unbrauchbar. Andere mögen widersprechen.
Ich erkläre kurz (anhand des linearen Modells) wieso das m.E. eine sehr schlechte Idee ist. Wir wissen, dass Koeffizienten verzerrt sind, wenn Variablen ausgelassen werden, die sowohl mit dem outcome als auch mit einem der Prädikatoren korrelieren (bei nicht-linearen Modellen genügt bereits die Korrelation mit dem outcome). Genau das ist ja hier aber der Fall. Lassen wir also einfach eine der Variablen, von der wir genau wissen, dass sie sowohl mit dem outcome als auch mit einem der Prädikatoren korreliert, aus dem Modell, dann wissen wir auch, dass die Koeffizineten, die wir schätzen, verzerrt sind. I.d.R. ist das das letzte was man möchte. Alternativ bekommen wir gegebenenfalls infaltionäre Standardfehler und "unzuverlässige" Koeffizienten. In beiden Fällen sind die Ergbnisse mit Vorsicht zu genießen, wobei wir im ersten Fall (Ausschluss der Variable) sicher wissen, dass die Koeffizineten verzerrt sind, während sie im zweiten Fall zumindest theoretisch noch konsitient sind. Diesen Ratlag kann ich daher absolut nicht nachvollziehen.
Alter und Dauer der Abhängigkeit korrelieren mit Spearman Rho: 0,901 (p>0,001, n=243)
Darf ich fragen wieso Du Spearman verwendest, statt einer einfachen Pearson Korrelation, wenn Du offenbar zwei metrische Variablen hast? Davon ausgehend, dass die Korrelation tatsächlich größer ist als .8 hast Du vermutlich tatsächlich ein praktisches Problem. Was sagen den die VIFs?
Deine Koeffzinten sind bei derart starken Zusammenhängen vermutlich nicht sehr "stabil". Zudem werden die Standardfehler relativ groß werden, was dazu führt, dass eventuell keine Deiner beiden Variablen statistisch signifikant von Null verschieden ist. Die Frage ist: was tun?
Wie oben erläutert halte ich das Ausschließen einer Variable nicht für eine akzeptable Lösung. Wenn die zwei korrelierten Variablen sinnvoll als Manifestation eines latenten Konstruktes interpretiert werden können, dann sollte man sich überlegen diese Variablen zusammenzufassen. Das ist aber bei Dir wohl nicht der Fall.
Da es sich bei Kollinearität im Prinzip um ein Problem mangelder Information (i.e. Varianz) handelt, kann man sich weiter überlegen, wie man mehr Information in das Modell bekommt. Die vermutlich beste Möglichkeit, die in der Praxis leider häufig nicht umsetzbar ist, ist die Stichprobe zu vergrößern.
In Deinem Fall kannst Du auch überlegen, was genau Du mit dem Proxy "Alter" abbilden willst. Du wirst ja nicht davon ausgehen, dass die Anzahl der Jahre seit der Geburt eine kausalen Effekt auf irgendetwas haben. Überleg Dir, ob Du das was Du damit abbilden willst vielleicht mit anderen Variablen besser erfassen kannst.
Zum Thema Kollinearität fallen mir ansonsten noch die Stichworte "ridge regression" und "exact maximum likelihood" ein. Zu beiden habe ich nicht viel gelesen und selbst auch noch keines der Verfahren benutzt. Ersteres Verfahren liefert m.W. verzerrte Koeffizienten aber eventuell einen geringeren MSE, Letztres wird oft im Zusammenhang mit Separierung diskutiert und ich bin nicht sicher inwieweit das bei Kollinearität sinnvoll eingesetzt werden kann.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.