Hallo zusammen
ich habe eine Frage zur logistischen Regression. Und zwar habe ich ein abhängigee Variable, die in vier verschiedenen Bundesländern (A, B, C, D) gemessen wurde. Daneben gibt es zahlreiche erklärende Merkmale - darunter eben auch die Variable "Bundesland" welche 4 Ausprägungen hat.
Wenn ich die Bundesland-Variable nun als aV in das Modell aufnehme, wird sie dummy-codiert, d.h. es wird eine Referenz-Kategorie angenommen (z.B. Bundesland A). Für die drei übrigen Merkmalsausprägungen (B, C, D) wird dann der Korrelationsoeffizient berechnet. D.h. ich erhalte nur Regressionskoeffizienten für die Länder B, C und D. Der OR (e^B) gibt dann an, zu welchem Faktor sich die jeweilige Kategorie von der Referenzkategorie unterscheidet.
Nun gibt es für mich aber inhaltlich überhaupt keinen Grund, weshalb ich ausgerechnet ein bestimmtes Bundesland als Referenzkategorie angeben sollte, vielmehr sind alle Länder gleichwertig. Wäre es hier nicht besser, wenn man stattdessen einfach vier (!) dichotome Merkmale, eine für jedes Bundesland, in das Modell aufnimmt? Was mich interessiert ist eben nicht unbedingt unbedingt ein Vergleich eines Landes (z.B. B) mit der Referenzkategorie (A), sondern, ein Vergleich eines Landes mit den übrigen drei Ländern.
Dass man bei der Dummy-Codierung einer nominalen Variablen mit k Ausprägungen nur k-1 Variablen erstellen sollte, ist mir schon klar (Multikollinearität, kein zusätzlicher Informationsgewinn der letzten Variable etc.).
Vielen Dank für eure Antworten!