Hallo liebe Forengemeinde,
ich sitze gerade für die Uni an einer Arbeit, bei der wir eine bestehende Studie neu durchführen sollen. Dabei geht es darum, die Gerechtigkeitsbewertung von Einkommensungleichheiten auf Grundlage einer linearen Regression zu schätzen.
Größtenteils ist das kein Problem, allerdings bin ich auf eine Komplikation gestoßen: eine der Einflussgrößen, die wir in die Gleichung aufnehmen sollen, ist die kategoriale Variable der Branchenzugehörigkeit. Diese verfügt über 8 verschiedene Ausprägungen. Nun wäre es natürlich sehr einfach, das ganze in Dummy-Variablen umzuformen und eine Referenzkategorie zu bilden. Allerdings wurde in der vorliegenden Studie eine Effektkodierung statt einer Dummykodierung verwendet und die bereitet mir nun Kopfzerbrechen.
Bei einer Dummykodierung ist es ja völlig nachvollziehbar, dass die Referenzkategorie keinen Regressionskoeffizienten zugewiesen bekommt, da sich die anderen Kategorien auf die Referenzkategorie beziehen. Bei der Effektkodierung beziehen sich die Kategorien allerdings nicht auf die Referenzkategorie, sondern auf den Mittelwert der einzelnen Mittelwerte der Kategorien. Dennoch wird offenbar auch bei der Effektkodierung eine Referenzkategorie benötigt, die dann keinen eigenen Regressionskoeffizienten zugewiesen bekommt (zumindest macht R das nicht automatisch). Daraus ergibt sich für mich die erste Frage: Warum ist das so?
Ich habe jetzt aus den spärlichen Informationen, die ich zu dem Thema bisher gefunden habe, herausgefunden, dass man den Regressionskoeffizienten der Referenzkategorie aus der negativen Summe der Regressionskoeffizienten der übrigen Kategorien berechnen kann. Das hilft ja schon einmal etwas weiter, allerdings ist damit noch nichts über den Standardfehler und das Signifikanzniveau gesagt, die in der Studie, die mir als Vorbild dient, ebenfalls angegeben sind. Dementsprechend wäre meine zweite Frage: Wie kann man den Standardfehler und das Signifikanzniveau dieser Referenzkategorie berechnen? Gibt es da vielleicht sogar eine Funktion in R, die das automatisch macht?
Vielen Dank schon mal im Voraus!
Joker77
PS: Ich habe einen sehr uneleganten Workaround gefunden, indem ich zwei Regressionen mit jeweils einer anderen Referenzkategorie gerechnet habe. Allerdings wäre ich dennoch sehr neugierig, ob es da nicht eine elegantere Lösung gibt.