STATISTIK-FORUM.de

Joker77 · von **Joker77** » Di 24. Sep 2019, 18:01

Hallo liebe Forengemeinde,

ich sitze gerade für die Uni an einer Arbeit, bei der wir eine bestehende Studie neu durchführen sollen. Dabei geht es darum, die Gerechtigkeitsbewertung von Einkommensungleichheiten auf Grundlage einer linearen Regression zu schätzen.
Größtenteils ist das kein Problem, allerdings bin ich auf eine Komplikation gestoßen: eine der Einflussgrößen, die wir in die Gleichung aufnehmen sollen, ist die kategoriale Variable der Branchenzugehörigkeit. Diese verfügt über 8 verschiedene Ausprägungen. Nun wäre es natürlich sehr einfach, das ganze in Dummy-Variablen umzuformen und eine Referenzkategorie zu bilden. Allerdings wurde in der vorliegenden Studie eine Effektkodierung statt einer Dummykodierung verwendet und die bereitet mir nun Kopfzerbrechen.

Bei einer Dummykodierung ist es ja völlig nachvollziehbar, dass die Referenzkategorie keinen Regressionskoeffizienten zugewiesen bekommt, da sich die anderen Kategorien auf die Referenzkategorie beziehen. Bei der Effektkodierung beziehen sich die Kategorien allerdings nicht auf die Referenzkategorie, sondern auf den Mittelwert der einzelnen Mittelwerte der Kategorien. Dennoch wird offenbar auch bei der Effektkodierung eine Referenzkategorie benötigt, die dann keinen eigenen Regressionskoeffizienten zugewiesen bekommt (zumindest macht R das nicht automatisch). Daraus ergibt sich für mich die erste Frage: Warum ist das so?

Ich habe jetzt aus den spärlichen Informationen, die ich zu dem Thema bisher gefunden habe, herausgefunden, dass man den Regressionskoeffizienten der Referenzkategorie aus der negativen Summe der Regressionskoeffizienten der übrigen Kategorien berechnen kann. Das hilft ja schon einmal etwas weiter, allerdings ist damit noch nichts über den Standardfehler und das Signifikanzniveau gesagt, die in der Studie, die mir als Vorbild dient, ebenfalls angegeben sind. Dementsprechend wäre meine zweite Frage: Wie kann man den Standardfehler und das Signifikanzniveau dieser Referenzkategorie berechnen? Gibt es da vielleicht sogar eine Funktion in R, die das automatisch macht?

Vielen Dank schon mal im Voraus!
Joker77

PS: Ich habe einen sehr uneleganten Workaround gefunden, indem ich zwei Regressionen mit jeweils einer anderen Referenzkategorie gerechnet habe. Allerdings wäre ich dennoch sehr neugierig, ob es da nicht eine elegantere Lösung gibt.

bele · von **bele** » Di 24. Sep 2019, 18:42

Hi!

Suchst Du sowas?

Code: Alles auswählen: bsp <- data.frame(branche = gl(8,5), random = rnorm(40), target = 1:40) summary(lm(target ~ branche + random - 1, data = bsp))

Fragen, die sich primär um R-Syntax drehen werden hier im Forum übrigens nur geduldet. Wenn Du also mal keine Statistik- sondern eine Syntaxfrage hast, finde ich dieses Forum am besten: forum.r-statistik.de

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
Joker77

Joker77 · von **Joker77** » Mi 25. Sep 2019, 12:01

bele hat geschrieben:Hi!

Suchst Du sowas?

Code: Alles auswählen
bsp <- data.frame(branche = gl(8,5), random = rnorm(40), target = 1:40) summary(lm(target ~ branche + random - 1, data = bsp))

Hi,
ich verstehe zwar nicht, wie das funktioniert und was diese -1 da macht (zumal du ja nirgendwo die Kodierung umgestellt hast), aber es scheint zu funktionieren, ja ^^"

bele hat geschrieben:Fragen, die sich primär um R-Syntax drehen werden hier im Forum übrigens nur geduldet. Wenn Du also mal keine Statistik- sondern eine Syntaxfrage hast, finde ich dieses Forum am besten: forum.r-statistik.de

Alles klar, weiß ich bescheid! Ich hatte jetzt auch das Gefühl, dass es eher eine methodische Frage war, mit einem Anhang zur Umsetzung in R als eine Frage, die sich primär um R-Syntax dreht, aber in Zukunft achte ich gezielter drauf.

bele · von **bele** » Mi 25. Sep 2019, 12:13

Joker77 hat geschrieben:ich verstehe zwar nicht, wie das funktioniert und was diese -1 da macht (zumal du ja nirgendwo die Kodierung umgestellt hast), aber es scheint zu funktionieren, ja ^^"

Das "- 1" bedeutet, dass eine Regression ohne Intercept geschätzt werden soll und genau das steckt hinter Deinem Problem. Normalerweise beschreibt ein Dummy den Abstand zur Referenzkategorie, ohne Intercept den Abstand zum Nullpunkt. Ich empfehle mal die Hilfeseite zu studieren, die sich mit folgendem Befehl öffnen lässt:

Code: Alles auswählen: help(formula)

Joker77 hat geschrieben:hatte jetzt auch das Gefühl, dass es eher eine methodische Frage war, mit einem Anhang zur Umsetzung in R als eine Frage, die sich primär um R-Syntax dreht, aber in Zukunft achte ich gezielter drauf.

Das war auch gar nicht als Kritik an dieser Frage gedacht sondern nur als nützlicher Hinweis für die nächsten Fragen. Beide Foren haben ihre Berechtigung aber wenn es dann doch mal um Computerprogramme geht, geht es in diesem Forum hier häufig um SPSS und viel seltener um R.

LG,
Bernhard

STATISTIK-FORUM.de

Effektkodierung interpretieren

Effektkodierung interpretieren

Re: Effektkodierung interpretieren

Re: Effektkodierung interpretieren

Re: Effektkodierung interpretieren

Wer ist online?