Linearitätsprüfung für kategoriale Variablen

Fragen, die sich auf kein spezielles Verfahren beziehen.

Linearitätsprüfung für kategoriale Variablen

Beitragvon Berry » Sa 11. Feb 2012, 16:26

Hallo Zusammen,

eigentlich kommt meine Frage aus dem Bereich der Multiplen Linearen Regression, kann aber, meiner Einsicht nach, den allgemeinen Fragen zugeordnet werden.

In Rahmen meiner Masterarbei untersuche ich die Absatzmenge eines Produkts in Abhängigkeit von mehreren metrischen sowie kategorialen Kovariablen mit Hilfe der linearen Regression. Dabei ist die Linearität (in den Parametern) eine wichtige Modellvoraussetzung. D. h., man muss jede eingehende Kovariable auf die Linearität im Parameter testen und, falls keine Linearität vorliegt, eine (belibige nicht lineare) Funktion fiden, die eine Transformation bzw. Linearisierung dieser Kovariablen ermöglicht.

Im Falle eines metrischen Regressors ist mir die Vorgehensweise der Linearitätsprüfung (entspricht einer optischen Prüfung des Punktediagramms) klar. Aber wie kann man eine kategoriale und speziell nominalle Einflussgröße auf die Linearität prüfen? Gibt es da evtl. spezielle Tests? Auch ein Literaturhinwes (am besten in Deutsch) dazu wäre wäre sehr wünschenswert!

Vielen Dank im Voraus für Eure Rückmeldungen.

Gruß

Berry
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Linearitätsprüfung für kategoriale Variablen

Beitragvon PonderStibbons » Sa 11. Feb 2012, 17:24

Kategoriale Prädiktoren liegen als (ggfls. mehrere) zweistufige
(0/1 oder auch +1/-1) - Variablen vor. Da ergibt die Frage nach
einer linearen Beziehung doch gar keinen Sinn.

Mit freundlichen Grüßen

P.
---
Gottseidank...Kanon für 36
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Linearitätsprüfung für kategoriale Variablen

Beitragvon daniel » Sa 11. Feb 2012, 17:52

Ponder hat, natürlich, recht. Kategoriale Variablen verschieben die Regressionsgerade entlang der Y-Achse, bei gleicher Steigung. Da wird auch kein linearer Zusammenhang unterstellt.
Du könntest die Linearität Deiner metrischen Variablen in allen durch die kategorialen Variablen indizierten Gruppen prüfen.

Übrigens ist bei bivariatem linearen Zusammenhang (Punktdiagrammen) nocht nichts über den unterstellte multivariaten Zusammenhang gesagt. Der kann trotz bivariat linearen Zusammenhänge nicht vorliegen und trotz nicht-linearer bivariater Zusammenhänge dennoch gegeben sein. Daher wäre ich mit voreiligen Transformationen, die die Interpretation oftmals erschweren oder gar zur Schätzung eines von der Theorie völlig abweichenden Modells verleiten etwas zurückhaltend.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Linearitätsprüfung für kategoriale Variablen

Beitragvon Berry » Sa 11. Feb 2012, 21:34

Danke für die Eure schnellen Rückmeldungen.

Meine Frage ergab sich aus der Aussage

"Grundsätzlich ist auch eine Linearitätsprüfung möglich, wenn die unabhängige Variable kategorial ist, aber den Kategorienstufen eine Ordnung zu Grunde liegt.",

die unter http://home.arcor.de/sigmatraugott/Skripte/Lineare%20Regression.html zu finden ist. Es scheint mir nicht so, als ob der Text von einem Laien geschrieben wurde.



@daniel: bzgl. der metrischen Kovariablen:

Du weisst es bestimmt, aber ich möchte hier trotzdem das Modell der multiplen linearen Regression formelmäßig angeben:

y = b0 + b1*x1 + ... + bk*xk + u.

D. h. alle xj (j=1,...k) müssen einzeln betrachtet linear (in den Parametern) zu y stehen. Oder? Steht irgendein xj zu y nicht linear, so ist die Beziehung des vollen Modells auch nicht linear. In vielen Lehrbüchern zur multiplen linearen Regression steht, dass im Allgemeinen alle nicht linearen Beziehungen sich auf ein lineares Modell zurückführen lassen, solange diese linear in Parametern sind. Ist auch nachfollziehbar. Die Allgemeine Formel dafür lautet:

f(y) = b0 + b1*f1(x1) + ... + bk*fk(xk) + u,

wobei y, x1, ..., xk den Beobachteten Daten entsprechen. D. h., ich erzeuge durch die nicht linearen Funktionen (Transformationen) f, f1, ..., fk ein lineares Modell mit der Zielvareablen f(y) und den Kovariablen f1(x1), ..., fk(xk), die in dem Sinne eigentlicht nicht beobachtbar sind.

Wenn es nun so ist, dann kann ich doch die Kovariablen einzeln betrachten. Dazu fixiere ich einfach alle anderen Kovariablen bzw. führe alle anderen Summanden zum neuen Parameter b0_neu und schaue mir k neue Modelle der Form

f(y) = b0_neu + b1*fj(xj)

an. Vernachlässige ich die Koeffiziente, so kann ich mir k Punktediagramme [f(y) in Abhängigkeit von fj(xj)]. Lassen sich dabei bestimmte Zusammenhänge einer nicht linearen Art feststellen und dazu eine passende Funktion f, f1, ..., fk angeben, so kann ich in einem Fall mit beispielsweise zwei Kovariablen, die einzelnbetrachtet in einer Wurzel- bzw. Exponentialbeziehung zu y stehen, als lineares Modell schreiben

y = b0 + b1*wurzel(x1) + b2*exp(x2).

Oder verstehe ich da etwas falsch?


Und nun zur Linearitätsprüfung für nominalskalierten Variablen:

Du schreibst: "Du könntest die Linearität Deiner metrischen Variablen in allen durch die kategorialen Variablen indizierten Gruppen prüfen."

Also, wenn ich die Prüfung auf der Ebene der einzelnen Kategorien durchführe, so heißt es, ich habe dann jeweils nur einen Teil meiner Datenbasis mit den Zielvariablenwerten für die Fälle, wenn die ausgewählte Kategorie als Asprägung der zu prüfenden Kovariablen vorkommt. Dann ist es ja gar nicht möglich, denn ich kann je meine einzelnen Datensätze bzw . Beobachtungen oder Messungen beliebig vertauschen bzw. die Reihenfolge ihres Vorkommens ändern. Dann sind die Werte der Zielvariablen an gar nichts fixiert und es lassen sich dadurch beliebige Strukturen in den Daten bilden.

Eigentlich habe ich es mir so vorgestellt:

1. Je Kategorie die Punktewolke bilden oder den Mittelwert berechnen
2. Durch nebeneinander stellen eine Struktur entdecken, dabei dürfen die Reihenfolge der einzelnen Kategorien vertauscht werden, da diese sowieso nur zufällig ist und die Zielvariable (bzw. ihre Werte) an den Kategorien fixiert ist. So könnte ich doch bei gegeben Daten den Kategorienstufen einer nominalen Kovariablen eine feste Ordnung zu Grunde legen!?

Was meint Ihr?
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Linearitätsprüfung für kategoriale Variablen

Beitragvon Berry » Sa 11. Feb 2012, 22:02

mit "So könnte ich doch bei gegeben Daten den Kategorienstufen einer nominalen Kovariablen eine feste Ordnung zu Grunde legen" meine ich eine z. B. ein austeigende Sortierung der Kategorien bzgl. derem Mittelwerte mit der anschließenden Strukturprüfung.
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Linearitätsprüfung für kategoriale Variablen

Beitragvon Berry » Sa 11. Feb 2012, 22:45

Nach einigen Überlegungen kann ich ja jetzt auch einsehen, dass die von mir vorgeschlagene Methode keinen Sinn hat. Denn, wenn sich dabei auch eine bekannte Struktur herauskristallisieren würde, so würde ich die nicht lineare Funktion stets auf die Eins anwenden. D. h. ich würde alle entsprechenden b's immer mit einem konstannten Faktor mutiplizieren, wodurch sich die Modellspezifikation bzw. -struktur nicht ändern würde. Es wäre evtl. möglich, wenn die Kodierung der Variablen nicht mit 0 und 1, sondern mit z. B. 1, 2,... erfolgen würde. In diesem Fall wäre es aber keine Kategoriale Variable mehr, sondern eine diskrete Metrische Variable mit einer endlichen Anzahl an ausprägungen. Oder?

Diesbezüglich dann eine weitere Frage: Könnte man dann eine (bzw. jede einzelne) kategoriale Variable im Modell nicht folgendermaßen modellieren:

b1*f(a1*1) + b2*f(a2*1) + bj*f(aj*1),

wobei f die für die gewählte Kovariable Transformationsfunktion ist und a1,...aj die Multiplikationsfaktoren für die einzelnen Kategorien (ausschließlich der Referenzkategorie) sind? Die b's sind für jede Kategorie sowieso unterschiedlich.
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Linearitätsprüfung für kategoriale Variablen

Beitragvon daniel » So 12. Feb 2012, 13:02

Steht irgendein xj zu y nicht linear, so ist die Beziehung des vollen Modells auch nicht linear.


Wie gesagt, muss das nicht der Fall sein. Der Zusammenhang zwischen zwei Variablen kann sich durchaus ändern, wenn für weitere Variablen kontrolliert wird. Genau das tun wir in der multiplen Regression. In der Quelle, die Du zitiert hast findet sich auch der, m.E. sinnvolle, Hinweis zunächst die Residuen der Regression gegen die Prognosewerte zu plotten. Wenn hier keine sytematischen Muster zu erkennen sind, dann ist die Linearitätsannahme i.d.R. erfüllt. Will man dennoch einzelne metrische Variablen prüfen, dann eignet sich dazu z.B. der "Component-Plus-Residual-Plot" (Kohler und Kreuter 2005, 217ff).

Also, wenn ich die Prüfung auf der Ebene der einzelnen Kategorien durchführe, so heißt es, ich habe dann jeweils nur einen Teil meiner Datenbasis mit den Zielvariablenwerten für die Fälle, wenn die ausgewählte Kategorie als Asprägung der zu prüfenden Kovariablen vorkommt. Dann ist es ja gar nicht möglich, denn ich kann je meine einzelnen Datensätze bzw . Beobachtungen oder Messungen beliebig vertauschen bzw. die Reihenfolge ihres Vorkommens ändern. Dann sind die Werte der Zielvariablen an gar nichts fixiert und es lassen sich dadurch beliebige Strukturen in den Daten bilden.

Ich kann das hier leider nicht ganz nachvollziehen, aber ich versuche nochmal an einem einfachen (sozialwissenschaftlichen) Beispiel zu erklären was ich meine. Nimm an Du willst Einkommen auf Berufserfahrung und auf Geschlecht regressieren. Nun ist es doch durchaus denkbar, dass für Männer die Beziehung zwischen Berufserfahrung und Einkommen linear ist, für Frauen aber nicht. Das würdest Du sehen, wenn Du die Beziehung zwischen outcome (Einkommen) und metrischem Prädikator (Berufserfahrung) für jede Gruppe (Frauen/Männer) einzeln betrachtest. Wie bereits oben erwähnt sind einzelne Streudiagramme aber ohnehin nur bedingt zur Prüfung der Linearitätsanahme geeignet.

Es wäre evtl. möglich, wenn die Kodierung der Variablen nicht mit 0 und 1, sondern mit z. B. 1, 2,... erfolgen würde. In diesem Fall wäre es aber keine Kategoriale Variable mehr, sondern eine diskrete Metrische Variable mit einer endlichen Anzahl an ausprägungen. Oder?

Auch diesen Vorschlag kann ich nicht nachvollziehen. Nimm z.B. Religionszugehörigkeit mit den Ausprägungen "katholisch", "protestantisch", "muslimisch" und "andere". Nur weil diese nominalen Ausprägungen mit 1, 2, ..., 4 beschriftet sind, heißt das doch nicht, dass hier weder eine Ordnung vorliegt oder dass gar Abstände zu interpretieren sind. Du kannst aus einer kategorialen Variable keine metrische Variable machen. Der einfache Grund: wir können Informationen verdichten (oder auch wegwerfen) aber wir können niemals Informationen aus dem Nichts erzeugen.

Ich möchte zu Deinem letzten Vorschlag nocheinmal wiederholen, dass kategoriale Variablen nicht in einem linearen Zusammenhang mit dem outcome stehen können. Daran ändert auch keine Transforation etwas und von Transformationen kategorialer Variablen möchte ich dringend abraten.


Kohler, U., Kreuter, F. (2005). Datenanalyse mit Stata: Allgemeine Konzepte der Datenanalyse und ihre praktische Anwendung. Oldenburg.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Linearitätsprüfung für kategoriale Variablen

Beitragvon Berry » So 25. Mär 2012, 20:59

Danke daniel. Ebenso P. Es war hilfreich, besonders der Literaturhinweis.
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: bele und 15 Gäste

cron