STATISTIK-FORUM.de

daniel · von **daniel** » Mi 28. Dez 2011, 00:50

[...] Mir ist aber nicht klar, wie sich R² zusammensetzt bei verschiedenen Methoden der Modellbildung in der multiplen Regression. Kennt jemand hier vielleicht eine gute Quelle wo man das nachlesen kann?

Ich verstehe vermutlich das Problem noch immer nicht, andere eventuells schon. Die Methode (i.e. Schrittweise, Blockweise oder wie auch immer) hat auf das R-quadrat im vollen Modell keinen Einfluss. Ein Modell

y = b0 + b1*x1 + b2*x2 + b3*x3

hat immer das gleiche R-quadrat, unabhängig davon, ob alle x in einem, oder nacheinander in drei Schritten aufgenommen werden. Die Veränderung des R-quadrat von Schritt zu Schritt ist natürlich i.a.R. von der Reihenfolge abhängig.

[...] Wenn du eine schrittweise Regression durchführst werden die Prädiktoren ja nacheinander hinzugefügt. Das heißt dann, dass das erste Regressionsgewicht von UV1 kein partielles Regressionsgewicht ist. Dieses Gewicht basiert auf dem Zusammenhang zwischen UV1 und AV und ist unbereinigt. Im zweiten Modell kommt ein neuer Prädiktor hinzu und dann sind beide Koeffizienten bereinigt um den Einfluss der jeweiligen anderen UV. Das heißt also, dass beide Gewichte partielle Gewichte sind. Das zweite Modell mit 2 Prädiktoren beinhaltet also nur partielle Gewichte. Die KOnsequenz müsste sein, dass die Überlappende Varianz zwischen UV1, UV2 und AV nicht berücksichtigt würde in diesem Modell.

Wie gesagt werden andere vielleicht schlauer daraus als ich, aber mir scheint Du wirfst hier Regressionsgewichte (b) mit dem Bestimmtheitsmaß R-qudart durcheinander, bzw. Dir ist das Verhältnis von beiden unklar. Die einfache Bezeihung b-qudrat = R-quadrat (wobei b hier der Standardisierte Regressionskoeffizinet ist) gilt nur im Falle eines einzigen Prädikators.

Bei einer multiplen Regression (mehr als eine unabhängige Variable) entspricht R2 dem Quadrat des multiplen Korrelationskoeffizienten, also der Korrelation zwischen Y und b1X1 + ... + bpXp.

(http://de.wikipedia.org/wiki/Bestimmtheitsma%C3%9F)

Mit anderen Worten: R² wird unterschätzt, weil der gemeinsame Anteil an Varianz fehlt.

Wenn, dann ist eher das Gegentei ist der Fall. R-quadrat wird mit der Aufnahme weiterer Prädikatoren (fast) immer steigen, da der Anteil erklärter Varianz steigt (das ist ja die Definition). Das ist der Grund für die Existenz des (mehr oder weniger sinnvollen) Korregierten R-quadrats.

Möglicher Weise liegt Dein Denkfehler darin begründet, dass Du glaubst der Anteil der Varianz von y, der durch x1 "erklärt" wird, sei gleich groß, wie der, der durch x1 und x2 "erklärt" wird.

Holgonaut · von **Holgonaut** » Mi 28. Dez 2011, 11:15

Hi Leute,

ich geb mal meinen Senf dazu

@Daniel: Du sagtest, dass du nicht verstehst, was da fehlen soll. Guck mal Folgendes: Wenn du eine schrittweise Regression durchführst werden die Prädiktoren ja nacheinander hinzugefügt. Das heißt dann, dass das erste Regressionsgewicht von UV1 kein partielles Regressionsgewicht ist. Dieses Gewicht basiert auf dem Zusammenhang zwischen UV1 und AV und ist unbereinigt. Im zweiten Modell kommt ein neuer Prädiktor hinzu und dann sind beide Koeffizienten bereinigt um den Einfluss der jeweiligen anderen UV. Das heißt also, dass beide Gewichte partielle Gewichte sind. Das zweite Modell mit 2 Prädiktoren beinhaltet also nur partielle Gewichte. Die KOnsequenz müsste sein, dass die Überlappende Varianz zwischen UV1, UV2 und AV nicht berücksichtigt würde in diesem Modell. Mit anderen Worten: R² wird unterschätzt, weil der gemeinsame Anteil an Varianz fehlt.

Horst, du solltest die Begriffe Korrelation/Varianzaufklärung und Regressionsgewichte trennen. Sie haben zwar miteinander zu tun, aber du vermischst sie, was das Verständnis erschwert.
Wenn du nur einen Prädiktor im Modell hast, und es gibt andere Prädiktoren prinzipiell, die mit ihm korreliert sind, dann ist das geschätzte Regressionsgewicht VERZERRT, nicht "unbereinigt". Wieder ein Begriff, der nicht hilfreich ist. Es gibt keine überlappende Varianz zwischen Variablen. Stattdessen werden wird die Kovarianz zwischen UV1 und UV2 berücksichtigt, um unverzerrte Schätzungen für deren Regressionseffekte zu finden.

Du scheinst in Venn-Diagrammen / Ballentines zu denken. Oft sehr sinnvolle Illustrationen, manchmal aber nicht hilfreich. Varianzen können nicht "verloren gehen". Du bekommst mit zwei Prädiktoren Schätzungen für die Regressionsgewichte/Geraden und insgesamt erklärst du mit ihnen einen gewissen Anteil der Gesamtvarianz.

Auch erschwert es m.E. das Verständnis der Regression, wenn man keinerlei Bedeutung der Regressionsgewichte jenseits des Jargons von Varianzaufklärung sieht und so immer von den Daten auf die geschätzten Parametern schließt. Ich sehe Regressionsmodelle immer kausal. Das bedeutet, ein Regressionsmodell drückt Hypothesen über kausale Effekte aus. Ein Regressionseffekt ist dann unverzerrt geschätzt, wenn es den *wahren* kausalen Parameter in der Population im Schnitt trifft. In einem fehlspezifizierten Modell (in dem z.B. Prädiktoren korrelieren) wird der Effekt nicht unverzerrt geschätzt. Varianzaufklärung interessiert da sekundär. D.h. das Denken beginnt kausal und führt zur Statistisch (Schätzung in einem Regressionsmodell) - während Dein Denken bei den Daten beginnt (Korrelationen, Varianzen) und zum Regressionsmodell führt.

Ich empfehl dir mal, ein ökonometrisches Lehrbuch über Regressionsanalyse zu lesen, z.B. Kennedy. Die Psychologie ist stark positivistisch beeinflusst mit der Konsequenz, dass der Kausalitäts-Begriff gemieden wird wie der Teufel das Wasser meidet

Grüße
Holger

Horst · von **Horst** » Mi 28. Dez 2011, 17:32

Hi zusammen!

Vielleicht muss man sich mit dem mathematischen Hintergrund auch genauer auskennen, um meine Frage zu beantworten. Mir ist es zumindest immernoch schleieraft, wie ein Modell, besteht aus partiellen Regressionsgewichten ein R² haben soll, welches auch die Varianz in der AV erklärt, welche durch mehrere Prädiktoren geteilt wird. Die partiellen Regressionsgewichte erklären schließlich nur den uniquen Teil an Varianz in der AV. Wie schafft es das Modell dann in seiner Gesamtheit trotzdem auch den Teil an Varianz in der AV zu erklären, der von mehreren UVs geteilt wird.

Oder nochmal anders ausgedrückt: Die vom Modell mit den partiellen Regressionsgewichten erklärte Varianz müsste meiner Annahme nach eigentlich die Summe aus den quadrierten Semipartialkorrelationen sein. Das R² ist jedoch nicht so, sondern beinhaltet auch den Teil an Varianz der geteilt wird zwischen den UVs und der AV. Das ist zum verrückt werden!

Ich habe auf diese Frage in verschiedenen Lehrbüchern keine Antwort gefunden und vermute daher, dass ich entweder einen Denkfehler habe oder, dass der mathematische Hintergrund dafür herangezogen werden muss.

Gruß!

Holgonaut · von **Holgonaut** » Mi 28. Dez 2011, 17:58

Hi Horst,
du solltest Dich mit Begriffen wie Regressionsquadratsumme und Fehlerquadratsumme vertrauter machen. Ersteres ist die Variation der Werte auf der Gerade (die 0 ist, wenn die Gerade flach ist), und letzteres ist die Variation der Werte um die Gerade. Beides zusammen ergibt die Gesamtvariation. Allerdings: Du sagtest, dass du bereits Kapitel konsultiert hast...?

Mit zwei Prädiktoren wird aus der Regressionsgerade eine Regressionsfläche im 3D-Raum, aber das Prinzip bleibt das gleiche: Es gibt eine Variation der Punkte auf der Fläche und eine der Punkte im 3D-Raum. Das R2 ist 1, wenn es keine Streuung um die Fläche herum gibt.

Das zeigt, wie beide zusammen einen Teil der Varianz erklären. Würde man einen Prädiktor Weglassen, würde der Einfluss dieses ausgelassenen in die Residuen (also die Streuung um die Gerade des einbezogenen Prädiktors) wandern.

Was du mit dem vorletzten Absatz meinst, versteh ich nicht.

Grüße
Holger

Horst · von **Horst** » Mi 28. Dez 2011, 18:04

Hey Holger!

Das Prinzip mit der Variation ist mir klar. Ich habe mindestens schon 10 verschiedene Einführungskapitel zur Regression gelesen, aber nirgends finde ich eine Antwort. Naja, mir bleibt nichts anderes übrig als weiter zu suchen...

Vielen Dank trotzdem!

daniel · von **daniel** » Mi 28. Dez 2011, 20:54

Die vom Modell mit den partiellen Regressionsgewichten erklärte Varianz müsste meiner Annahme nach eigentlich die Summe aus den quadrierten Semipartialkorrelationen sein. Das R² ist jedoch nicht so, sondern beinhaltet auch den Teil an Varianz der geteilt wird zwischen den UVs und der AV. Das ist zum verrückt werden!

Mich verwirrt nach wie vor Dein Jargon, aber das Ganze ist keine Frage von "Annahmen" sondern eine der Definition. Mathematisch steckt da nun auch nicht allzuviel hinter. Das Verhälnis von R-quadrat zum (standardisierten) Koeffizienten (was Du "Gewicht" nennst) im Modell mit nur einem Prädikator haben wir bereits geklärt. Der standardisierte Koeffizient entpricht genau der Korrelation des Prädikators mit dem outcome. R-quadrat ist die quadrierte Korrealtion. Explizit heißt das

$R^{2} = \beta*\rho_{xy}$

wobei $\beta$ der (standardisierte) Regressionskoeffizient (oder: das Gewicht) des Prädikators ist, $\rho$ die Korrelation des Prädikators mit dem outcome. In diesem Fall gilt $\beta = \rho$

Im Fall von mehreren Prädikatoren kannst Du R-quadrat analog als quadrierte multiple Korrelation berechnen. Im Falle von zwei Prädikatoren wäre das

$R^{2} = \beta_1*\rho_{x1y} + \beta_2 * \rho_{x2y}$

wobei $\beta_1$ der (standardisierte) Koeffizient (oder: das "bereinigte Gewicht") des ersten Prädikators ist, $\beta_2$ analag für den zweiten. $\rho$ sind die Korrelationen der Prädikatoren mit dem outcome (oder: die unbereinigten Gewichte). Hier entspricht $\beta$ nun nicht mehr $\rho$ .

Das ist R-quadrat (Punkt). Wenn Du etwas anderes berechnen möchtest, weil R-quadrat nicht das widerspiegel, was Deinem Erkenntnisinteresse entspricht steht es Dir frei dies zu tun.

Horst · von **Horst** » Do 29. Dez 2011, 13:42

Hallo Daniel!

Super! Jetzt bin ich auf jedenfall schon ein gutes Stück weiter gekommen. Ich will nicht nerven, aber wo verbirgt sich in dieser Gleichung

$R^{2} = \beta_1*\rho_{x1y} + \beta_2 * \rho_{x2y}$

der Anteil in R² der von allen UVs gemeinsam erklärt wird bzw., wenn du in einem Venn Diagramm denkst, den Bereich darstellt, der von allen Varialen überlappt wird?
Da die Gewichte ja bereinigt sind, müssten sie doch nur ihren uniquen Anteil an Varianz erklären.

Gruß!

daniel · von **daniel** » Do 29. Dez 2011, 13:52

[...] wo verbirgt sich in dieser Gleichung

$R^{2} = \beta_1*\rho_{x1y} + \beta_2 * \rho_{x2y}$

der Anteil in R² der von allen UVs gemeinsam erklärt wird [...] Da die Gewichte ja bereinigt sind, müssten sie doch nur ihren uniquen Anteil an Varianz erklären.

Naja, jetzt schau Dir die Gleichung eben nochmal an. Da stehen ja nicht nur $\beta$ (i.e. bereinigte Gewichte) drin, oder?

[...] wenn du in einem Venn Diagramm denkst, den Bereich darstellt, der von allen Varialen überlappt wird?

Wie Holger bereits treffend bemerkt hat sind Venn Diagramme für bestimmte Fragestellungen eine sinnvolle visuelle Darstellung, für andere nicht. Was hier der Fall ist mag jeder für sich selbst entscheiden. Holger hat in seinem letzen Beitarg zudem eine intuitive visuelle Darstellung des Problems der Varianzzerlegung beschrieben, die m.E. hier wesentlich sinnvoller ist.

STATISTIK-FORUM.de

Kategoriale und metrische Prädiktoren in einer Regression

Re: Kategoriale und metrische Prädiktoren in einer Regressio

Re: Kategoriale und metrische Prädiktoren in einer Regressio

Re: Kategoriale und metrische Prädiktoren in einer Regressio

Re: Kategoriale und metrische Prädiktoren in einer Regressio

Re: Kategoriale und metrische Prädiktoren in einer Regressio

Re: Kategoriale und metrische Prädiktoren in einer Regressio

Re: Kategoriale und metrische Prädiktoren in einer Regressio

Re: Kategoriale und metrische Prädiktoren in einer Regressio

Wer ist online?