volles Modell vs. non-Intercept-Modell

Alle Verfahren der Regressionanalyse.

volles Modell vs. non-Intercept-Modell

Beitragvon Berry » Mi 23. Nov 2011, 18:00

Hallo Zusammen.

Ich habe zwei Regressionsmodelle für dieselben Daten mit R berechnet, in deren Outputs folgendes steht:

Modell 1:
Residual standard error: 0.948 on 3834 degrees of freedom
Multiple R-squared: 0.6515, Adjusted R-squared: 0.6452
F-statistic: 103.9 on 69 and 3834 DF, p-value: < 2.2e-16

Modell 2:
Residual standard error: 0.948 on 3834 degrees of freedom
Multiple R-squared: 0.9161, Adjusted R-squared: 0.9146
F-statistic: 598 on 70 and 3834 DF, p-value: < 2.2e-16

Dabei ist das erste Modell mit der Regressionskonstante (Intercept) und zweite Modell ohne dem konstanten Term. Die Summen der Residuenquadrate beideer Modell sind gleich. Ich habe gelesen, dass bei Modellen ohne Intercept ist der Bestimmtheitsmaß als Kriterium für die Anpassungsgüte aussagelos. Nun bräuchte ich Eure Hilfe bei folgenden Fragen:

Frage1: Welches Kriterium kann ich nehmen, um die Anpassungsgüte des zweiten Modells zu messen, und welches Kriterium Hilft dann, die Anpassungsgüte der beiden Modelle untereinander zu vergleichen? Kommen da evtl. AIC und/oder BIC in Frage?

Frage 2: Soweit ich weiss, die Erklärungsgüte des gesamten Modells kann mit dem F-Test mit Nullhypothese R^2 = 0 überprüft werden, also mittels der F-Statistik. Dies entspricht einem Spezialfall der einfaktoriellen ANOVA. Die beiden p-Werte sind gleich und zeigen daher auch im gleichen Maße auf eine Ablehnung der Nullhypothese bzw. auf eine signifikante Wirkungserklärung durch das jeweilige Modell. Die F-Statistik ist nur eine Konstruktion aus Bestimmthetsmaß und den Freiheitsgraden. Da aber im zweiten Model der Bestimmtheitsmaß nicht aussagekräftig ist (vgl. Frage 1), welche aussage kann ich dann noch durch das Gegenüberstellen der F-Statistiken aus beiden Modellen treffen (wenn überhaupt)?

Frage 3: Welches Modell würdet Ihr nehmen? Sieht man's sofort, welches der beiden Modelle das Bessere ist?

Danke für Eure Beiträge im Voraus.
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: volles Modell vs. non-Intercept-Modell

Beitragvon Berry » Do 24. Nov 2011, 19:20

Ich habe heute versucht, mit den beiden Modellen (mit und ohne Intercept) Prognosen zu machen, und musste feststellen, dass mir die Modelle bis auf 12. Nachkommastelle exakt die gleichen Ergebnisse liefern. Das hat mich ehrlich gesagt etwas stützig gemacht, denn ich kann mir nicht vorstellen, dass zwei geraden (bzw. Hyperebenen bei multiplen Regression, aber bleiben wir beispielsweise im 2-Dimensionalen), eine durch den Koordinatenursprung und die andere nicht, zu den selben Punkten die gleiche Summe der Residuenquadrate haben bzw. die gleiche Prognoseergebnisse liefern. Oder kann ich hier die zwei- und die mehrdimensionale Regressionen nicht vergleichen?

Eigentlich untersuche ich die Absatzmengen eines Herstellers im Bereich Gastronomie durch verschiedene Lokaltypen in Abhängigkeit von Lokaltyp, Bundesland, Einwohnerdichte des Ortschaftes und noch einpaar anderen internen metrischen und kategorialen Faktoren. Im Modell kommen zunächst die metrischen und dann die kategorialen Variablen vor, wobei die kategoriale Kovariable "Bundesland" kommt als erste kategoriale Variable vor. Im Modell 1 mit Intercept (Konstante) ist ihre erste (alphabetisch geordnete) Ausprägung "Baden-Württemberg" die Referenzkategorie und kommt daher im Modell 1 angesichts eines Faktors nicht vor. Ich habe heute festgestellen müssen, dass im Modell 2 ohne Intercept alle Faktoren (fast) exakt den selben Wert haben bis auf die "Bundesland-Faktoren", denn der Wert des Intercepts aus Modell 1 wird in diesem Modell nur auf/zwischen diese/n "Bundesland-Faktoren" verteilt. Warum? Interessant ist, wenn ich eine andere kategoriale Variable an erste Stelle setze, wird dann der Wert des Intercepts ebenfalls nur auf die Faktoren dieser ersten Variable verteilt?

Hat sich jemand damit schon auseinander gesetzt oder zumindest dies beobachtet?
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: volles Modell vs. non-Intercept-Modell

Beitragvon bele » Fr 25. Nov 2011, 15:38

Berry hat geschrieben:Ich habe heute versucht, mit den beiden Modellen (mit und ohne Intercept) Prognosen zu machen, und musste feststellen, dass mir die Modelle bis auf 12. Nachkommastelle exakt die gleichen Ergebnisse liefern.


Der Intercept ist nicht zufällig Null? Und Du hast auch nicht die Software falsch bedient und versehentlich zweimal mit dem gleichen Modell gerechnet?
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: volles Modell vs. non-Intercept-Modell

Beitragvon Berry » Di 29. Nov 2011, 18:16

Hi bele.

Danke für deine Rückmeldung. Und nein, der Intercept ist nicht zufällig Null und ich habe auch nicht die Software falsch bedient und habe auch nicht versehentlich zweimal mit dem gleichen Modell gerechnet. Es ist echt alles korrekt so. Ich bin aber durch einige Überlegungen darauf gekommen, dass es bei einem linearen Regressionsmodell mit mindestens einer kategorialen Kovariablen auch so sein muss bzw. ist, wie ich es oben beschrieben habe. Das lässt sich auch mathematisch erklären:

Betrachten wir zwei Modelle y1 und y2, das eine mit und das andere ohne Intercept:

y1 = b(0,1) + b(1,1)*x(1) + ... + b(k,1)*x(k) + b(k+1,1)*z(1) + ... + b(k+n-1,1)*z(n-1) (+ ...)
y2 = b(1,2)*x(1) + ... + b(k,2)*x(k) + b(k+1,2)*z(1) + ... + b(k+n-1,2)*z(n-1) + b(k+n,2)*z(n) (+ ... )

, wobei ich bezeichne mit x-en die metrischen Variablen und mit z-s die n Ausprägungen der einen bzw. ersten kategorialen Kovariablen Z (0/1-Dummy-Kodierung mit der letzten Ausprägung als Referenzkategorie). Und mit y1 und y2 meine ich natürlich die "Dach"-Werte oder y-Schätzer.

Wenn die Koeffiziente im ersten Modell berechnet werden und stehen fix, so sind diese auch die besten Schätzer für die entsprechende Faktoren, da das Modell voll ist und die kleinste Summe der Abweichungsquadrate liefert. Und nun die Frage: Wann ist denn das zweite Modell am besten? Natürlich dann, wenn sie die selben y-Schätzer liefert (und die Koeffizienten sich nicht stark von denen aus dem ersten Modell unterscheiden). Wie soll es passieren?

Wir setzen zunächst y2=y1, b(1,2)=b(1,1), ..., b(k,2)=b(k,1). Wann bekommen wir b(0,1) als y1-Schätzer im ersten Modell? Natürlich wenn das kategoriale Merkmal Z seine letzte Ausprägung z(n) hat und alle metrischen Kovariablen gleich 0 sind.

Wir betrachten den Fall: x(1)=x(2)=...=x(k)=0, Z=z(n)

y1 = b(0,1) + b(1,1)*x(1) + ... + b(k,1)*x(k) + b(k+1,1)*z(1) + ... + b(k+n-1,1)*z(n-1) =
= b(0,1) + b(1,1)*0 + ... + b(k,1)*0 + b(k+1,1)*0 + ... + b(k+n-1,1)*0 =
= b(0,1)

y2 = b(1,2)*x(1) + ... + b(k,2)*x(k) + b(k+1,2)*z(1) + ... + b(k+n-1,2)*z(n-1) + b(k+n,2)*z(n) =
= b(1,2)*0 + ... + b(k,2)*0 + b(k+1,2)*0 + ... + b(k+n-1,2)*0 + b(k+n,2)*1
= b(k+n,2)

y2=y1 => b(k+n,2) = b(0,1)

Nun betrachten wir den Fall x(1)=x(2)=...=x(k)=0, Z=z(1):

y1 = b(0,1) + b(1,1)*x(1) + ... + b(k,1)*x(k) + b(k+1,1)*z(1) + b(k+2,1)*z(2) + ... + b(k+n-1,1)*z(n-1) =
= b(0,1) + b(1,1)*0 + ... + b(k,1)*0 + b(k+1,1)*1 + b(k+2,1)*0 + ... + b(k+n-1,1)*0 =
= b(0,1) + b(k+1,1)

y2 = b(1,2)*x(1) + ... + b(k,2)*x(k) + b(k+1,2)*z(1) + b(k+2,1)*z(2) + ... + b(k+n-1,2)*z(n-1) + b(k+n,2)*z(n) =
= b(1,2)*0 + ... + b(k,2)*0 + b(k+1,2)*1 + b(k+2,1)*0 + ... + b(k+n-1,2)*0 + b(k+n,2)*0
= b(k+1,2)

y2=y1 => b(k+1,2) = b(0,1) + b(k+1,1)

Analog für b(k+2,2), ..., b(k+n-1,2)

Also wir haben y2=y1 und damit das beste Modell ohne Intercept, wenn:

1. b(1,2) = b(1,1), ..., b(k,2) = b(k,1)

2. b(k+i,2) = b(0,1) + b(k+i,1) für i = 0, ..., n-1

3. b(k+i,2) = b(0,1) für i = n

#

Ich hoffe, mein kurzes Beweis ist soweit klar. Eigentlich gilt es auch in IR^2, d. h. für ein Modell mit nur einer unabhängigen Variablen, die kategorial ist und nur zwei Ausprägungen besitzt. In diesem Fall besteht die "Schätzgerade" nur aus zwei einzelnen Punkten in verschiedenen "Grund-Ebenen". Es gilt allerdings nicht für die "Anpassung" der Faktoren von metrischen Kovariablen und/oder für ein Modell, das nur die metrischen Kovariablen enthält. Denn dann kommt im Koeffizienten mind. ein Term mit 1/x vor, und das geht nicht zu berechnen, da x nicht fest ist.

Gruß
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: volles Modell vs. non-Intercept-Modell

Beitragvon Berry » Di 29. Nov 2011, 18:23

Und noch was:

Meiner Ansicht nach, man darf nicht in einem Modell mit mind. einer kategorialen Kovariablen den Intercept weglassen. Denn man kann das Modell immer wieder so umkonstruieren, dass immer eine andere Ausprägung dieser Variablen den Wert Null liefert
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 7 Gäste