Liebe Statistik Experten,
ich habe ein Verständnisproblem, wobei ich wenn möglich eure Hilfe benötige. Ich führe eine normale OLS Regression mit einer abhängigen und verschiedenen unabhängigen Variablen durch. Diese Regression führe ich für jede Branchen-Jahr-Kombination durch und speichere die jeweiligen Residuen und fitted values in 2 neuen Variablen. Ich teile die abhängige Variable also in Residuen und fitted values auf.
Ich habe dafür 2 unterschiedliche Codes entwickelt, die zu unterschiedlichen Ergebnissen führen, aber beide für mich plausibel wirken. Wenn ich für den ersten Fall meine generierte fitted-values-variable in die Ursprungsregression als abhängige Variable einsetze, bekomme ich ein R² von 1 und alle t-Werte sind extrem hoch und die Koeffizienten somit signifikant. Das erscheint mir plausibel, da die fitted values ja der Anteil sind, der durch die unabhängigen Variablen erklärt wird. Setze ich die Residuen ein, bekomme ich einen normal wirkenden Regressions-Output mit einem R² von ca. 40% und einigen signifikanten und unsignifikanten Koeffizienten.
Für den 2. Code erhalte ich einen relativ normalen Output, wenn ich die fitted variable als abhängige Var. in die ursprüngliche Regression einsetze. Setze ich die Residuen ein, sind alle t-Werte der unabh. Variablen 0 und ich habe ein R² von 0. Auch das erscheint mir plausibel, da die Residuen ja der Anteil sind, der nicht von den unabh. Var. erklärt wird. (Allerdings ist diese Variable dann auch mit fast allen anderen Variablen nicht signifikant korreliert.)
Insgesamt also zwei Ergebnisse, die für mich als Laien plausibel wirken; es kommen jeweils aber zwei vollkommen unterschiedliche Variablen raus. Mich würde interessieren, welches Ergebnis in meinem Fall mehr Sinn macht oder wo ihr meinen Denkfehler seht.
Entschuldigt den langen Text, aber ich hoffe so ist das Problem einigermaßen klar.
Vielen Dank schonmal!
LG