Hallo zusammen,
ich stehe vor folgendem Problem: Ich habe 2 Datensets A und B mit jeweils einer abhängigen und 4 unabhängigen Variablen, wobei ich für eine Variable (x1) eine Auswahl an 6 Datensätzen (x1_1 - x1_6) habe. Ich probiere also diese Datensätze durch, sodass ich ein möglichst hohes R2 habe
Nehmen wir folgende Ergebnisse an:
Datenset A: R2: 98,5% (x1_1)
Datenset B: R2: 96,2% (x1_1) bzw. 97,0% (x1_x2)
Modell: y = x1+x2+x3+x4
Führe ich nun die Datensätze A und B in einem Paneldatenmodell zusammen ergibt sich folgendes Bild
Option x1_1 für datenset A und Datenset B: R2=91,8%
Option x1_1 für Datenset A und x1_2 für Datenset B: R2= 86,2%
Meine Frage: Wie kann das sein, dass die zweite Option hier ein schlechteres R2 bekommt, obwohl sie mit den "besseren" Daten gefüttert ist?
Meine Vermutung ist, dass es mit den "Einstellungen" bei der Paneldatenanalyse zusammenhängt. Dort kenne ich mich allerdings nicht gut aus. Ich mache eine "ganz normale" Pooled OLS-Regression (das ist doch die Standard Paneldatenanalyse, oder?)
Über Eure Hilfe wäre ich sehr dankbar!! Viele Grüße
Felix