STATISTIK-FORUM.de

felice_777 · von **felice_777** » Fr 11. Jun 2021, 14:35

Hallo zusammen,

ich stehe vor folgendem Problem: Ich habe 2 Datensets A und B mit jeweils einer abhängigen und 4 unabhängigen Variablen, wobei ich für eine Variable (x1) eine Auswahl an 6 Datensätzen (x1_1 - x1_6) habe. Ich probiere also diese Datensätze durch, sodass ich ein möglichst hohes R2 habe

Nehmen wir folgende Ergebnisse an:

Datenset A: R2: 98,5% (x1_1)
Datenset B: R2: 96,2% (x1_1) bzw. 97,0% (x1_x2)

Modell: y = x1+x2+x3+x4

Führe ich nun die Datensätze A und B in einem Paneldatenmodell zusammen ergibt sich folgendes Bild

Option x1_1 für datenset A und Datenset B: R2=91,8%
Option x1_1 für Datenset A und x1_2 für Datenset B: R2= 86,2%

Meine Frage: Wie kann das sein, dass die zweite Option hier ein schlechteres R2 bekommt, obwohl sie mit den "besseren" Daten gefüttert ist?
Meine Vermutung ist, dass es mit den "Einstellungen" bei der Paneldatenanalyse zusammenhängt. Dort kenne ich mich allerdings nicht gut aus. Ich mache eine "ganz normale" Pooled OLS-Regression (das ist doch die Standard Paneldatenanalyse, oder?)

Über Eure Hilfe wäre ich sehr dankbar!! Viele Grüße

Felix

bele · von **bele** » Fr 11. Jun 2021, 15:53

Hallo Felix,

ich finde die Darstellung etwas verwirrend. Du hast Datensätze und Datensets. Sätze werden nummeriert und Sets mit Buchstaben benannt. Und Du hast Optionen. Die Optionen scheinen aber dasselbe sie die Sätze zu sein?

Führe ich nun die Datensätze A und B in einem Paneldatenmodell zusammen

Hier werden jetzt Sätze nach A und B benannt, was inkonsistent zum weiter oben stehenden ist.

Falls das nicht ein anderer besser durchschaut und passender antwortet kannst Du die Aufgabenstellung vielleicht nochmal besser erklären.

LG,
Bernhard

PS: Sind die Angaben wirklich alle R² oder doch adjustiertes R²?

felice_777 · von **felice_777** » Fr 11. Jun 2021, 16:14

Hallo Bernhard,

gerne nochmal etwas genauer. Ich habe 2 Aktien (i), welche monatliche Renditen (y) über 30 Moante (t) abwerfen. Ich versuche diese Renditen zu erklären mittels 4 Faktoren (x1, x2, x3, x4). Dabei habe ich für x1 zwei Möglichkeiten (x1_1 und x1_2).

Ich regressiere nun jede Atkie einzeln im Modell y = x1 +x2 +x3 +x4.

Output R2 (ja r2, nicht adj. R2)
Aktie 1 - Option 1 (x1_1): 98,5%
Aktie 1 - Option 2 (x1_2): 95,3%
Aktie 2 - Option 1 (x1_1): 96,2%
Aktie 2 - Option 2(x2_2): 97,0%

Nun rechne ich ein Paneldatenmodell, wobei ich in Panel A für Aktie 1 die Option 1 wähle und für Aktie 2 die Option 2 (bestes R2). In Panel B wähle ich für beide Aktien Option 1.
Output R2:
Panel A: 87,1%
Panel B: 91,2%

Frage: Warum hat Panel B ein höheres R2, wenn die bessere Datenlage in Panel A vorliegt? Ich regressiere in R mit der plm-Funktion und dem Typ "pooling".

Viele Grüße

Felix

bele · von **bele** » Fr 11. Jun 2021, 19:17

Ok, das war viel verständlicher. Bedeutet leider nicht, dass ich helfen könnte. LG, Bernhard

STATISTIK-FORUM.de

Vergleich R2 Paneldaten

Vergleich R2 Paneldaten

Re: Vergleich R2 Paneldaten

Re: Vergleich R2 Paneldaten

Re: Vergleich R2 Paneldaten

Wer ist online?