3 Dummy Variablen in einer multiplen Regression

Alle Verfahren der Regressionanalyse.

3 Dummy Variablen in einer multiplen Regression

Beitragvon Zyzzinho » Di 20. Sep 2016, 13:45

Hallo Zusammen

Ich hätte eine Frage zu meiner Regression:

abhängige Variable =β_0 + γ_1*Jahr2+γ_2*Jahr3+γ_3*Jahr4+δ_1*Region2+δ_2*Region3+ε_0*Weiblich+u

wobei:

"Jahre" eine Dummy Variable mit Base "Jahr1" ist
"Region" eine Dummy Variable mit Base "Region1" ist
"Weiblich" eine Dummy Variable mit Base "männlich" ist.

Ist die Regression so korrekt beschrieben? Ich bin mir bezüglich den Koeffizienten nicht ganz sicher.

Beste Grüsse und vielen Dank!
Zyzzinho
Beobachter
Beobachter
 
Beiträge: 10
Registriert: Di 20. Sep 2016, 13:40
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: 3 Dummy Variablen in einer multiplen Regression

Beitragvon Soki16 » Di 20. Sep 2016, 15:19

Ohne den gesamten Kontext zu kennen, sieht es so aus, als ob Jahr2 bis Jahr4 einfache Dummy Variablen sind. (Sprich wenn Jahr 2 vorliegt, dann bekommt die Variable den Wert 1, 0 wenn sonst). Region scheint mir eine ordinalskalierte Variable zu sein, kann aber auch ein Dummy sein. Wenn Region bspw. beschreibt, ob jemand in Berlin wohnt (Region=1) oder nicht (Region=0), dann ist es ein Dummy. Wird aber bspw. gesagt Region bekommt den Wert 1, wenn es eine kleine Region ist, 2 wenn es eine größere Region ist usw. dann ist es eine ordinalskalierte Variable. Weiblich scheint mir ein Dummy zu sein: wenn Weiblich, dann bekommt die Variable den Wert 1, 0 wenn sonst. Warum die Koeffizienten so unterschiedlich bezeichnet werden ist mir nicht klar. Es kann aber sein, dass Jahr2-Jahr3 zusammen eine ordinalskalierte Variable bilden sollen, die nur voneinander getrennt dargestellt wird. Entsprechendes gilt für Region und das Geschlecht. Wobei ich behaupten würde, dass bei Weiblich die Base weiblich ist.
Soki16
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Di 20. Sep 2016, 13:40
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: 3 Dummy Variablen in einer multiplen Regression

Beitragvon Zyzzinho » Di 20. Sep 2016, 15:43

Bei Region ist es entweder die eine Region oder die andere. Sprich, 3 Regionen (Berlin, München und Hamburg).
Dasselbe gilt auch für die Jahre. Entweder ist es 1992, 1993, 1994 oder 1995.

Genau bei den Koeffizienten bin ich mir unsicher. Ich habe die verschiedenen Koeffizienten für Dummy Variablen bei Woolridge gesehen und es so übernommen. Wie hättest es Du denn gemacht?
Zyzzinho
Beobachter
Beobachter
 
Beiträge: 10
Registriert: Di 20. Sep 2016, 13:40
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: 3 Dummy Variablen in einer multiplen Regression

Beitragvon Soki16 » Di 20. Sep 2016, 16:18

Verstehe nicht ganz worauf du hinaus willst. Möchtest du eine Regression mit diesen Variablen erstellen?

Dann würde ich dir folgendes empfehlen:
- wenn du den speziellen Effekt eines Jahres unter suchen möchtest, erstelle 4 einzelne Dummyvariablen (aber mache dann ein multikoll. Analyse --> kann sein, dass ein kategorialer zusammenhang der güte des Modells schadet)
- wenn du nur wissen willst, ob mit höheren Jahren ein anderer Effekt einhergeht, dann erstelle eine ordinal skallierte Variable (also eine Rangvariable) Dann zeigt eine einzige Variable, den Effekt "höher werdender Jahre" auf dein y. Vergiss dabei nicht, dass du in Stata immer ein "i." vor ordinalskallierten Variablen in der Regression machen musst

- wenn du den Effekt einzelner Regionen machen willst, erstelle für jede einzelne Region ein Dummy --> eine ordinal skallierte Variable lohnt sich anscheinend bei Regionen nicht, da ja eine Stadt nicht "besser" ist als die andere

- für das Geschlecht ein Dummy: üblich ist --> 0 wenn Frau und 1 wenn Mann
Soki16
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Di 20. Sep 2016, 13:40
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: 3 Dummy Variablen in einer multiplen Regression

Beitragvon Zyzzinho » Di 20. Sep 2016, 17:50

Vielen Dank für Deine Hilfe.

Ich hab die Regression vereinfacht und die Dummy Variablen anders beschrieben als sie eigentlich sind. Hier das original:

Die abhängige Variabel ist ein Performancemass und ich mache eine Analyse der Bestimmungsfaktoren der Performance. Also konkret, was macht die Performance aus?

Dafür habe ich die Regression um zu testen, ob es die Region, das Vintage Jahr (Gründung des Fonds), Status (ob offen oder nicht) oder die Strategie ist/sind, die die Performance ausmacht.

Beim Vintage Jahr sind es immer mehrere Jahre zusammen. Also zb 1990 - 1994 als erste Gruppe, 1995 - 2000 als zweite Gruppe. Insgesamt sind es 4 Gruppen.

Bei Region sind es 3 verschiedene Regionen.

Bei Strategie sind es insgesamt 3 Strategien.

Bei Status gibt es 2 Varianten, Offen oder Geschlossen.


Mein Ansatz war nun eine Regression wobei ich alles mit Dummyvariablen machen wollte, wobei jede Dummy Variable immer eine Base Case hat. Würdest du diesen Ansatz nicht empfehlen?

abhängige Variable =β_0 + γ_1*Vintage2+γ_2*Vintage3+γ_3*Vintage4+δ_1*Region2+δ_2*Region3+ε_1*Fond geschlossen+δ_1*Strategie2+δ_2*Strategie3+u
Zyzzinho
Beobachter
Beobachter
 
Beiträge: 10
Registriert: Di 20. Sep 2016, 13:40
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: 3 Dummy Variablen in einer multiplen Regression

Beitragvon Soki16 » Mi 21. Sep 2016, 00:17

Ohne die Hypothesen konkret zu kennen:
die Regression würde ich zunächst so lassen bzw. erkenne keine Fehler. Viele Wege führen nach Rom, dein Ansatz ist einer davon.
Führe die Regression durch und gucke dir die Ergebnisse an. Wenn die Ergebnisse stimmen UND die Modelannahmen erfüllt sind (/Modellgüte), dann sollte es kein Problem sein.

Wenn insignifikante Ergebnisse herauskommen und/ oder die Modellannahmen (bspw. keine Ausreißer, Exogenität, Homoskedastizität usw.) nicht erfüllt sind, melde dich nochmal, dann kann man sicherlich paar Sachen anders lösen :)

LG
Soki16
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Di 20. Sep 2016, 13:40
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: 3 Dummy Variablen in einer multiplen Regression

Beitragvon Zyzzinho » Mi 21. Sep 2016, 08:53

Vielen Dank Soki16

Ich habe folgendes geprüft:

• Linearität via Residuen-Plot
• Homoskedastizität via Residuen-Plot und Breusch-Pagan-Test
• Autokorrelation via Durbin-Watson-Test
• Multikollinearität via Varianzinflationsfaktor
• Normalverteilung der Residuen via Quantile-Quantile-Plot und Histogramm-Plot
• Ausreisser via Cook’s-Distance-Test

Alle Tests waren ok. Die Normalverteilung der Residuen war ein bisschen rechtsschief, aber das sollte ok sein so weit. Sollte ich noch was prüfen?

Signifikant ist nun leider nur eine einzige Variable, undzwar der Status (und auch das Interzept). Ich hab die restlichen Variablen rausgekickt und der Status und das Interzept sind nun sogar auf dem 99.9% Level signifikant.
Würdest Du doch einen anderen Ansatz empfehlen?

Beste Grüsse
Zyzzinho
Beobachter
Beobachter
 
Beiträge: 10
Registriert: Di 20. Sep 2016, 13:40
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 16 Gäste

cron