Umgang mit geringer Fallzahl der Dummy-Variable

Alle Verfahren der Regressionanalyse.

Umgang mit geringer Fallzahl der Dummy-Variable

Beitragvon Olaf87 » Di 12. Feb 2013, 11:32

Hallo,

ich bin neu in diesem Forum und es tut mir Leid, dass ich gleich mit einem Problem zu euch komme. Im Vorfeld habe ich bereits versucht eine Lösung über Google und die forumsinterne Suchfunktion zu finden, aber vergebens... :(
Zur Zeit schreibe ich an meiner BA und bin bei der Auswertung der Daten. Diese erfolgt mit Stata. Der Datensatz umfasst 1.127 Beobachtungen und Ziel ist es, eine multiple Regressionsanayse durchzuführen.

Bei einem Teil der unabhängigen Variablen handelt es sich um von mir geschaffene Dummy-Variablen. Da ich vermute, dass diese einen signifikanten Einfluss auf meine Zielgröße haben, würde ich diese -wenn möglich- in die Regressionsgleichung aufnehmen. Allerdings habe ich bei manchen Dummy-Variablen das Problem, dass die Anzahl der jeweiligen Ausprägung unterschiedlich häufig vorkommt. Beispielsweise die absoluten Häufigkeiten des jeweiligen Geschlechts: 1(männlich)=20 und 0(weiblich)=1.107.

Nun zu meinen Fragen:
Ist die Anzahl an männlichen Beobachtungen viel zu gering oder noch vertretbar? Gibt es vielleicht einen Richtwert (z.B. ab 30 (männlichen) Beobachtungen) oder spielt die relative Häufigkeit eine Rolle?
In diesem Zusammenhang habe ich auch gelesen, dass bei geringen Fallzahlen die größere Ausprägung als Referenzgröße dienen soll. Bei mir sollte es passen, da meine Referenzgröße weiblich ist oder täusche ich mich hier?

Liebe Community, es wäre sehr schön, wenn ihr mir bei meinen Fragen weiterherlfen könntet. Irgendwie stehe ich da auf dem Schlauch :oops:

Vielen Dank :!:


LG
Olaf
Olaf87
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Di 12. Feb 2013, 10:02
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Beitragvon Druss » Di 12. Feb 2013, 14:53

Hallo,

eine kurze Gegenfrage: Ist der Datensatz für das was du tun willst repräsentativ? Da der Anteil der Frauen deutlich größer ist als der Anteil der Männer muss bei gegebener Repräsentativität der Daten ein entsprechender Sachverhalt zugrunde liegen.

Grüße
Druss
Power-User
Power-User
 
Beiträge: 92
Registriert: Mo 29. Aug 2011, 14:20
Danke gegeben: 0
Danke bekommen: 10 mal in 10 Posts

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Beitragvon Olaf87 » Di 12. Feb 2013, 15:05

Hallo Druss,

vielen Dank zunächst für deine Antwort. Ja, der Datensatz ist repräsentativ. Es handelt sich dabei um eine Vollerhebung.


Gruß

Olaf
Olaf87
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Di 12. Feb 2013, 10:02
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Beitragvon strukturmarionette » Di 12. Feb 2013, 23:49

Hi,

Der Datensatz umfasst 1.127 Beobachtungen

der Datensatz ist repräsentativ. Es handelt sich dabei um eine Vollerhebung


spielt die relative Häufigkeit eine Rolle?


Warum sollte sie das dann?

S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Beitragvon daniel » Mi 13. Feb 2013, 00:24

Die Kombination aus schiefer Indikatorverteilung (relative Häufigkeit) und geringer Fallzahl (absolute Häufigkeit) kann schon (große) Probleme bei der Schätzung bereiten.

Da Du mit Stata arbeitest, hier ein Beispiel zur Demonstration

Code: Alles auswählen
clear
se obs 1000 // 1.000 Beobachtugen

// prädikatoren
g byte d = runiform() > .98 // d = 1 in ca. 2 % der 1000 Fälle
g x = rnormal() // x ist normalverteilt mit N(0, 1)

// erzeuge y mit einer Konstanten von 100 und einer Fehlervarianz von 40
g y = 2.5*x + 5*d + rnormal(100, 40)

// regression
reg y d x

// Ergebnis: relativ schlechte Modelpassung weil große Fehlervarianz
// relativ schlechte Schätzer für x und d

// Das Modell ist korrekt spezifiziert, d.h. OLS liefert erwartungstreue Schätzer
// Falls N -> unendlich sollten die Schätzer gut sein

// reset (das Gleiche nochmal)
clear
se obs 1000000 // 1.000.000 Beobachungen

// prädikatoren (analog zu oben)
g byte d = runiform() > .98 // d = 1 in ca. 2 % der Fälle
g x = rnormal() // x ist normalverteilt mit N(0, 1)

// erzeuge y mit einer Konstanten von 100 und einer Fehlervarianz von 40
// immer noch das selbe wie oben
g y = 2.5*x + 5*d + rnormal(100, 40)

// regression
reg y d x

// Aber: viel bessere Schätzer, aufgrund der hohen Fallzahlen
// Trotz gleicher relativer Häufigkeit bekommen wir bei einer
// hohen absoluten Häufigkeit gute Schätzer

// reset 2 (nochmal)
clear
se obs 1000 // wieder nur 1.000 Beobachungen

// prädikatoren (analog zu oben)
g byte d = runiform() > .98 // d = 1 in ca. 2 % der 1000 Fälle
g x = rnormal() // x ist normalverteilt mit N(0, 1)

// erzeuge y mit einer Konstanten von 100
// dieses Mal ist der Zufallsfehler nur 4 (statt 40, wie oben)
g y = 2.5*x + 5*d + rnormal(100, 4)

// regression
reg y d x

// Das sieht schon um einiges besser aus. Kommt nicht an die
// 1.000.000 Beobachtungen ran, aber ein besser passendes Modell
// aufgrund des geringen Zufallsfehlers liefrt Schätzer, die ok sind


Fazit: In der Theorie hast Du kein Problem, in der Praxis kann das anders aussehen. Das gute daran ist, dass Du diese Probleme vermutlich nicht übersehen wirst.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

folgende User möchten sich bei daniel bedanken:
Olaf87

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Beitragvon Olaf87 » Do 14. Feb 2013, 16:44

Danke für deine ausführliche Erklärung daniel, du hast mir die Augen geöffnet! Wenn man eine gewisse Zeit nichts mehr mit Statistik am Hut hat, ist es sehr schwer wieder reinzukommen... :roll:
Olaf87
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Di 12. Feb 2013, 10:02
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Beitragvon Druss » Fr 15. Feb 2013, 04:35

Hi,

die Vollerhebung und das Prinzip der Signifikanz passen nicht immer zueinander. Da muss man wirklich Vorsichtig sein. Signifikanz ist prinzipiell ein Stichprobenkonzept.

Spontan habe ich das gefunden: http://www.mpifg.de/pu/workpap/wp03-7/wp03-7.pdf

Aufjedenfall muss man das beachten!

Grüße
Druss
Power-User
Power-User
 
Beiträge: 92
Registriert: Mo 29. Aug 2011, 14:20
Danke gegeben: 0
Danke bekommen: 10 mal in 10 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 9 Gäste