STATISTIK-FORUM.de

Olaf87 · von **Olaf87** » Di 12. Feb 2013, 11:32

Hallo,

ich bin neu in diesem Forum und es tut mir Leid, dass ich gleich mit einem Problem zu euch komme. Im Vorfeld habe ich bereits versucht eine Lösung über Google und die forumsinterne Suchfunktion zu finden, aber vergebens...

Zur Zeit schreibe ich an meiner BA und bin bei der Auswertung der Daten. Diese erfolgt mit Stata. Der Datensatz umfasst 1.127 Beobachtungen und Ziel ist es, eine multiple Regressionsanayse durchzuführen.

Bei einem Teil der unabhängigen Variablen handelt es sich um von mir geschaffene Dummy-Variablen. Da ich vermute, dass diese einen signifikanten Einfluss auf meine Zielgröße haben, würde ich diese -wenn möglich- in die Regressionsgleichung aufnehmen. Allerdings habe ich bei manchen Dummy-Variablen das Problem, dass die Anzahl der jeweiligen Ausprägung unterschiedlich häufig vorkommt. Beispielsweise die absoluten Häufigkeiten des jeweiligen Geschlechts: 1(männlich)=20 und 0(weiblich)=1.107.

Nun zu meinen Fragen:
Ist die Anzahl an männlichen Beobachtungen viel zu gering oder noch vertretbar? Gibt es vielleicht einen Richtwert (z.B. ab 30 (männlichen) Beobachtungen) oder spielt die relative Häufigkeit eine Rolle?
In diesem Zusammenhang habe ich auch gelesen, dass bei geringen Fallzahlen die größere Ausprägung als Referenzgröße dienen soll. Bei mir sollte es passen, da meine Referenzgröße weiblich ist oder täusche ich mich hier?

Liebe Community, es wäre sehr schön, wenn ihr mir bei meinen Fragen weiterherlfen könntet. Irgendwie stehe ich da auf dem Schlauch :oops:

Vielen Dank :!:

LG
Olaf

Druss · von **Druss** » Di 12. Feb 2013, 14:53

Hallo,

eine kurze Gegenfrage: Ist der Datensatz für das was du tun willst repräsentativ? Da der Anteil der Frauen deutlich größer ist als der Anteil der Männer muss bei gegebener Repräsentativität der Daten ein entsprechender Sachverhalt zugrunde liegen.

Grüße

Olaf87 · von **Olaf87** » Di 12. Feb 2013, 15:05

Hallo Druss,

vielen Dank zunächst für deine Antwort. Ja, der Datensatz ist repräsentativ. Es handelt sich dabei um eine Vollerhebung.

Gruß

Olaf

strukturmarionette · von **strukturmarionette** » Di 12. Feb 2013, 23:49

Hi,

Der Datensatz umfasst 1.127 Beobachtungen

der Datensatz ist repräsentativ. Es handelt sich dabei um eine Vollerhebung

spielt die relative Häufigkeit eine Rolle?

Warum sollte sie das dann?

S.

daniel · von **daniel** » Mi 13. Feb 2013, 00:24

Die Kombination aus schiefer Indikatorverteilung (relative Häufigkeit) und geringer Fallzahl (absolute Häufigkeit) kann schon (große) Probleme bei der Schätzung bereiten.

Da Du mit Stata arbeitest, hier ein Beispiel zur Demonstration

Code: Alles auswählen: clear se obs 1000 // 1.000 Beobachtugen // prädikatoren g byte d = runiform() > .98 // d = 1 in ca. 2 % der 1000 Fälle g x = rnormal() // x ist normalverteilt mit N(0, 1) // erzeuge y mit einer Konstanten von 100 und einer Fehlervarianz von 40 g y = 2.5*x + 5*d + rnormal(100, 40) // regression reg y d x // Ergebnis: relativ schlechte Modelpassung weil große Fehlervarianz // relativ schlechte Schätzer für x und d // Das Modell ist korrekt spezifiziert, d.h. OLS liefert erwartungstreue Schätzer // Falls N -> unendlich sollten die Schätzer gut sein // reset (das Gleiche nochmal) clear se obs 1000000 // 1.000.000 Beobachungen // prädikatoren (analog zu oben) g byte d = runiform() > .98 // d = 1 in ca. 2 % der Fälle g x = rnormal() // x ist normalverteilt mit N(0, 1) // erzeuge y mit einer Konstanten von 100 und einer Fehlervarianz von 40 // immer noch das selbe wie oben g y = 2.5*x + 5*d + rnormal(100, 40) // regression reg y d x // Aber: viel bessere Schätzer, aufgrund der hohen Fallzahlen // Trotz gleicher relativer Häufigkeit bekommen wir bei einer // hohen absoluten Häufigkeit gute Schätzer // reset 2 (nochmal) clear se obs 1000 // wieder nur 1.000 Beobachungen // prädikatoren (analog zu oben) g byte d = runiform() > .98 // d = 1 in ca. 2 % der 1000 Fälle g x = rnormal() // x ist normalverteilt mit N(0, 1) // erzeuge y mit einer Konstanten von 100 // dieses Mal ist der Zufallsfehler nur 4 (statt 40, wie oben) g y = 2.5*x + 5*d + rnormal(100, 4) // regression reg y d x // Das sieht schon um einiges besser aus. Kommt nicht an die // 1.000.000 Beobachtungen ran, aber ein besser passendes Modell // aufgrund des geringen Zufallsfehlers liefrt Schätzer, die ok sind

Fazit: In der Theorie hast Du kein Problem, in der Praxis kann das anders aussehen. Das gute daran ist, dass Du diese Probleme vermutlich nicht übersehen wirst.

folgende User möchten sich bei daniel bedanken:
Olaf87

Olaf87 · von **Olaf87** » Do 14. Feb 2013, 16:44

Danke für deine ausführliche Erklärung daniel, du hast mir die Augen geöffnet! Wenn man eine gewisse Zeit nichts mehr mit Statistik am Hut hat, ist es sehr schwer wieder reinzukommen... :roll:

Druss · von **Druss** » Fr 15. Feb 2013, 04:35

Hi,

die Vollerhebung und das Prinzip der Signifikanz passen nicht immer zueinander. Da muss man wirklich Vorsichtig sein. Signifikanz ist prinzipiell ein Stichprobenkonzept.

Spontan habe ich das gefunden: http://www.mpifg.de/pu/workpap/wp03-7/wp03-7.pdf

Aufjedenfall muss man das beachten!

Grüße

STATISTIK-FORUM.de

Umgang mit geringer Fallzahl der Dummy-Variable

Umgang mit geringer Fallzahl der Dummy-Variable

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Re: Umgang mit geringer Fallzahl der Dummy-Variable

Wer ist online?