t-Test mit großer Stichprobe und Dummy-Variablen-Problem

Alle Verfahren der Regressionanalyse.

t-Test mit großer Stichprobe und Dummy-Variablen-Problem

Beitragvon stigma » So 9. Feb 2014, 22:22

Hallo zusammen,

ich habe ein paar kleine Fragen und hoffe ihr könnt mir eventuell weiter helfen. Ich habe schon einige Hilfe in anderen Themen gefunden, aber ein paar Sachen konnte ich bisher leider nicht rausfinden.

Ich mache momentan eine Regressionanalyse bzgl der Einkommensunterschiede zwischen Männern und Frauen. Soweit so gut, die Regression habe ich mit SPSS auch ganz gut hinbekommen, allerdings habe ich nun ein paar Probleme beim Auswerten.

Das Erste Problem kam beim T-Test. Mit den Daten von der Verdienststrukturerhebung habe ich über 60000 Freiheitsgrade, was natürlich in keiner Tabelle zu finden ist. Ich habe an einigen Stellen gelesen, dass man bei großen Stichproben dann die Normalverteilung benutzen kann. Allerdings komme ich da leider auch nicht weiter. Wie komme ich denn mit der Normalverteilung auf den entsprechenden Wert?

Bei der 2. Sache bin ich mir nicht mal sicher, ob es sich tatsächlich um ein Problem handelt. Die Daten hatten das Geschlecht mit 1 für männlich und 2 für weiblich codiert. Daran habe ich für die Regression auch nichts geändert. Nun hab ich allerdings überlegt, dass das Geschlecht ja eigentlich eine Dummy-Variable ist? Können diese trotzdem mit 1 und 2 codiert sein oder müsste ich das ganze nicht eigentlich auf 0 und 1 ändern? Ich bin mir gerade sehr unschlüssig, ob sich dadurch an der Regression tatsächlich viel ändern würde. Ich hatte auch überlegt evtl. Interaktionsterme in die Regression mit reinzunehmen (ich dachte da z.B. an die Region, welche bis jetzt auch mit 1 und 2 codiert ist) In dem Fall müsste ich dann eigentlich beide auf 0 und 1 ändern, oder?

Ich hoffe hier findet sich jemand, der mich versteht und eventuell ein paar Tipps geben kann.

Vielen Dank euch schonmal
LG
stigma
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: So 9. Feb 2014, 22:09
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: t-Test mit großer Stichprobe und Dummy-Variablen-Problem

Beitragvon PonderStibbons » Mo 10. Feb 2014, 10:49

Das Erste Problem kam beim T-Test. Mit den Daten von der Verdienststrukturerhebung habe ich über 60000 Freiheitsgrade, was natürlich in keiner Tabelle zu finden ist. Ich habe an einigen Stellen gelesen, dass man bei großen Stichproben dann die Normalverteilung benutzen kann. Allerdings komme ich da leider auch nicht weiter. Wie komme ich denn mit der Normalverteilung auf den entsprechenden Wert?

Ich verstehe hier das Problem leider nicht so recht. Suchst Du
das Ergebnis des Signifikanztests (t-Tests) für den Koeffizienten
des Geschlechtereinflusses? Wenn Di die Regression mit SPSS
berechnet hast, dnan gibt Dir die Software das doch aus.
Nun hab ich allerdings überlegt, dass das Geschlecht ja eigentlich eine Dummy-Variable ist? Können diese trotzdem mit 1 und 2 codiert sein oder müsste ich das ganze nicht eigentlich auf 0 und 1 ändern?

Ja.
(ich dachte da z.B. an die Region, welche bis jetzt auch mit 1 und 2 codiert ist)

Falls Du eine Variable "Region" mit 2 Ausprägungen hast,
machst Du daraus eine (1) dummy-Variable.

LG

wtf


Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
stigma

Re: t-Test mit großer Stichprobe und Dummy-Variablen-Problem

Beitragvon stigma » Mo 10. Feb 2014, 11:59

Hallo,
danke erstmal für die schnelle Reaktion.

Ich verstehe hier das Problem leider nicht so recht. Suchst Du
das Ergebnis des Signifikanztests (t-Tests) für den Koeffizienten
des Geschlechtereinflusses? Wenn Di die Regression mit SPSS
berechnet hast, dnan gibt Dir die Software das doch aus.

Die Werte für den t-Test aus SPSS habe ich. Mein Problem ist der zweite Wert zum Vergleichen, der mir fehlt, um dann zusagen ob die Hypothese angenommen wird oder nicht. Normalerweise würde man den kritisichen Wert ja einfach aus der Tabelle für die t-Verteilung ablesen, aber genau das bekomme ich halt wegen der hohen Freiheitsgrade nicht hin.

Die Region ist in dem Fall mit 1 für alte Bundesländer und 2 für die neuen Bundesländer erfasst. (Analog ist auch 1 männlich und 2 weiblich) Dass ich das ändern muss auf 0 + 1 hatte ich mir ja schon fast gedacht. Allerdings hätte ich dann noch eine kleine Verständnisfrage. Es gibt ja auch machnmal andere nominalskalierte Variablen (in meinem Fall gäbe es da z.B. u.a. noch eine Variable zur Berufsgruppe, wo dann eben verschiedene Branchen jeweils eine anderen Wert bekommen (bei mir wären das Werte von 1-10) Müsste man sowas dann nicht theoretisch auch umkodieren? Woher weiß ich denn wann ich nominalskalierte Variablen als Dummy-Variablen kodieren muss?
stigma
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: So 9. Feb 2014, 22:09
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: t-Test mit großer Stichprobe und Dummy-Variablen-Problem

Beitragvon PonderStibbons » Mo 10. Feb 2014, 13:32

Die Werte für den t-Test aus SPSS habe ich. Mein Problem ist der zweite Wert zum Vergleichen, der mir fehlt, um dann zusagen ob die Hypothese angenommen wird oder nicht. Normalerweise würde man den kritisichen Wert ja einfach aus der Tabelle für die t-Verteilung ablesen, aber genau das bekomme ich halt wegen der hohen Freiheitsgrade nicht hin.

Nimm doch den von SPSS ausgegebenen p-Wert (Signifikanzwert).
Liegt er unter Deinem alpha, dann muss t zwangsläufig im kritischen
Bereich liegen.
Woher weiß ich denn wann ich nominalskalierte Variablen als Dummy-Variablen kodieren muss?

Ganz einfach: die musst Du immer umcodieren. Eine kategoriale Variable
mit k Ausprägungen wird für die Regression in k-1 dummies umgewandelt
(eine Kategorie bekommt keinen eigenen dummy).

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 9 Gäste