Vergleich von zwei Datensätzen - Regressionsanalyse (SPSS)

Alle Verfahren der Regressionanalyse.

Vergleich von zwei Datensätzen - Regressionsanalyse (SPSS)

Beitragvon statnoob » Mi 12. Nov 2014, 22:57

Hallo zusammen,

ich sitze gerade vor einem kleinen Problem. Ich versuche mich so kurz wie möglich zu halten:

Momentan arbeite ich an meiner (Soziologie-)Bachelor-Arbeit. Mein Vorhaben ist es, zwei Datensätze anhand eines Regressionsmodell zu vergleichen.

Bei den Datensätzen handelt es sich um zwei deutschlandweite Surveys (SOEP und ALLBUS). Ich versuche anhand eines beispielhaften Modells (Modell mit AV: Einkommen - UV: Alter, Bildung, Hochschulabschluss, Arbeitszeit...), das auf beide Datensätze angewandt wird, diese zu vergleichen. Dabei geht es quasi implizit auch darum, ob Umfragen mit Stichproben "wahre" Werte messen oder zumindest in meinem Beispiel die gleichen Werte (was ja bestenfalls der Fall sein sollte).

Nun zu meiner Frage:

Kennt ihr eine gute Methode, wie man die beiden Regressionsmodelle, die ich mit den beiden Datensätze rechne, vergleichen kann?

Eine einfache Möglichkeit ist (lt. meinem Dozent), die 95%-Intervalle bei den Koeffizienten (die man sich ja in SPSS anzeigen lassen kann) zu vergleichen, also zu schauen, ob sich diese überlappen.

Im Endeffekt will ich quasi testen, ob die Abweichungen der Koeffizienten in beiden Modellen (die ganz exakt gleichen Werte wird man ja natürlich nicht rausbekommen) so stark abweichen, dass dies als überzufällig gelten kann. Gibt es dafür eine gängige Praxis in der Anwendung mit SPSS (bzw. generell)?


Ich hoffe mir kann jemand weiterhelfen und ich habe mich einigermaßen verständlich ausgedrückt.
statnoob
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: So 20. Jul 2014, 14:10
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon PonderStibbons » Do 13. Nov 2014, 00:33

Ich hoffe mir kann jemand weiterhelfen und ich habe mich einigermaßen verständlich ausgedrückt.

Leider nein. Du schilderst mindestens 4 verschiedene Ziele
(Datensätze vergleichen, Beurteilung von Messung wahrer
Werte, Vergleich von Regressionsmodellen, Vergleich von
Koeffizienten), zumindest ich weiß daher nicht, was
eigentlich jetzt die Fragestellung für die Analyse ist.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon statnoob » Do 13. Nov 2014, 12:21

PonderStibbons hat geschrieben:
Ich hoffe mir kann jemand weiterhelfen und ich habe mich einigermaßen verständlich ausgedrückt.

Leider nein. Du schilderst mindestens 4 verschiedene Ziele
(Datensätze vergleichen, Beurteilung von Messung wahrer
Werte, Vergleich von Regressionsmodellen, Vergleich von
Koeffizienten), zumindest ich weiß daher nicht, was
eigentlich jetzt die Fragestellung für die Analyse ist.

Mit freundlichen Grüßen

P.


Ok, dann versuche ich mich mal besser zu artikulieren:

(Das mit dem Messen wahrer Werte ist vllt. etwas irreführend und eig. für meine Frage nicht relevant)

Ich habe zwei unabhängige Datensätze. Ferner habe ich ein Modell zu Einkommen erarbeitet (AV: Netto-Einkommen einer Person; UV: Alter, Geschlecht, Schulabschluss, FH-Dummy, Universitäts-Dummy, Arbeitszeit). Die Datensätze beruhren beide auf einer Umfrage in einer deutschlandweiten, "repräsentativen" Stichprobe der Bevölkerung. Ich kann nun mit beiden Datensätzen mein Regressionsmodell rechnen, da die genannten Variablen in beiden Datensätzen vorzufinden bzw. konstruierbar sind. Dann bekomme ich natürlich je ein Ergebnis und eine Regressionsgleichung bzw. jeweils Konstante und Koeffizienten. Meine Fragestellung in der BA ist jetzt quasi, ob beide Umfragen die gleichen Werte messen. Und meine Frage im speziellen hier ist, welches Verfahren geeignet ist, das zu untersuchen (bzw. wie das in SPSS umsetzbar ist). Intuitiv denke ich, dass das doch iwie möglich sein müsste, zu untersuchen, ob die Ergebnisse überzufällig von einander abweichen, oder ob man sagen kann, dass unter Berücksichtigung der Stichprobe gleiche Werte gemessen wurden (also ob man das auch wieder mit einem SIgnifikanzniveau sagen kann).
Zuletzt geändert von statnoob am Do 13. Nov 2014, 12:22, insgesamt 1-mal geändert.
statnoob
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: So 20. Jul 2014, 14:10
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon DHA3000 » Do 13. Nov 2014, 12:22

Hmm, ganz so problematisch wie mein Vorredner sehe ich das nicht. Ich es geht ja im Kern "nur" um die Datensätze.
Dein Betreuer hat schon recht. Es ist (für eine Bachelorarbeit) vollkommen legitim, dass du beide Modell schätzt
und dann diese Konfidenzbänder miteinander vergleichst. Und natürlich auch die Koeffizienten. Das es sich nur um
zwei verschiedene Datensätze handelt, müssen diese ja gleich sein. So etwas kann man schön grafisch bzw. in einer
Tabelle darstellen.

Problematisch könnte das Ganze allerdings werden, wenn du Heteroskedastizität vorliegen hast und für dieses korrigierst.
Dann müsste streng genommen der "Korrekturfaktor" bei beiden Modellen identsich sein.
Ich vermute, deinem Betreuer ist das nicht klar/bzw, egal.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon PonderStibbons » Do 13. Nov 2014, 12:35

Meine Fragestellung in der BA ist jetzt quasi, ob beide Umfragen die gleichen Werte messen.

Vielleicht wäre die nicht-quasi Fragestellung zu präsentieren
die sicherere Methode. Ich übersetze mir "ob beide Umfragen
die gleichen Werte messen" aus dem gegebenen Kontext heraus
mit: "Ob die Regressionskoeffizienten beider Modelle sich
(signifikant) unterscheiden." ?
Und meine Frage im speziellen hier ist, welches Verfahren geeignet ist, das zu untersuchen (bzw. wie das in SPSS umsetzbar ist).

Das wäre nicht so schwer (beide Dateien zusammenfügen, dabei
Datei-Indikator erstellen, Wechselwirkungsvariablen zwischen
den Prädiktoren und dem Datei-Indikator erstellen und ins
Regressionsmodell aufnehmen), aber Dein Dozent hat Dir doch
bereits eine von ihm akzeptierte, noch simplere Vorgehensweise
genannt. Ich sage nicht, dass ich die sinnvoll finde, aber dennoch,
warum folgst Du nicht seiner Vorgabe?
dass unter Berücksichtigung der Stichprobe gleiche Werte gemessen wurden (also ob man das auch wieder mit einem SIgnifikanzniveau sagen kann).

Jeztzt bin ich doch wieder unsicher, worum es eigentlich
geht. "Die gleichen Werte messen" betrifft doch lediglich
die Frage, ob die einzelnen Variablen in den beiden Stichproben
unterschiedlich verteilt sind (z.B. unterschiedliche Mittelwerte,
andere Streuungen, andere Häufigkeitsverteilungen etc.). Dafür
ist keine multiple lineare Regression erforderlich bzw. verwendbar.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon DHA3000 » Do 13. Nov 2014, 12:39

PonderStibbons hat geschrieben:Das wäre nicht so schwer (beide Dateien zusammenfügen, dabei
Datei-Indikator erstellen, Wechselwirkungsvariablen zwischen
den Prädiktoren und dem Datei-Indikator erstellen und ins
Regressionsmodell aufnehmen), aber Dein Dozent hat Dir doch
bereits eine von ihm akzeptierte, noch simplere Vorgehensweise
genannt. Ich sage nicht, dass ich die sinnvoll finde, aber dennoch,
warum folgst Du nicht seiner Vorgabe?


Wo ich gerade darüber nachdenke. Ginge es nicht noch "simpler", indem ich einfach einen Datensatz-Dummy hinzunehmen?
Wäre vielleicht ein kleiner Bonus für die BA.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon PonderStibbons » Do 13. Nov 2014, 12:47

Jetzt weiß ich leider nicht, worin der grundlegende Unterschied
zwischen dem Datei-Indikator und einem Datensatz-dummy ist.
Aber Danke für den Hinweis, ich vergaß hinzuschreiben, dass
der Datei-Indikator die Werte 0 und 1 haben sollte, nicht 1 oder 2.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon DHA3000 » Do 13. Nov 2014, 12:56

Naja, da ist kein Unterschied. Aber die Wechselwirkungsvariablen kann man weglassen. bzw. ich habe nicht so ganz verstanden, was das sein soll. ;)
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon PonderStibbons » Do 13. Nov 2014, 13:08

Die Vorgabe war, die Koeffizienten zu vergleichen. So habe
ich das zumindest verstanden. Und ob ein Unterschied des
Einflusses von Variable x1 besteht, je nachdem ob Stichprobe A
der Stichprobe B vorliegt, lässt sich darüber testen, ob die
Wechselwirkung x1 * Datensatzindikator signifikant ist.

Wenn ich's mir recht überlege, kann man sich das auch
weiter vereinfachen und einen online calculator suchen,
der eine comparison between independent regression
coefficients durchführt, sowas in der Art
http://www.danielsoper.com/statcalc3/calc.aspx?id=103

Oder eben die Vorgabe vom Dozenten nehmen.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Vergleich von zwei Datensätzen - Regressionsanalyse (SPS

Beitragvon statnoob » Sa 15. Nov 2014, 21:50

DHA3000 hat geschrieben:
PonderStibbons hat geschrieben:Das wäre nicht so schwer (beide Dateien zusammenfügen, dabei
Datei-Indikator erstellen, Wechselwirkungsvariablen zwischen
den Prädiktoren und dem Datei-Indikator erstellen und ins
Regressionsmodell aufnehmen), aber Dein Dozent hat Dir doch
bereits eine von ihm akzeptierte, noch simplere Vorgehensweise
genannt. Ich sage nicht, dass ich die sinnvoll finde, aber dennoch,
warum folgst Du nicht seiner Vorgabe?


Wo ich gerade darüber nachdenke. Ginge es nicht noch "simpler", indem ich einfach einen Datensatz-Dummy hinzunehmen?
Wäre vielleicht ein kleiner Bonus für die BA.


Erst mal danke für die ausführliche Rückmeldung von euch beiden! Bzgl. Heteroskedastizität beim Vergleich ist ein guter Hinweis.

Wie darf ich das mit dem Datensatz-Dummy verstehen? Was ist demgegenüber ein Datensatzindikator?
Heisst das, ich werfe beide Datensätze zusammen (ist das möglich/sinnvoll?) und prüfe auf Datensatz 1/2 (bzw. 0/1) als Dummy?




Leider bin ich SPSS-mäßig ein ziemlicher Anfänger. Habe die Grundlagen erst im letzten Semester im Rahmen eines Kurses gelernt. Das BA-Thema war ein Vorschlag des Betreuers. Warum ich "quasi-Fragestellung" geschrieben hab: Die exakte Fragestellung steht noch nicht 100%ig fest bzw. ist nicht ganz streng vorgegeben, stehe noch eher am Anfang (zumindest was die Niederschrift betrifft, mit der Auswertung in SPSS bin ich schon fortgeschritten).
Dass eine Regression gar nicht unbedingt nötig ist für den Vergleich der Verteilungen/Datensätze, dem stimme ich zu. Die Vorgabe war jedoch "Vergleich anhand eines Regressionsmodells" - ich denke der Betreuer will auch einfach sehen, ob ich das gut aufstellen, Annahmen prüfen und vergleichen kann. Das Regressionsmodell wird schon das Kernstück meiner Arbeit sein und mein Eindruck ist, dass dies eig. für ihn wesentlich ist (der soziologischer Umbau/Theorie etc. interessiert ihn glaub ich nicht so, da er eher Methodenforscher/-lehrender ist). Deshalb eben die Frage, wie man dieses Modell am besten vergleichen kann, wenn man es auf zwei Datensätze anwendet. Mit dem Gedanken, die von ihm vorgeschlagene Methode (Vergleich der Koeffizientenbänder) zu verwenden freunde ich mich eig. langsam an.

Er hat mir auch noch eine andere Methode vorgeschlagen und mir dazu einen Text gegeben, bei dem ich allerdings nur spanisch verstehe. Er meinte dann aber auch, dass das wohl zu schwierig sei und für eine Bachelorarbeit die andere Methode ausreichend sei. Mein Gedanke war jetzt eben, positiv zu überraschen, indem ich noch eine andere Methode einsetze. Ferner dachte ich eben, hierfür sei unter Fachleuten eine Methode bzw. eine Anwendung in SPSS bekannt, deshalb mein Beitrag hier. Ein paar gute Hinweise hab ich ja jetzt schon erhalten. Vllt blicke ich bei dem Text dann auch doch noch durch, wenn ich mir mal richtig Zeit nehme.
statnoob
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: So 20. Jul 2014, 14:10
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 13 Gäste

cron