Ungleiche Geschlechterverteilung als Kontrollvariablen rein?

Alle Verfahren der Regressionanalyse.

Ungleiche Geschlechterverteilung als Kontrollvariablen rein?

Beitragvon Carol1234 » Mo 28. Jun 2021, 18:34

Hallo :) kurz zum Hintergrund:

Ich möchte eine multiple logistische Regression rechnen mit einem Prädiktor und mehreren Interaktionsvariablen, sowie vorher theoretisch festgelegten Kontrollvariablen. Bei der Forschungsfrage geht es darum, dass Nudges einen positiven Einfluss auf das nachhaltige Kaufverhalten haben sollen (Abhängige Variable: Kauf eines nachhaltigen Produktes Ja/Nein). Dazu habe ich auch die Nachhaltigkeit mittels einer erprobten Skala erhoben.

Nun ist es so, dass meine Stichprobe eine sehr seltsame Geschlechterverteilung hat, denn es haben 70% Frauen daran teilgenommen und die sind sehr nachhaltig. Dementsprechend kaufen selbst in der Kontrollgruppe viele das nachhaltige Produkt. Ich habe auch bereits einen T-Test gemacht und der Unterschied bezüglich der Nachhaltigkeitseinschätzung unterscheidet sich sig. zwischen Frauen und Männern.

Muss ich das Geschlecht nun als Kontrollvariable mit in die logistische Regression aufnehmen? Das Problem ist, dass ich bereits 19 Variablen (Prädiktoren, Kontrollvariablen, Interaktionsvariablen) im Modell drin habe und meine Stichprobe sich nur auf 280 Personen beläuft. Ich will das Modell auch nicht zu vollladen und damit künstlich das R2 erhöhen.

Eine andere Sache sind außerdem die Ausreißer (standardisierte Residuen). Wenn ich welche ausschließe und dann wieder eine Regression rechne, dann habe ich wieder neue Ausreißer. Wann erreicht man da eine Grenze?? Die Meinungen gehen da irgendwie sehr auseinander. Die einen sagen, man muss Ausreißer auch logisch begründen und nicht nur statistisch. Andere wiederum meinen alle st. Residuen größer 3 müssen auf jeden Fall raus, da das sonst gegen die Voraussetzungen der Regression verstößt. Soll man sie nun rausnehmen oder nicht?

Hoffe das ist verständlich und bin für jede Hilfe dankbar :)
Carol1234
Beobachter
Beobachter
 
Beiträge: 15
Registriert: Sa 17. Feb 2018, 19:20
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Ungleiche Geschlechterverteilung als Kontrollvariablen r

Beitragvon PonderStibbons » Mo 28. Jun 2021, 19:25

Wenn sich Geschllecht in Experimental- und Kontrollgruppe in etwa ähnlich verteilt,
hast Du doch keine Konfundierung. Ich schätze mal, das war sowieso randomisiert?

"Ausreißer" lässt man drin.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Carol1234

Re: Ungleiche Geschlechterverteilung als Kontrollvariablen r

Beitragvon Carol1234 » Di 29. Jun 2021, 08:41

Lieben Dank für die Antwort :)

Sie sind in etwas gleich verteilt und es wurde randomisiert, aber die Ergebnisse der Regression fallen ganz anders aus, wenn ich sie als KV reinnehme.

Wieso steht dann in jedem Lehrbuch als Voraussetzung das Ausreißer raus sollen und mein Betreuer meinte das auch? :?
Carol1234
Beobachter
Beobachter
 
Beiträge: 15
Registriert: Sa 17. Feb 2018, 19:20
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Ungleiche Geschlechterverteilung als Kontrollvariablen r

Beitragvon PonderStibbons » Di 29. Jun 2021, 13:28

Sie sind in etwas gleich verteilt und es wurde randomisiert, aber die Ergebnisse der Regression fallen ganz anders aus, wenn ich sie als KV reinnehme.

Der Gruppeneffekt dreht sich um?
Wieso steht dann in jedem Lehrbuch als Voraussetzung das Ausreißer raus sollen und mein Betreuer meinte das auch?

In meinen steht das nicht. Aber in solchen Situationen geben die benotenden Personen den Ausschlag.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Ungleiche Geschlechterverteilung als Kontrollvariablen r

Beitragvon bele » Sa 10. Jul 2021, 20:29

Hallo zusammen,

also mir kommt das komisch vor, das Geschlecht nicht mit ins Modell aufzunehmen, wenn das Geschlecht erhebliche Varianzaufklärung verspricht. Ob da nun 19 oder 20 Prädiktoren im Modell sind erscheint mir weniger wichtig als der Einschluss eines inhaltlich voll plausiblen und präzise erhobenen Prädiktors.

Was das Löschen der Ausreißer angeht, da sollte man sich zunächst inhaltliche Gedanken machen, wo die her kommen und welche Bedeutung die für die Fragestellung haben könnten (mein Standardbeispiel dazu findest Du in der Suchfunktion mit dem Suchbegriff "Fukushima"). Wenn gelehrt und gefordert sein sollte, alle Beobachtungen zu löschen, deren standardisierte Residuen mehr als x betragen, dann ist das ganz bestimmt nicht iterativ gemeint -- also keinesfalls immer wieder neu anzuwenden.

Zu behaupten, etwas stünde "in jedem Lehrbuch" erfordert die Lektüre sehr vieler Lehrbücher! Für eine ausführliche und abwägende Darstellung siehe beispielsweise https://www.analyticsvidhya.com/blog/20 ... -outliers/ oder zitierbar
Statistical and computational methods have been proposed to detect outliers, but further analysis of outliers requires much relevant domain knowledge.
aus: Xiaohui Liu, Gongxian Cheng and J. X. Wu, "Analyzing outliers cautiously," in IEEE Transactions on Knowledge and Data Engineering, vol. 14, no. 2, pp. 432-437, March-April 2002, doi: 10.1109/69.991726.
Vielleicht auch
Given that the identification of a point as an outlier is not, in itself, grounds for exclusion, the questions that must be answered is when an outlying observation can be rejected legitimately. When individuals admit inattention during data collection, or acknowledge providing dishonest responses, the decision to delete outliers is straightforward. It is only troubling to delete them when the basis for the aberrance cannot be understood, and then the decision is the most difficult.
aus https://files.eric.ed.gov/fulltext/ED427059.pdf
oder
Thus Rousseeuw and van Zomeren write, "In addition, we do not necessarily want to delete the outliers; it is only our purpose to find them, after which the user may decide whether they are to be kept, deleted, or corrected, depending on the situation" (p. 634). Although any reasonable person would correct an outlier if it was known to be erroneous, there are certainly other ways to accommodate the remaining outliers besides either keeping or deleting them and then applying classical methods

im Kommentar in https://shibbolethsp.jstor.org/start?en ... site=jstor (Seite 644) (Kommentar zu Cook, R., & Hawkins, D. (1990). Unmasking Multivariate Outliers and Leverage Points: Comment. Journal of the American Statistical Association, 85(411), 640-644. doi:10.2307/2289996)

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Ungleiche Geschlechterverteilung als Kontrollvariablen r

Beitragvon strukturmarionette » So 11. Jul 2021, 13:37

Hi,

- was ist und misst deine erprobte Skala?
- Quelle?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Ungleiche Geschlechterverteilung als Kontrollvariablen r

Beitragvon Holgonaut » Mo 12. Jul 2021, 09:43

Bernhard,

a) zumindest empfiehlt sich m.E. eine sensitivity analyse. Wenn ein Ergebnis an einem/ein paar outliern hängt, sollte das klar werden
b) Ich kenn mich nicht aus, aber könnte bootstrapping eine Lösung sein?
c) Was ist mit robust regression? Wikipedia nennt das als ein Ziel: https://en.wikipedia.org/wiki/Robust_regression

Grüße
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

Re: Ungleiche Geschlechterverteilung als Kontrollvariablen r

Beitragvon bele » Mo 12. Jul 2021, 10:34

Hallo Holger,

Holgonaut hat geschrieben:Bernhard,

ging das jetzt bewusst an mich, oder an Carol?

a) zumindest empfiehlt sich m.E. eine sensitivity analyse. Wenn ein Ergebnis an einem/ein paar outliern hängt, sollte das klar werden


Das erscheint mir an sinnvollsten. Regression mit Outlier-Entfernung und ohne Outlier-Entfernung rechnen. Wenn die Ergebnisse gleichartig sind, dann sind alle beruhigt, wenn nicht, dann weiß man, dass man der Outlier-Diskussion große Aufmerksamkeit schenken muss. Habe ich das so richtig verstanden?

b) Ich kenn mich nicht aus, aber könnte bootstrapping eine Lösung sein?


Du kennst Dich bestimmt in allen Bereichen der Statistik besser aus als ich. Aber wenn gelehrt wurde, dass eine lineare Regression mit Ausreißern nicht durchgeführt werden dürfte, was bringt es dann, sie 500 Mal mit Bootstrap-Samples zu rechnen, die jeweils einen zufälligen Anteil dieser Ausreißer enthalten? Sollte es dann nicht 500 Mal verboten sein, das Verfahren anzuwenden?

c) Was ist mit robust regression? Wikipedia nennt das als ein Ziel: https://en.wikipedia.org/wiki/Robust_regression


Das dürfte bei meiner Quelle gemeint sein die schreibt "there are certainly other ways to accommodate the remaining outliers besides either keeping or deleting them...". Auch da kenne ich mich unzureichend aus. Mein Eindruck ist: Es gibt gute Standardverfahren in der Statistik mit denen sehr viele Probleme adäquat angegangen werden können. Wer sie nicht anwendet und stattdessen auf ausgefallene Sondermethoden ausweicht sollte dafür eine Begründung liefern. Wir wissen hier nicht, wieviele Ausreißer vorliegen und ich habe generell ein Problem mit dem Verständnis des Begriffs Ausreißer in diesem Kontext: Wir haben hier eine logistische Regression und Ausreißer sagt doch nur, dass jemand sich nicht für den Kauf sogenannter nachhaltiger Produkte entschieden hat, obwohl die Vorhersage aus 19 Prädiktoren was anderes vorhergesagt hat.
Was ist denn da der Unterschied zwischen "viele Ausreißer" und "schlecht fittendes Modell"?

JMTC,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Ungleiche Geschlechterverteilung als Kontrollvariablen r

Beitragvon Carol1234 » So 19. Sep 2021, 23:13

Hallo, die Diskussion ist zwar schon ein wenig älter und mithin auch überfällig, aber falls es jemandem in der Zukunft hilft. Es waren lediglich 11 "Ausreißer" die ich ausgeschlossen habe, die mitunter schon nach der ersten Regression hohe Standardabweichungen hatten, aber eben noch unter 2 lagen und erst bei der zweiten Rechnung angestiegen sind, deshalb ist es in diesem Fall wohl möglich das so anzugehen. Außerdem haben sie Teilnehmer wirklich unlogische Antworten geliefert, was man aufgrund der vielen Variablen entschlüsseln konnte. Aufgrund der kleinen Stichprobe haben sich dieser TN besonders stark auf die Regression ausgewirkt, was zu einer Verzerrung geführt hat und deshalb war es für den Prof ok, dass ich sie ausschließe.
Carol1234
Beobachter
Beobachter
 
Beiträge: 15
Registriert: Sa 17. Feb 2018, 19:20
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste