Keine-Ahnung-Antwort in die Analyse?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Keine-Ahnung-Antwort in die Analyse?

Beitragvon klaus82 » Mi 20. Feb 2013, 13:47

Liebe Leute,

ich habe zwei ordinalskalierte Variablen:

X: Gehen Sie zur Wahl?
1) Immer 2) Manchmal 3) Nie 4) Keine Ahnung

Y: Fällt ihnen die Entscheidung schwerer als vor 4 Jahren?
1) Schwerer 2) Gleich 3) Leichter

Fragen:

1. Ist es zulässig die 4) Keine Ahnung als "schlimmste Stufe" (hat sich überhaupt noch nicht mit dem Thema auseinandergesetzt) mit in eine ordinale Regression einzubeziehen? Kann man die 4) auch unter 2) einordnen?

2. Kann ich bei Y eine Kategorie 0) Nichtwähler erstellen, sonst würden diese Menschen ja wegfallen?

Lieben Dank für Eure Mühe!

Klaus
klaus82
User
User
 
Beiträge: 47
Registriert: Mi 20. Feb 2013, 13:15
Danke gegeben: 32
Danke bekommen: 0 mal in 0 Post

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon daniel » Mi 20. Feb 2013, 14:25

Allgemein, wirkt das alles sehr konfus auf mich.

Ist es zulässig die 4) Keine Ahnung als "schlimmste Stufe" (hat sich überhaupt noch nicht mit dem Thema auseinandergesetzt) mit in eine ordinale Regression einzubeziehen? Kann man die 4) auch unter 2) einordnen?

Nein. Die Kategorie "weiß nicht" ist in diesem Zusammenhang vollkommen sinnfrei, es sei denn man unterstellt den Befragten ein derat schlechtes Gedächtnis, dass Sie tatsächlich nicht mehr wissen, ob und wann sie wählen waren. Eine "verweigert" Kategorie wäre hier m.E. klüger gewesen, und wenn "weiß nicht" überhaupt etwas anderes bedeutet, als kognitive Überforderung, dann vermutlich eher, dass die Befragten nicht antworten wollen.Die Unterstellung, diese Befragten hätten sich noch nicht mit "dem Thema" befasst, halte ich für extrem unplausibel. Zumal es hier nicht direkt um "das Thema" (ich nehme an, Du meinst politisches Interesse, oder so) geht, sondern schlicht um die retorspektive Erfassung einer Handlung.

Eine Zusammenfassung von denjenigen, die manchmal wählen gehen, mit denjenigen, die sich nicht daran erinnern können halte ich ebenfalsl für kein geeignetes Vorgehen.

mit in eine ordinale Regression einzubeziehen? [...]
Kann ich bei Y eine Kategorie 0) Nichtwähler erstellen, sonst würden diese Menschen ja wegfallen?

Hier scheint mir die größte Verwirrung zu sein. Da Du die Schwierigkeit der Entscheidung als Y bezeichnest, nehme ich an, das dies Dein outcome (abhängige Variable) ist. Hier ist eine ordniale Regression möglicher Weise angebracht. Diese Regression erlaubt aber, wie die lineare, binär logistische, Cox, ... Regression ebnenfalls nur metrische oder binäre Kovariaten (allgemein als x bezeichnet). Deine Wahlhäufigkeit kannst Du also ohenhin nicht als ordinale Kovariate aufnehmen. Die musst Du schon als Set von Indikatorvariablen aufnehmen. Dann kannst Du für die "weiß nicht" Kategorie einen extra Indikator basteln, wenn das für die (nicht berichtete) Forschungsfrage interessant ist.

Die Kategorie "Nichtwähler" ist m.E. äquivalent zu denjenigen, die "nie" wählen gehen. Das wird mit der esrten Frage (X) erfasst, und passt nun absolut nicht in die Skala zur Erfassung der Schwierigkeit der Entscheidungsfindung (Y).
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon klaus82 » Mi 20. Feb 2013, 15:02

Hi Daniel, besten Dank für die rasche Antwort!

Meinst Du mit Indikatorvariablen die dichotomen Dummy-Variablen 0/1? Weißt Du, ob das SPSS nicht automatisch macht?

Das Problem, das ich habe, ist folgendes:

Die Familien, die generell nicht wählen gehen, können ja auch keine Antwort auf Y (AV) geben. Das heißt das Feld bleibt dann als missing value zurück? Wie würdest Du generell die Abhängigkeitsanalyse zwischen Y (AV) und X (UV) angehen?

Könnte ich Dir einmal die beiden Datenreihen für Y und X zum Testen senden?

LG klaus
klaus82
User
User
 
Beiträge: 47
Registriert: Mi 20. Feb 2013, 13:15
Danke gegeben: 32
Danke bekommen: 0 mal in 0 Post

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon daniel » Mi 20. Feb 2013, 16:26

Meinst Du mit Indikatorvariablen die dichotomen Dummy-Variablen 0/1? Weißt Du, ob das SPSS nicht automatisch macht?

Ja, meine ich. Bei binär logistischen können die in SPSS soweit ich erinnere automatisch erstellt werden. Ansonsten sollte aber auch die manuelle Erstellung keine große Hürde darstellen.

Die Familien, die generell nicht wählen gehen, können ja auch keine Antwort auf Y (AV) geben. Das heißt das Feld bleibt dann als missing value zurück?

Wieso? Nicht wählen zu gehen ist doch ebenfalls eine Entscheidung, die mehr oder minder schwer sein kann. Oder Bezieht sich die Entscheidung (Y) auf die zu wählende Partei? Leider sind die Fragen derart unpräzise formuliet, dass ich nicht weiß, was genau damit eigentlich erfasst werden soll. Zudem wäre es sinnoll die Forschungsfrage, Theorie und Hypothesen, sowie Informationen zur Datengrundlage (Woher kommen diese Fragen, Stichprobenziehung, Fallzaheln etc.) zu kennen, um sinnvolle Ratschläge zu geben.

Könnte ich Dir einmal die beiden Datenreihen für Y und X zum Testen senden?

Eher nicht. Das bring Dir eher wenig und mir nichts.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon klaus82 » Mi 20. Feb 2013, 18:22

Hi Daniel,

ich versuch's mit einem anderen Beispiel:

Für N=200 Haushalte soll in der Sahelzone überprüft werden, ob sich die Verfügbarkeit von Brennholz in den letzten 3 Jahren in Abhängigkeit vom Umweltverhalten der Haushalte verbessert hat.

AV ist Verfügbarkeit: 1) Besser 2) Gleichbleibend 3) Schlechter

UV ist Umweltverhalten: 1) Gut 2) Mittelmässig 3) Schlecht 4) Keine Ahnung

1. Kann ich den Einfluß der UV auf die AV mit einer Ordinalen Regression darstellen?

2. Für 4) Keine Ahnung kann ich dann eine weitere Indikatorvariable erstellen?

3. Die Haushalte, die gar kein Feuerholz benutzen, haben zur Verfügbarkeit generell nichts gesagt. Aber das sind doch reale erwartete Fehlwerte (MAR), die man doch nicht einfach als missing values bewerten kann, sie beinhalten doch auch eine Information.

Lieben Dank und hoffentlich ist das Beispiel klarer...

Klaus
klaus82
User
User
 
Beiträge: 47
Registriert: Mi 20. Feb 2013, 13:15
Danke gegeben: 32
Danke bekommen: 0 mal in 0 Post

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon daniel » Mi 20. Feb 2013, 19:39

Kann ich den Einfluß der UV auf die AV mit einer Ordinalen Regression darstellen?

Prinzipiell ja. Kommt darauf an, ob die Annahmen (u.a. proportional odds) erfüllt sind. Ansonsten kommt vielleicht ein Multinomisches Modell in Frage. Bei den geringen Fallztahlen ist bei ML Schätzungen allerdings generell etwas Vorsicht geboten, da die ledigilich asymptotisch tolle Eiegnschaften haben.

Für 4) Keine Ahnung kann ich dann eine weitere Indikatorvariable erstellen?

Könnte sinnvoll sein. Als Referenz würde ich die vermutlich nicht wählen, aber wenn diese Gruppe theoretisch interessant ist, kannst Du die schon ins Modell stecken.

Die Haushalte, die gar kein Feuerholz benutzen, haben zur Verfügbarkeit generell nichts gesagt.

Nichts gesagt, heißt, keine Angabe, oder "weiß nich".

Aber das sind doch reale erwartete Fehlwerte (MAR)

Ich verstehe die Verknüpfung von MAR und "real erwartbare" nicht, v.a. weil ich nicht weiß, was Du mit letzterem Ausdruck meinst.

die man doch nicht einfach als missing values bewerten kann, sie beinhalten doch auch eine Information.

Hier solltest Du Dir zwei Fragen stellen.

1. Verbirgt sich hinter den fehlöenden Werten ein "wahrer", aber unbeobachteter Wert? Bei einem "weiß nicht" könnte man das argumentieren.
2. Fälle bei denen das outcome fehlende Werte aufweist machen die Schätzung nicht besser. Ein mögliches Imputationsmodell kann davon profitieren, aber bei den geringen Fallzahlen, und der dadurch Bedingten begrezten Möglichkeit der Berücksichtigung weiterer Kovariaten in der Schätzung und bei einer möglichen Imputation kann es gut sein, dass es klüger ist, auf diese Fälle zu verzichten.

Inhaltlich scheint mir der Kausalmechanismus eher neblig. Wieso sollte ein umweltbewusstes Verhalten die Verfügbarkeit an Bernnholz beeinflussen? Vielleicht wird das klarer, wenn man eine Defnition der beiden Variablen darlegt. Ist aber vielleicht auch nicht von primärem Interesse hier im Forum.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon klaus82 » Mi 20. Feb 2013, 20:55

Hi Daniel,

umweltbewusstes Verhalten zeichnet sich nicht durch übermässigen Holzschlag aus. Umgekehrt kann Abholzung (kein umweltbewusstes Verhalten) die Verfügbarkeit von Holz doch stark einschränken (Spanien war vor nicht allzu langer Zeit noch stark bewaldet...oder siehe Sahelzone in Afrika).

Die Familien, die kein Holz verwenden haben alle keine Antwort gegeben, wie es um die Verfügbarkeit innerhalb der letzten drei Jahre steht. Wenn ich die als eigene Gruppe auffasse und ihnen eine eigene Kategorie einräume, ergibt die Regression eine signifikante Abhängigkeit vom Umweltverhalten. Trage ich bei den selben Familien ein missing value bei der Verfügbarkeit (UV) ein, ergibt sich ein Nagelkerkes R²=0,12, also ein weniger guter Prädikator.

Kann ich also die Familien, die kein Holz verwenden, mit in die Analyse aufnehmen, indem ich ihnen die Kategorie 0 zuweise? Bei einem missing anstelle von 1= besser 2= gleich und 3= schlechter werden die Familien ohne Feuerholz doch gar nicht in dem Modell berücksichtigt...
klaus82
User
User
 
Beiträge: 47
Registriert: Mi 20. Feb 2013, 13:15
Danke gegeben: 32
Danke bekommen: 0 mal in 0 Post

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon daniel » Mi 20. Feb 2013, 23:57

Trage ich bei den selben Familien ein missing value bei der Verfügbarkeit (UV)

Stop. Ist denn Verfügbarkeit nun outcome (AV), wie zuvor behauptet, oder Prädikator (UV), wie hier behauptet. (Im übrigen einer der Gründe weshalb ich die Bezeichnug Av und UV unmöglich finde -- viel zu anfällig für Tippfehler). Ich gehe weiterhin davon aus, dass es sich dabei um das outcome, die zu erklärende, endogene Variable handelt.

umweltbewusstes Verhalten zeichnet sich nicht durch übermässigen Holzschlag aus. Umgekehrt kann Abholzung (kein umweltbewusstes Verhalten) die Verfügbarkeit von Holz doch stark einschränken (Spanien war vor nicht allzu langer Zeit noch stark bewaldet...oder siehe Sahelzone in Afrika).

Das Problem, das ich bei der Prüfung dieser Hypothese auf Basis von Individualdaten im Querschnitt sehe, ist dass es ebenfalls plausibel ist (wenn nicht gar plausibler), dass die Befragten deshalb weniger Holz verbrennen, weil sie glauben, es sei weniger verfügbar. Besser wäre es die Verfügbarkeit aus amtlichen daten zuzuspielen. Aber sei es drum.

Die Familien, die kein Holz verwenden haben alle keine Antwort gegeben, wie es um die Verfügbarkeit innerhalb der letzten drei Jahre steht. Wenn ich die als eigene Gruppe auffasse und ihnen eine eigene Kategorie einräume, ergibt die Regression eine signifikante Abhängigkeit vom Umweltverhalten.

Was heißt "eine Kategorie einraüme[n]"? Multinomisch schätzen? Dann kannst du es vermutlich machen.

Trage ich bei den selben Familien ein missing value bei der Verfügbarkeit (UV) ein, ergibt sich ein Nagelkerkes R²=0,12, also ein weniger guter Prädikator.

Pseudo-Rs sind für Deine Analysen m.E. nichtssagend. Du willst Dir die z-Werte und Signifikanztests der Koeffizienten ansehen.

Kann ich also die Familien, die kein Holz verwenden, mit in die Analyse aufnehmen, indem ich ihnen die Kategorie 0 zuweise? Bei einem missing anstelle von 1= besser 2= gleich und 3= schlechter werden die Familien ohne Feuerholz doch gar nicht in dem Modell berücksichtigt...

Wie gesagt, wenn Du ein multinominales logistisches Modell schätzt, dann im Prinzip schon. Ob das sinnvoll ist, ist eine inhaltliche Frage. Welchen wert Du dann zuweist, ist egal. Das istaber der Grund, weshalb es ordinal unter keinen Umständen geht. Du kannst dann nicht einfach eine Null einsetzen. Damit implizierst Du, dass diese Personen die Verfügbarkeit besser als "1 = besser" bewerten. Wie willst Du das rechtfertigen? Ebensogut könntest Du 42 einsetzen und die Ordnung so umkehren - bekommst Du dann die gleichen Ergebnisse?

Wenn Du das Modell multinomisch schätzt, kannst Du das mache. Aber ordinal geht das unter keinen Umständen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon klaus82 » Do 21. Feb 2013, 08:40

Hi Daniel,

vielen Dank für Deine dicke Hilfe und den Einsatz!

Liesse sich denn folgende Reihenfolge als ordinal rechtfertigen?

0) Kein Feuerholz 1) Schwerer zu bekommen 2) Gleichbleibend 3) Besser zu bekommen


Wenn ich richtig verstanden habe, wäre

1) Sehr gut 2) Mittelmässig 3) Schlecht 4) Keine Ahnung

alleine durch die "4) Keine Ahnung" nicht mehr ordinal skaliert?

Aber wie behandle ich den 4) nun?

1. Zusammen mit den anderen als nominal?
2. Als missing, also weglassen
3. Als 2) Mittelmäßig, weil es ja genauso unbestimmt ist wie 2) Mittelmässig
4. Fasse ich die Kategorien in eine dichotome Variable um? Alle guten 1 und alles andere 0
klaus82
User
User
 
Beiträge: 47
Registriert: Mi 20. Feb 2013, 13:15
Danke gegeben: 32
Danke bekommen: 0 mal in 0 Post

Re: Keine-Ahnung-Antwort in die Analyse?

Beitragvon daniel » Do 21. Feb 2013, 12:24

Liesse sich denn folgende Reihenfolge als ordinal rechtfertigen?

0) Kein Feuerholz 1) Schwerer zu bekommen 2) Gleichbleibend 3) Besser zu bekommen

Eher nicht.

Aber wie behandle ich den 4) nun?

1. Zusammen mit den anderen als nominal?
2. Als missing, also weglassen
3. Als 2) Mittelmäßig, weil es ja genauso unbestimmt ist wie 2) Mittelmässig
4. Fasse ich die Kategorien in eine dichotome Variable um? Alle guten 1 und alles andere 0

Möglichkeiten 1 und 2 sind akzeptabel.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 6 Gäste

cron