Interaktonseffekte und Missing Values

Alle Verfahren der Regressionanalyse.

Interaktonseffekte und Missing Values

Beitragvon Nerd » Sa 22. Apr 2017, 14:33

Hallo zusammen,

ich möchte den Effekt mehrerer ordinal skalierter Variablen auf eine abhängige ordinalskalierte (alle 5er Skala) Variable untersuchen und Interaktionen berücksichtigen. Dabei stammen alle Variablen aus Filterfragen einer Befragung und je Fall haben nur einzelne Variablen gültige Werte. Sprich, wenn sich Befragte nicht für einen bestimmten Aspekt interessiert haben, haben sie diesen nicht bewertet und die verwendete unabhängige Variable (zur Bewertung) ist NA. Ich muss also bei allen Variablen fehlende Werte berücksichtigen.

Ich schätze ein lineares Regressionsmodell, wobei natürlich nur die Fälle mit gültigen Werten für die AV verwendet werden. Die unabhängigen Variablen habe ich der Übersichtlichkeit halber in Dummies zerlegt: Low Box: untere 3 Stufen der 5er Skala, Top Box: obere 2 Stufen der Skala (4&5) und NA = fehlender Wert. Damit kann ich alle Fälle ohne NA in der AV verwenden. Nun möchte ich die UVs interagieren, weil ich weiß, dass sie korreliert sind. Am einfachsten wäre es alle möglichen Interaktionen aufzunehmen. Habe ca. 600 gültige Fälle und 18 UV, sprich 36 Dummies im Modell (low Box Dummy als Referenzkategorie).
Nun die Fragen: Muss ich die NA-Dummies im Modell auch mit allen Variablen interagieren?
Kann ich die Interaktionsterme für Variablen, die nur schwach mit den anderen UV korreliert sind, auslassen? Möchte mir Arbeit bei der Interpretation sparen ;)

Vielen Dank für eure Hilfe!
Nerd
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 22. Apr 2017, 14:14
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Interaktonseffekte und Missing Values

Beitragvon PonderStibbons » Sa 22. Apr 2017, 19:41

Ich schätze ein lineares Regressionsmodell,

Wie soll das gehen, Du schriebst, doch, die abhängige Variable sei ordinal skaliert.
Die unabhängigen Variablen habe ich der Übersichtlichkeit halber in Dummies zerlegt:

Wenn sie, wie Du schreibst, ordinal sind, musst Du es ohnedies tun, unabhängig von Übersichtlichkeit.
Low Box: untere 3 Stufen der 5er Skala, Top Box: obere 2 Stufen der Skala (4&5)

Wieso Dichotomisierung, wenn man sich erst die Mühe gemacht hat, ein ordinales Item
zu erheben? Worum geht es denn überhaupt inhaltlich hier und lassen sich Items
gegegebenfalls zusammenfassen? 18 solcher Prädiktoren, das wirkt normalerweise etwas
überdimensioniert .
Nun möchte ich die UVs interagieren, weil ich weiß, dass sie korreliert sind.

Was hat das eine mit dem anderen zu tun?
Am einfachsten wäre es alle möglichen Interaktionen aufzunehmen.

Was ist daran einfach? Schon bei 18 dichotomen Variablen (d.h. 18 dummy-Variablen für die Nicht-
Referenzkategorie; eigentlich sollten Deine Variablen sogar in 4 dummies umgewandet werden)
wären das bereits 153 Interaktions-Variablen. Abgesehen davon, dass so ein Modell weder sinnvoll herleitbar
noch interpretierbar erscheint, brauchst Du dann eine mindestens vierstellige Stichprobengröße.
Nun die Fragen: Muss ich die NA-Dummies im Modell auch mit allen Variablen interagieren?

Fehlender Wert ist fehlender Wert, was haben die entsprechenden Fälle noch in der Analyse zu suchen?
Oder behandelst einen fehlenden Wert etwa als einen Prädiktor? Das wäre ausgesprochen eigenartig.
Hast Du eine Referenz dafür?
Kann ich die Interaktionsterme für Variablen, die nur schwach mit den anderen UV korreliert sind, auslassen?

Nochmal, was hat das eine mit dem anderen zu tun? Interaktionen werden inhaltlich begründet.
Und vorzugsweise sollten die beteiligten Variablen UNkorreliert sein (müssen es aber nicht).

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Nerd

Re: Interaktonseffekte und Missing Values

Beitragvon Nerd » So 23. Apr 2017, 12:52

Vielen Dank für die Antwort! Hier noch ein paar Anmerkungen zu deiner Antwort.

PonderStibbons hat geschrieben:
Ich schätze ein lineares Regressionsmodell,

Wie soll das gehen, Du schriebst, doch, die abhängige Variable sei ordinal skaliert.

Ja, strenggenommen kann man das nur bei metrischen AV schätzen, aber wird ja teils auch bei ordinalen AV gemacht. Mit einem logistischen Modell für eine dichotomisierte AV würde ich weniger Information verwenden.
PonderStibbons hat geschrieben:
Die unabhängigen Variablen habe ich der Übersichtlichkeit halber in Dummies zerlegt:

Wenn sie, wie Du schreibst, ordinal sind, musst Du es ohnedies tun, unabhängig von Übersichtlichkeit.
Low Box: untere 3 Stufen der 5er Skala, Top Box: obere 2 Stufen der Skala (4&5)

Wieso Dichotomisierung, wenn man sich erst die Mühe gemacht hat, ein ordinales Item
zu erheben? Worum geht es denn überhaupt inhaltlich hier und lassen sich Items
gegegebenfalls zusammenfassen? 18 solcher Prädiktoren, das wirkt normalerweise etwas
überdimensioniert .

Mich interessiert in diesem Fall nur gute oder schlechte Bewertung. Und somit habe ich weniger Variablen zu interpretieren. Hier geht es um Aspekte einer Website im Rahmen von Onlineforschung. Die Frage ist, wie die Bewertung eines Aspektes von der Bewertung anderer Aspekte abhängt. Variablen kann ich hier nicht zusammenfassen.
PonderStibbons hat geschrieben:
Nun möchte ich die UVs interagieren, weil ich weiß, dass sie korreliert sind.

Was hat das eine mit dem anderen zu tun?
Am einfachsten wäre es alle möglichen Interaktionen aufzunehmen.

Was ist daran einfach? Schon bei 18 dichotomen Variablen (d.h. 18 dummy-Variablen für die Nicht-
Referenzkategorie; eigentlich sollten Deine Variablen sogar in 4 dummies umgewandet werden)
wären das bereits 153 Interaktions-Variablen. Abgesehen davon, dass so ein Modell weder sinnvoll herleitbar
noch interpretierbar erscheint, brauchst Du dann eine mindestens vierstellige Stichprobengröße.

Das Modell mit 4 Dummies ist zu unübersichtlich zu interpretieren. Das Problem ist, dass ich hier erst rausfinden will welche Variablen interagieren. Dazu interagiere ich alles. Leider umfasst meine Stichprobe nur etwa 600 Fälle, bzw. ist sie in einem anderen Modell etwa doppelt so groß.

Nun die Fragen: Muss ich die NA-Dummies im Modell auch mit allen Variablen interagieren?

PonderStibbons hat geschrieben:Fehlender Wert ist fehlender Wert, was haben die entsprechenden Fälle noch in der Analyse zu suchen?
Oder behandelst einen fehlenden Wert etwa als einen Prädiktor? Das wäre ausgesprochen eigenartig.
Hast Du eine Referenz dafür?

Ein oft angewendetes Verfahren ist es doch, fehlende Werte als Dummies zu kodieren und als Prädiktor aufzunehmen. Sonst müsste ich alternative Lösungen für die Behandlung der fehlenden Werte finden. Ich kann die NAs nicht einfach rausschmeißen, weil ich dann nur noch mit Fällen rechnen könnte, die in allen Variablen gültige Fälle haben. Damit würde ich den Großteil meiner Stichprobe verlieren. Die NA Ausprägung interagiere ich nicht, weil ich keine sinnvolle Aussage über die Interaktion herleiten kann.

Kann ich die Interaktionsterme für Variablen, die nur schwach mit den anderen UV korreliert sind, auslassen?

PonderStibbons hat geschrieben:Nochmal, was hat das eine mit dem anderen zu tun? Interaktionen werden inhaltlich begründet.
Und vorzugsweise sollten die beteiligten Variablen UNkorreliert sein (müssen es aber nicht).

Ok ich dachte ich könnte mit Interaktionen auch Korrelationen der UVs untereinander abdecken.
Nerd
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 22. Apr 2017, 14:14
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Interaktonseffekte und Missing Values

Beitragvon strukturmarionette » So 23. Apr 2017, 13:40

Hi,

Mit einem logistischen Modell für eine dichotomisierte AV würde ich weniger Information verwenden.

- das war m.E. nicht gemeint.

Website im Rahmen von Onlineforschung. Die Frage ist, wie die Bewertung eines Aspektes von der Bewertung anderer Aspekte abhängt. Variablen kann ich hier nicht zusammenfassen.

- dann geht das gar nicht.

Leider umfasst meine Stichprobe nur etwa 600 Fälle, bzw. ist sie in einem anderen Modell etwa doppelt so groß.

- hmm?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

folgende User möchten sich bei strukturmarionette bedanken:
Nerd

Re: Interaktonseffekte und Missing Values

Beitragvon Nerd » So 23. Apr 2017, 14:28

strukturmarionette hat geschrieben:Hi,

Mit einem logistischen Modell für eine dichotomisierte AV würde ich weniger Information verwenden.

- das war m.E. nicht gemeint.

Website im Rahmen von Onlineforschung. Die Frage ist, wie die Bewertung eines Aspektes von der Bewertung anderer Aspekte abhängt. Variablen kann ich hier nicht zusammenfassen.

- dann geht das gar nicht.

Leider umfasst meine Stichprobe nur etwa 600 Fälle, bzw. ist sie in einem anderen Modell etwa doppelt so groß.

- hmm?

Gruß
S.


Was ich genau meinte mit der Stichprobe: sie umfasst insgesamt ca. 1100 Fälle. Für mein erstes Modell, bei dem ich die Effekte der Bewertung verschiedener Aspekte der Website auf einen anderen Aspekt untersuche, habe ich durch die Filterführung bei der AV nur ca. 600 Fälle. Bei einem anderen Modell, bei dem ich den Effekt der Aspekte auf die Zufriedenheit allgemein untersuche, habe ich alle 1100 Fälle. Wie groß sollte die Zahl aufgenommener Variablen maximal sein, damit meine Modelle mit meiner Anzahl Fälle noch zu rechnen sind?
Nerd
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 22. Apr 2017, 14:14
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Interaktonseffekte und Missing Values

Beitragvon PonderStibbons » So 23. Apr 2017, 14:44

Ja, strenggenommen kann man das nur bei metrischen AV schätzen, aber wird ja teils auch bei ordinalen AV gemacht. Mit einem logistischen Modell für eine dichotomisierte AV würde ich weniger Information verwenden.

Es gibt die ordinale logistische Regression für k > 2 Stufen.

Hier geht es um Aspekte einer Website im Rahmen von Onlineforschung. Die Frage ist, wie die Bewertung eines Aspektes von der Bewertung anderer Aspekte abhängt. Variablen kann ich hier nicht zusammenfassen.

Wie das mit dem gewählten Auswertungsdesign zu beantworten sein sollte, kann
ich zwar nicht erkennen, aber es mag so sein. Man könnte normalerweise über eine
Faktorenanalyse nachdenken, um die 18 Variablen auf wenige Dimensionen zu
reduzieren, anscheinend gibt es ja auch relevante Korrelationen zwischen den
Variablen.

Das Modell mit 4 Dummies ist zu unübersichtlich zu interpretieren. Das Problem ist, dass ich hier erst rausfinden will welche Variablen interagieren. Dazu interagiere ich alles. Leider umfasst meine Stichprobe nur etwa 600 Fälle, bzw. ist sie in einem anderen Modell etwa doppelt so groß.

Ein Modell mit fast 200 Variablen bei gerade mal 600 Fällen ist wenig überzeugend.

Ein oft angewendetes Verfahren ist es doch, fehlende Werte als Dummies zu kodieren und als Prädiktor aufzunehmen.

Wer macht denn sowas? Würde mich konkret interessieren, bisher habe ich das
noch nie gesehen, alenfalls mal in der Literatur über die Behandlung fehlender
Werte als unsinnig beschrieben gefunden. Ich wüsste auch nicht im Ansatz, welche
sinnvollen Resultate das bringen könnte.
Sonst müsste ich alternative Lösungen für die Behandlung der fehlenden Werte finden.

Imputation halt. Oder selbst zufällige Ersetzung durch Losverfahren wäre
nachvollziehbar.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Nerd

Re: Interaktonseffekte und Missing Values

Beitragvon Nerd » So 23. Apr 2017, 15:19

PonderStibbons hat geschrieben:
Ja, strenggenommen kann man das nur bei metrischen AV schätzen, aber wird ja teils auch bei ordinalen AV gemacht. Mit einem logistischen Modell für eine dichotomisierte AV würde ich weniger Information verwenden.

Es gibt die ordinale logistische Regression für k > 2 Stufen.

Hier geht es um Aspekte einer Website im Rahmen von Onlineforschung. Die Frage ist, wie die Bewertung eines Aspektes von der Bewertung anderer Aspekte abhängt. Variablen kann ich hier nicht zusammenfassen.

Wie das mit dem gewählten Auswertungsdesign zu beantworten sein sollte, kann
ich zwar nicht erkennen, aber es mag so sein. Man könnte normalerweise über eine
Faktorenanalyse nachdenken, um die 18 Variablen auf wenige Dimensionen zu
reduzieren, anscheinend gibt es ja auch relevante Korrelationen zwischen den
Variablen.

Ich möchte prüfen, ob einzelne Aspekte einen Effekt auf die Bewertung des als AV verwendeten Aspektes haben, bzw. Treiber sind. Weil ich den Effekt aller einzelnen Aspetkte wissen will, kann ich sie nicht in Faktoren zusammenfassen. Ich mache also eine Treiberanalyse und nutze dafür eine Regression. Ja es gibt Korrelationen zwischen den UVs. Meine VIF Werte sind jedoch unter 5.

PonderStibbons hat geschrieben:
Das Modell mit 4 Dummies ist zu unübersichtlich zu interpretieren. Das Problem ist, dass ich hier erst rausfinden will welche Variablen interagieren. Dazu interagiere ich alles. Leider umfasst meine Stichprobe nur etwa 600 Fälle, bzw. ist sie in einem anderen Modell etwa doppelt so groß.

En Modell mit fast 200 Variablen bei gerade mal 600 Fällen ist wenig überzeugend.

Wie viele Variablen sollte ich maximal aufnehmen? Wenn ich 600 Fälle zur Verfügung habe? Und wenn ich 1100 Fälle habe?

PonderStibbons hat geschrieben:
Ein oft angewendetes Verfahren ist es doch, fehlende Werte als Dummies zu kodieren und als Prädiktor aufzunehmen.

Wer macht denn sowas? Würde mich konret interessieren, bisher habe ich das
noch nie gesehen, alenfalls mal in der Literatur über die Behandlung fehlender
Werte als unsinig beschrieben gefunden. Ich wüsste auch nicht im Ansatz, welche
sinnvollen Resultate das bringen könnte.
Sonst müsste ich alternative Lösungen für die Behandlung der fehlenden Werte finden.

Imputation halt. Oder selbst zufällige Ersetzung durch Losverfahren wäre
nachvollziehbar.

Imputation leuchtet mir ein, aber dann müsste ich ja für einige Variablen einige Fälle "erfinden". Ich denke das würde hier nicht funktionieren.
Nerd
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 22. Apr 2017, 14:14
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Interaktonseffekte und Missing Values

Beitragvon PonderStibbons » So 23. Apr 2017, 16:33

Wie viele Variablen sollte ich maximal aufnehmen? Wenn ich 600 Fälle zur Verfügung habe? Und wenn ich 1100 Fälle habe?

20 Fälle pro Variable wären gut, in etwa 10 sollten es wohl auf jeden Fall sein.
Imputation leuchtet mir ein, aber dann müsste ich ja für einige Variablen einige Fälle "erfinden". Ich denke das würde hier nicht funktionieren.

Ich weiß leider nicht, was Du meinst.

Und ich hatte konkret danach gefragt, wer dieses Deiner Darstellung nach oft
angewendetete Verfahren beispielsweise angewendet hat, irgndwelche
empirischen Studien mit diesem Verfahren müsste es dann ja geben.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Nerd

Re: Interaktonseffekte und Missing Values

Beitragvon Nerd » So 23. Apr 2017, 17:13

Danke für deine Tipps!

Mein Problem mit Imputation ist, dass ich pro Variable sehr viele Fälle imputieren müsste. Auch wenn ich die fehlenden Werte mit einem geeigneten Verfahren schätze, hätte ich dann ja viele Werte für meine Analyse einfach "neu" erzeugt. Weglassen kann ich Fälle oder Variablen mit fehlenden Werten auch nicht, da ich dann zu wenig Fälle zum analysieren habe. Eine konkrete Quelle für die Methode habe ich leider nicht bei der Hand. Aber was spricht dagegen?
Nerd
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 22. Apr 2017, 14:14
Danke gegeben: 5
Danke bekommen: 0 mal in 0 Post

Re: Interaktonseffekte und Missing Values

Beitragvon PonderStibbons » So 23. Apr 2017, 18:09

Mein Problem mit Imputation ist, dass ich pro Variable sehr viele Fälle imputieren müsste.

Das machen die statistischen Algorithmen doch in einem Aufwasch, egal ob 2 oder 200 fehlende Werte.
Auch wenn ich die fehlenden Werte mit einem geeigneten Verfahren schätze, hätte ich dann ja viele Werte für meine Analyse einfach "neu" erzeugt.

Die werden geschätzt, das ist ein Unterschied. Und das ist besser als a) weglassen oder b) fehlende Werte als Kategorie zu definieren.
Eine konkrete Quelle für die Methode habe ich leider nicht bei der Hand. Aber was spricht dagegen?

Du wirst keine konkrete seriöse Quelle finden, weil das niemand seriöses so macht. Es ist schlicht und einfach einfach Unfug. Aber wenn Deine Abnehmer das goutieren, so sei es.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Nerd

Nächste

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron