Multiple vs. mehrere einfache Regressionen

Alle Verfahren der Regressionanalyse.

Multiple vs. mehrere einfache Regressionen

Beitragvon JohannaSch » So 7. Jan 2018, 15:37

Hallo!
Ich möchte in einer Stichprobe (N etwa 160) explorativ den Einfluss von verschiedenen Gewaltkontextbedingungen (7 UV, nominal- o. intervallskaliert, kleine bis mittlere Interkorrelationen) auf den Grad der posttraumatischen Belastung überprüfen. Das Problem ist, dass inhaltlich nicht alle Variablen von allen Probanden beantwortet werden konnten bzw. in Frage kamen, weshalb der kleinste gemeinsame Nenner des multiplen Regressionsmodells N = 65 ist, was natürlich die Power begrenzt. Wie geht man in diesem Fall am besten damit um..

1) Anzahl der UV reduzieren, aber bei einer multiplen Regression bleiben?
1a) Falls ja, ist ohne Vorannahmen simultane oder schrittweise (backward-elimination o. forward-selection) Eingabe angesagt?

2) Mehrere einzelne Regressionen (je UV) rechnen?
2a) Ist eine Korrektur für Mehrfachtestung bei explorativem Testen ohne Vorannahmen nötig oder nicht?

Ich freu mich auf Eure Hilfe!!

Viele Grüße,
Johanna
JohannaSch
User
User
 
Beiträge: 34
Registriert: Fr 31. Jan 2014, 12:08
Danke gegeben: 14
Danke bekommen: 0 mal in 0 Post

Re: Multiple vs. mehrere einfache Regressionen

Beitragvon bele » So 7. Jan 2018, 16:12

Hallo Johanna,

für diese Fragen gibt es nicht die eine richtige Antwort, sondern nur die sorgfältige Abwägung, was für Deine Forschungsfragestellung die besten Antworten ermöglicht.

JohannaSch hat geschrieben:Wie geht man in diesem Fall am besten damit um..

1) Anzahl der UV reduzieren, aber bei einer multiplen Regression bleiben?

Eine multiple Regression ist in der Regel die bessere. Die Gefahr, bei Einzelregressionen Scheinkorrelationen auf den Leim zu gehen, möchtest Du vermeiden. Vielleicht kann man an den n=65 ja noch was machen? Wenn nominale Antworten nicht gegeben wurden, kann man vielleicht eine neue Antwortkategorie "keine Antwort" einführen? Wenn verhältnnisskalierte Variablen nicht in Frage kamen, kann man vielleicht argumentieren, dass man sie in solchen Situationen auf Null oderr eins setzt? Wenn sich diesbezüglich keine inhaltliche Argumentation finden lässt, kann man über eine Imputation nachdenken, wenn sonst zuviele Informationen aus den anderen UVs verloren gingen.

1a) Falls ja, ist ohne Vorannahmen simultane oder schrittweise (backward-elimination o. forward-selection) Eingabe angesagt?

Die überwiegende Meinung im Foru m scheint zu sein, dass schrittweise nie angesagt ist, oder wenn, dann nur als hypothesenfindendest, nicht -beantwortendes Verfahren.

2a) Ist eine Korrektur für Mehrfachtestung bei explorativem Testen ohne Vorannahmen nötig oder nicht?

Dafür gibt es keine einfachen Lehrbuchantworten. Korrekturen für den Alphafehler erhöhen die Gefahr eines Betafehlers. Du musst inhaltlich für Dein Problem abwägen, ob Du vor dem Alphafehler mehr Angst hast, oder vor dem Betafehler. Dann musst Du eine vertretbare Entscheidung fällen.

Bedenke, dass es nicht nur die lineare Regression gibt und dass Regressionsbäume und Entscheidungsbäume oder -wälder auch bei fehlenden Daten sinnvolle Aussagen ermöglichen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

folgende User möchten sich bei bele bedanken:
JohannaSch

Re: Multiple vs. mehrere einfache Regressionen

Beitragvon PonderStibbons » So 7. Jan 2018, 17:40

Der Prozess, durch den fehlende Werte erzeugt wurden (Zufall, Fehler, erhebungstechnische Notwendigkeiten, Verweigerung...), ist nicht erkennbar. Herausnahme fehlender Fälle kann eine immense Verzerrung bedeuten, oder völlig problemlos sein (abgesehen vom Verlust der power).

Das Ausmaß des Datenausfalls ist nicht erkennbar (95 Leute mit je 1 fehlenden Wert? 95 Leute mit je 7 fehlenden Werten?).

Der theoretische und praktische Hintergrund, Thema, Fragestellung, Erhebungsdesign sind unbekannt, weswegen es kaum möglich ist zu beurteilen, ob einfache Regressionen hier sinnvoll sein könnten. Ein Dutzend (?) Prädiktoren (intervallskalierte + dummies) bei n=65 wäre aber womöglich ein Mißverhältnis.

Imputierung fehlender Werte kann mitunter eine Überlegung wert sein.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
JohannaSch

Re: Multiple vs. mehrere einfache Regressionen

Beitragvon JohannaSch » So 7. Jan 2018, 18:06

Vielen Dank für die hilfreichen Antworten!

Wenn nominale Antworten nicht gegeben wurden, kann man vielleicht eine neue Antwortkategorie "keine Antwort" einführen?


Ich dachte bislang immer, dass nominalskalierte Prädiktoren nur 2 Kategorien haben dürfen, war die Annahme falsch? Die fehlenden Werte sind generell v.a. durch "weiß ich nicht" Antworten entstanden, wodurch ein Nachkategorisieren warsch. stark verzerren würde.

Der theoretische und praktische Hintergrund, Thema, Fragestellung, Erhebungsdesign sind unbekannt, weswegen es kaum möglich ist zu beurteilen, ob einfache Regressionen hier sinnvoll sein könnten.


Es geht um eine einmalige Online-Erhebung zu Gewalterfahrungen in organisierten Strukturen. Meine explorative Fragestellung ist, welche Bedingungen/Erfahrungen posttraumatische Belastung vorhersagen.

Imputierung fehlender Werte kann mitunter eine Überlegung wert sein.


Was ist da gerade bei cross-sectional data lege artis?
JohannaSch
User
User
 
Beiträge: 34
Registriert: Fr 31. Jan 2014, 12:08
Danke gegeben: 14
Danke bekommen: 0 mal in 0 Post

Re: Multiple vs. mehrere einfache Regressionen

Beitragvon bele » So 7. Jan 2018, 18:32

JohannaSch hat geschrieben:
Wenn nominale Antworten nicht gegeben wurden, kann man vielleicht eine neue Antwortkategorie "keine Antwort" einführen?


Ich dachte bislang immer, dass nominalskalierte Prädiktoren nur 2 Kategorien haben dürfen, war die Annahme falsch? Die fehlenden Werte sind generell v.a. durch "weiß ich nicht" Antworten entstanden, wodurch ein Nachkategorisieren warsch. stark verzerren würde.

Ja. Nominal kann beliebig viele diskrete Werte annehmen (z. B. "Fahrrad", "Bus", "PKW", "Hochbahn", "Tiefbahn", "Skateboard", "keine Angabe"). Für eine lineare Regression müsste man die freilich in Nur-2-Kategorien-Dummy-Variablen überführen. Du musst für Dich überlegen, ob Du "weiß nicht" als eigene Kategorie mit eigener Dummy-Variable einführen möchtest. Einerseits musst Du dann einen zusätzlichen Koeffizienten für eine zusätzliche Dummyvariable schätzen, andererseits gewinnst Du dadurch Fälle. Mit einer Faustregel, dass Du 10 bis 15 Fälle für einen Koeffizienten brauchst, kannst Du ausprobieren, ob sich das lohnt.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

folgende User möchten sich bei bele bedanken:
JohannaSch

Re: Multiple vs. mehrere einfache Regressionen

Beitragvon JohannaSch » Fr 2. Mär 2018, 13:07

Mittlerweile haben sich noch weitere Fragen ergeben...

1)
Die überwiegende Meinung im Forum scheint zu sein, dass schrittweise nie angesagt ist, oder wenn, dann nur als hypothesenfindendest, nicht -beantwortendes Verfahren.

Was ist der Grund hierfür? Dass simultane Verfahren besser replizierbar sind?

2) Sollte man (wenn man sich generell dafür entscheidet) in einem multiplen Regressionsmodell für multiples Testen korrigieren, da sich ja pro Effekt ein p-Wert ergibt, oder passiert das schon automatisch (als Vorteil gegenüber mehreren linearen Regressionen)?

3) Was ist der Unterschied zwischen einem multiplen, simultanen Regressionsmodell und einer UNIANOVA mit mehreren Prediktoren? Ich kriege da in etwa die selben Ergebnisse, weiß aber nicht, welche Analyse vorteilhafter wäre.
JohannaSch
User
User
 
Beiträge: 34
Registriert: Fr 31. Jan 2014, 12:08
Danke gegeben: 14
Danke bekommen: 0 mal in 0 Post

Re: Multiple vs. mehrere einfache Regressionen

Beitragvon PonderStibbons » Fr 2. Mär 2018, 13:18

1)
Die überwiegende Meinung im Forum scheint zu sein, dass schrittweise nie angesagt ist, oder wenn, dann nur als hypothesenfindendest, nicht -beantwortendes Verfahren.

Was ist der Grund hierfür? Dass simultane Verfahren besser replizierbar sind?

Nicht schrittweise (hierarchische) Regression ist das Problem, sondern schrittweise automatisierte Variablenselektion (stepwise forward selection or backward selection).
2) Sollte man (wenn man sich generell dafür entscheidet) in einem multiplen Regressionsmodell für multiples Testen korrigieren, da sich ja pro Effekt ein p-Wert ergibt, oder passiert das schon automatisch (als Vorteil gegenüber mehreren linearen Regressionen)?

Sagen wir mal so: Hast Du jemals eine multiple Regression gesehen, in welcher die Koeffiziententests nochmal korrigiert wurden?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Multiple vs. mehrere einfache Regressionen

Beitragvon JohannaSch » Fr 2. Mär 2018, 13:44

1) Warum sind automatisierte Variablenselektionen problematisch im Vergleich zu simultaner Eingabe?

2) Ja. Ist es notwendig, oder nicht? Und falls ja/nein wie lässt sich das methodisch begründen?

3) Inwiefern unterscheidet sich ein multiples Regressionsmodell mit simultaner Eingabe von einer UNIANOVA?
JohannaSch
User
User
 
Beiträge: 34
Registriert: Fr 31. Jan 2014, 12:08
Danke gegeben: 14
Danke bekommen: 0 mal in 0 Post

Re: Multiple vs. mehrere einfache Regressionen

Beitragvon PonderStibbons » Fr 2. Mär 2018, 13:53

1) Warum sind automatisierte Variablenselektionen problematisch im Vergleich zu simultaner Eingabe?

Weil unzählige Tests gerechnet werden, was den Zufall ausnutzt. Das resultierende Modell ist im Zweifel nicht generalisierbar, die p-Werte für das Endmodell sind falsch.
https://www.stata.com/support/faqs/stat ... -problems/
http://andrewgelman.com/2014/06/02/hate ... egression/

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
JohannaSch


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 15 Gäste