Multinomiale logistische Regression, kleines Sample

Alle Verfahren der Regressionanalyse.

Multinomiale logistische Regression, kleines Sample

Beitragvon Nooomi » Di 21. Jun 2022, 08:44

Hallo zusammen

Ich habe ein relativ kleines Sample von 26 Kantonen und eine dichotome abhängige Variable (ja/Nein). Zudem habe ich 7 unabhängige Variablen, deren Einfluss ich irgendwie auf die abhängige Variable messen möchte.

-> Eine lineare Regression kommt ja aufgrund der dichotomen abhängigen Variablen nicht in Frage

Eine logistische Regression jedoch schon. Bei einem kleinen Sample sollte man ja pro unabhängige Variable mind. 10 Observationen haben. In meinem Falle könnte ich also höchstens 2 unabhängige Variablen in einer logistischen Regression untersuchen.

Welches Vorgehen ist hier sinnvoll: Ausprobieren aller möglichen Zweierkombinationen der Variablen? Oder "Rausfiltern" der unsignifikanten Variablen über eine multinomiale logistische Regression, wo ich also zuerst alle Variablen nehme und jene nach und nach rausfiltere, welche keinen signifikanten Einfluss habe. Jedoch frage ich mich, ob letztere Variante überhaupt sinnvoll ist aufgrund des kleinen Sample-Sizes.

-> kann mir jemand ein ganz anderes Modell empfehlen, welches hier sinnvoll wäre?

Danke für jegliche Hinweise bezüglich des besten Vorgehens?
Nooomi
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mo 20. Jun 2022, 12:36
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Multionomiale Regression, kleines Sample

Beitragvon PonderStibbons » Di 21. Jun 2022, 08:57

Eine logistische Regression jedoch schon. Bei einem kleinen Sample sollte man ja pro unabhängige Variable mind. 10 Observationen haben.

Da gibt es verschiedene Faustregeln, manchmal ist auch von 8 die Rede. Die Bezugsgröße ist
dabei aber leider nicht die Gesamtstichprobe, sondern die kleinere Gruppe in der abhängigen
Variable, d.h. hier günstigstenfalls n=13.
Welches Vorgehen ist hier sinnvoll: Ausprobieren aller möglichen Zweierkombinationen der Variablen? Oder "Rausfiltern" der unsignifikanten Variablen über eine multinomiale logistische Regression, wo ich also zuerst alle Variablen nehme und jene nach und nach rausfiltere, welche keinen signifikanten Einfluss habe.

Das führt zu overfitting. Damit erhälst Du ein Modell, dass den Zufall maximal ausnutzt
und an die gegebene kleine Stichprobe angepasst ist, aber nicht generalisierbar. Die p-Werte
wären unzuverlässig.
-> kann mir jemand ein ganz anderes Modell empfehlen, welches hier sinnvoll wäre?

Sinnvoll wäre es meines Erachtens, einmal durchzupusten die Sache realistisch zu betrachten.
Du hast maximal 13 Fälle, die Du vorhersagen willst. Bereits mit 2 (intervallskalierten - bei
kategorialen Variablen wird es noch ärger) Prädiktoren geht das in die Richtung overfitting.
Was wäre so schlecht daran, auf multiple Regression zu verzichten und einfach 7 bivariate
Analysen zu rechnen?

Mit freundlichen Grüßen

PonderStibbons

P.S.
es geht um eine binär-logistische Regression bzw. eine multiples binär-logistische Regression.
Multinomiale Regression ist hier nicht angesprochen, soweit ich sehe?
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Nooomi

Re: Multinomiale logistische Regression, kleines Sample

Beitragvon Nooomi » Di 21. Jun 2022, 09:08

Danke für die schnelle Antwort!

Ok, wenn du sagst 7 bivariate Analysen, dann meinst du, so nehme ich an, keine Regression sondern Korrelation? Also in Richtung Pearson, Spearman oder Kendall? Oder doch die logistische Regression?

Freundliche Grüsse
Nooomi
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mo 20. Jun 2022, 12:36
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Multinomiale logistische Regression, kleines Sample

Beitragvon PonderStibbons » Di 21. Jun 2022, 09:19

Das hängt doch vom Skalenniveau des Prädiktors ab. Bei einem kategorialen Prädiktor Chi²-Test,
bei einem ordinalen Prädiktor U-Test (Gruppierungsvariable: die inhaltlich gesehen abhängige Variable),
bei einem intervallskalierten Prädiktor U-Test oder Welch-t-Test (Gruppierungsvariable wiederum
die abhängige Variable).

Für logistische Regressionen bei 1 Prädiktor sehe ich persönlich keinen Bedarf.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Nooomi

Re: Multinomiale logistische Regression, kleines Sample

Beitragvon strukturmarionette » Di 21. Jun 2022, 09:20

Hi,

- neben der 'klassischen' frequentistischen Inferenzstatistik könnten auch Bayes-Statistik oder die Vorgehensweisen mittels Bootstrapping nützen
- die statistischen Anwendungsvoraussetzungen sind dabei anderes
- wichtiger wäre aber zunächst immer eine fachliche Modellbegründung
- Existiert die?
- Existiert eine fachliche nachvollziehbare Bgründung für die Dichotomisierung deiner Kriteriumsvariable?
- Ansonsten spielt u.a. die Software eine Rolle, mit der du vertraut bist
[Allerlei 'Ausprobieralgorithmen' haben (m.E. leider) Hochkonjunktur]

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Multinomiale logistische Regression, kleines Sample

Beitragvon bele » Di 21. Jun 2022, 13:07

strukturmarionette hat geschrieben:...neben der 'klassischen' frequentistischen Inferenzstatistik könnten auch Bayes-Statistik oder die Vorgehensweisen mittels Bootstrapping nützen


Und, wenn wir schon Alternativen aufzählen, die LASSO-Regression, die RIDGE-Regression und das elastic net, jeweils als logistische Regression. Je nachdem, worum es in der Studie genau geht und wie man angesichts knapper Daten das Ziel setzt.

LASSO soll angeblich bei Genetikern sehr beliebt sein, wenn die deutlich mehr Gene als beobachtete Fälle haben. p-Werte kommen da aber keine raus, wenn man die braucht.

Bayes macht hier wahrscheinlich nur dann Sinn, wenn man recht konkrete Prior-Annahmen hat, oder übersehe ich da was?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 9 Gäste

cron