STATISTIK-FORUM.de

Jonnyo · von **Jonnyo** » Di 3. Feb 2015, 16:16

Hallo,

ich hätte ein paar Fragen zu einer logistischen Regression die ich gerne durchführen würde. Ich bin mir bei ein paar Sachen etwas unsicher und würde mich über einen Expertenrat freuen.
Zur Ausgangsbasis: Ich habe 28 betriebswirtschaftliche Kennzahlen zu 170 Unternehmen. Die Kennzahlen korrelieren untereinander teilweise sehr stark (größer 0,5 - 0,95 nach Spearman-Rho).
Des weiteren habe ich relativ viele "missing values". Wodurch sich meine eh schon relativ kleine Relation von unabhängierer zu abhängiger Variable beim Einbeziehen aller Kennzahlen noch einmal massiv verringert (auf unter 100).

Ich habe mir nun überlegt die logistische Regression mit der Korrelationsanalye zu verbinden und ein Schrittweises vorgehen durchzuführen heißt:

- prüfen aller Kennzahlen einzeln auf den größten -2LL wert. und den höchsten auswählen
- ausschließen der Kennzahlen die eine hohe Korrelation aufweißen (ich habe mit größer 0,5 geplant ich weiß das ist subjektiv)
- prüfen aller anderen nich hoch korrelierter Kennzahlen auf die Kombination die wiederum den kleinsten -2LL wert ergibt.
- und wieder ausschließen der hoch korrelierten

Auf diese Weise hätte ich am Ende 4 Kennzahlen die auch ein sehr gutes Testergebnis erreichen und ich würde die Relation zw. abhängiger und unabhängiger Variablen nicht überstrapazieren.

Spricht etwas gegen dieses vorgehen? Falls ja was wäre ein besseres/korreteres?

Danke im Voraus.

PonderStibbons · von **PonderStibbons** » Di 3. Feb 2015, 16:47

Spricht etwas gegen dieses vorgehen? Falls ja was wäre ein besseres/korreteres?

Schwer zu sagen, es ist nichts über Studienziel/Fragestellung und
Sinn und Zweck bzw. Verwendung der Ergebnisse angegeben.

Von 170 Fällen gleich 70 wegzuschmeißen, sowie eine kleine
Stichprobe gleich mit 28 Prädiktoren durchzupflügen, klingt aber
auf jeden Fall erstmal problematisch.

Mit freundlichen Grüßen

P.

Jonnyo · von **Jonnyo** » Di 3. Feb 2015, 18:04

Jap diese Problematik sehe ich ebenso. Aber dieses Vorgehen habe ich bisher in der Literatur nicht gefunden deshalb die Frage ob man damit irgendetwas vollkommen daneben macht.

Ziel ist eine Insolvenzfrüherkennung basierend auf Bilanzkennzahlen zu entwickeln. Die Ergebnisse der logistischen Regression sollen es ermöglichen ein erstes "Rating" einem Unternehmen zuzuteilen.

Eine andere Frage wäre wie anfällig die Bestimmung der Betas bzw -2LL bzgl. Ausreißern sind?

Danke nochmal.

DHA3000 · von **DHA3000** » Di 3. Feb 2015, 19:41

Naja, das Vorgehen entspricht einer willkürlichen, hierarchischen Regression, nur dass du die Modellgüte anhand der Likelihood bestimmst.

Daher ist das Ganze zu technisch. Es wäre wesentlich sinnvoller, erst einmal ökonomische Intuition zu benutzen und einige Variablen per se auszuschließen.
Dann schaust du einmal, welche Variablen sich gegenseitig behaken, die Korrelation also wirklich eine Rolle spielt.
Bei Multikollinearität würdest du sehen, ob sich bestimmte Variablen gegenseitig "aufheben". Die Korrealtion ansich ist dafür eher nicht zu gebrauchen. Auch ein
Wert von 0.8 kann nich gut sein. 0.5 ist auf jedenfalls viel zu niedrig. Bei 0.9 würde ich schon diejenigen herauswerfen, die weniger Beobachtungen aufweisen.
Du solltest auf ~10 Regressoren kommen. Und ich bin mir sicher, dass es dazu schon Literatur gibt, an der du dich orientieren kannst. DIe Fragestellung klingt nicht so,
also wenn sich nicht schon mal jemand in den USA in den 80ern damit beschäftigt hat.

Dann bietet es sich dan, nicht die (Log-)Likelihood anzuschauen, sondern das adjustierte R², da letzteres auch die Anzahl deiner Regressoren bestraft. Die Lieklihood kannst
du für einen LR-Test nehmen, um zu schauen, ob dich deine Modelle auch signifikant von einander unterschieden.

Einen Früherkennungsindex ohne Zeitreihen (also ohne dynamik) erstellen zu wollen, ist allerdings recht ambitioniert. Im mal inhaltlich Kritik zu üben. Dafür müsste ich ja einen
gewissen Teil an Unternehmen haben, die bereits Insolvent gegenangen sind. Und da würde ich mich ja nur auf eine Bilanz stützen. Insolvenz ist ja das Produkt jahrelanger Misswirtschaft.
Aber gut, vielleicht kann die Cross-Section das ja ein wenig auffangen.

folgende User möchten sich bei DHA3000 bedanken:
Jonnyo

Jonnyo · von **Jonnyo** » So 8. Feb 2015, 12:26

Hi, hätte bitte noch einmal eine Frage.

Habe mich jetzt dafür entscheiden eine Clusteranalse noch zwischen zuschalten.

Gehe nun von der Trennfähigsten Kennzahl aus und füge jeweils nacheinanader iene Kennzahl aus einem anderen Cluster hinzu die die mit der/den vorherige(n) am besten trennt.

Ich nehme aktuell beim Gütemaß das Chi-Quadrat der Likelihood-Ratio-Test her (nicht den 2*LogLikelihood-Wertes da ich meiner Meinung bei ungleichen Gruppengrößen und Schiefe Probleme mit der Devianz bekomme). Solange ich dieses maximieren kann und die Vorzeichen der Betas auch ökonomische sinnvoll interpretieren kann nehme ich eine weitere Kennzahl auf.

WÜrde so am Ende auf die Konstante und 5 Kennzahlen kommen welche auch in einer Testprobe sehr gut trennt. R² nach Nagelkerke ist 4,19; Hosmer Lemeshow insignifikant mit 0,827.

Was haltet ihr davon? Habe ich irgendwo einen komplett falschen gedanken? Insbesondere kann ich das Chi-Quadrat vom LR-Test problemlos als Gütemaß benutzen?

Danke schon mal.

DHA3000 · von **DHA3000** » So 8. Feb 2015, 14:43

Ich halte davon garnichts. Denn du wirst bei einer willkürlichen Zusammenstellung der Cluster unterschiedliche Ergebnisse haben, sodass nie ein eindeutiges Modell am Ende heraus kommt.

Du scheinst sehr stark auf statisitsche Größen fokussiert zu sein. Das ist auch schön, aber es gibt durchaus Situationen, in denen man erst einmal inhaltlich überlegt, wass denn überhaupt inhaltlich Sinn ergeben würde.

Jonnyo · von **Jonnyo** » So 8. Feb 2015, 15:03

Da hast du recht. Es ist aber tatsächlich so, dass die Cluster auch betriebswirtschaftlich sinnvoll die Kennzahlen strukturieren. Ist nicht so, dass ich ein Cluster habe, dass Rentabilität und Kapitalstrukutren wild würfelt nur weil es statistisch sinnvoll ist. Deshalb auch dieser Ansatz da das Ergebnis sowohl statistisch als auch praktisch ein meier Meinung anch gutes Ergebnis liefert. In dieser "Phase" der Kennzahlenauswahl muss man immer etwas "Subjektivität" reinbringen und so finde ich reduziere ich diese auf ein nachvollziebares Minimum.

Wie seht ihr das Maximieren des Chi-Quadrat der Likelihood-Ratio-Test?

Jonnyo · von **Jonnyo** » Mo 16. Feb 2015, 20:19

Hi,

irgendwie hänge ich bei der Interpretation meiner Beta-Koeffizienten in meiner logistischen Regression. Ich habe verschiedene bilanzielle Kennzahlen und versuche damit das binäre Merkmal Insolvenz vorherzusagen. Die Kennzahen sind metrisch skaliert, jedoch in ihrem Wertebereich sehr unterscheidlich (Teilweise zwischen 0 und1; teilweise zwischen +bzw. - unendlich)

Mein Beta Koeffizient ist nun bei der ersten Kennzahl (Eigenkapitalqoute) -0,810 folglich sinkt die Insolvenzwahrscheinlichkeit mit höheren Kennzahlenwerten. Das ist soweit klar und logisch.
Mein exp(beta) ist somit 0,445. Mit diesem Wert kann ich nicht so wirklich was anfangen.
Soweit ich mich eingelesen habe verringert sich die Insolvenzwahrscheinlichkeit bei Erhöhung um eine Einheit um 55,5% sehe ich das richtig? Aber was ist eine Einheit in diesem Fall?

Ich hoffe ihr könnt mir weiterhelfen.

Danke

DHA3000 · von **DHA3000** » Mo 16. Feb 2015, 20:44

Nein, es ändert sich die relative Wahrscheinlichkeit.
Sonst wärest du wieder bei einem linearen Zusammenhang.

Jonnyo · von **Jonnyo** » Di 17. Feb 2015, 11:36

Ok hättest du mir vielleicht ein verständliches, auf meinen Fall bezogenes Beispiel

STATISTIK-FORUM.de

Fragen zur logistischen Regression

Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Re: Fragen zur logistischen Regression

Wer ist online?