Hallo,
ich hätte ein paar Fragen zu einer logistischen Regression die ich gerne durchführen würde. Ich bin mir bei ein paar Sachen etwas unsicher und würde mich über einen Expertenrat freuen.
Zur Ausgangsbasis: Ich habe 28 betriebswirtschaftliche Kennzahlen zu 170 Unternehmen. Die Kennzahlen korrelieren untereinander teilweise sehr stark (größer 0,5 - 0,95 nach Spearman-Rho).
Des weiteren habe ich relativ viele "missing values". Wodurch sich meine eh schon relativ kleine Relation von unabhängierer zu abhängiger Variable beim Einbeziehen aller Kennzahlen noch einmal massiv verringert (auf unter 100).
Ich habe mir nun überlegt die logistische Regression mit der Korrelationsanalye zu verbinden und ein Schrittweises vorgehen durchzuführen heißt:
- prüfen aller Kennzahlen einzeln auf den größten -2LL wert. und den höchsten auswählen
- ausschließen der Kennzahlen die eine hohe Korrelation aufweißen (ich habe mit größer 0,5 geplant ich weiß das ist subjektiv)
- prüfen aller anderen nich hoch korrelierter Kennzahlen auf die Kombination die wiederum den kleinsten -2LL wert ergibt.
- und wieder ausschließen der hoch korrelierten
Auf diese Weise hätte ich am Ende 4 Kennzahlen die auch ein sehr gutes Testergebnis erreichen und ich würde die Relation zw. abhängiger und unabhängiger Variablen nicht überstrapazieren.
Spricht etwas gegen dieses vorgehen? Falls ja was wäre ein besseres/korreteres?
Danke im Voraus.