Hallo zusammen,
ich möchte eine Regressionsanalyse durchführen. Zuvor zu meinem Datensatz: Dieser besteht aus eine Reihe von Unternehmen mit Daten von 2000 bis 2020. Bevor ich die Regression durchführe, logarithmiere ich meine Daten, da dies für den Datensatz notwendig ist. Da leider einige Unternehmenswerte negativ sind, führt dies zu NA und der Datensatz hat somit keine vollständige Daten mehr. Wie ist jetzt im Rahmen der Regression mit den NA's umzugehen?
Sollte ich die Unternehmen, die unvollständige Daten haben, komplett rausschmeißen? Dies würde dazu führen, dass kaum noch Unternehmen übrig bleiben.
Sollte ich die NA's durch Mittelwerten ersetzen, die sich für jedes Unternehmen ergeben?
Sollte ich eine Transformationsfunktion beim logarithmieren einfügen ln(1+x) wenn x>0 und -ln(1-x) wenn x<0 sodass keine Daten verloren gehen
Oder sollte ich alles so lassen wie es ist und die Regression trotz fehlender einfach durchführen?
Mein Betreuer an der Uni antwortet leider nicht.. Ich würde mich über eure Tipps oder mögliche andere Vorschläge freuen.
Danke!