Hallo,
ich möchte eine lineare Regression durchführen und bin mir vor allem bzgl. des Umgangs mit "Ausreißern" der abhängigen Variable unsicher: Die Ausprägungen meiner abhängigen Variable sind tägliche Aktienrenditen von unterschiedlichen Unternehmen (R_i). Zunächst einmal möchte ich prüfen, ob sich die Renditen zwischen verschiedenen Typen von Unternehmen unterscheiden. Ich habe also einen Dummy x_1 (1= Unternehmen aus Finanzsektor), (0=Sonstiger Sektor) als erklärende Variable definiert.
Als nächstes versuche ich nach und nach die Annahmen der einfachen linearen Regression zu prüfen. Zunächst habe ich mir einen Überblick über die Häufigkeitsverteilung meiner abhängigen Variable verschafft (s. Anhang). Scheinbar existieren einige "Extremwerte", was sich auch durch einen Boxplot bestätigt. Ich frage mich nun wie ich mit solchen Werten umgehe. Einer dieser "Extremwerte" ist bspw. eine Rendite von 15%. In Relation zu den anderen Renditen ist dies natürlich hoch. Jedoch entspricht dieser Anstieg des Kurses bspw. eine Steigerung des Aktienkurses von 10 EUR auf 11,5 EUR, was in der Grundgesamtheit evtl. gar keine Seltenheit darstellt. Eine weitere Annahme der linearen Regression ist die Normalverteilung der Residuen. Im angehängten QQ-Plot sind diese nach Bereinigung der Ausreißer "normalverteilter" als mit den Ausreißern. Sprich dies schon für die Entfernung der extremen Beobachtungen?
Ich bin mit dem Umgang der Ausreißer ein wenig überfordert und hoffe jemand kann mir hier weiterhelfen.
PS: Da das Kontingent für Dateianhänge ausgenutzt ist, muss ich die Bilder extern hochladen.
Verteilung der Residuen
Grüße