Hallo zusammen,
da ich verschiedene Problem habe, schreibe im allgemeinen Bereich und packe alles in ein Thema. Sofern das unpassend ist, erstelle kann ich natürlich auch gerne in verschiedene Themen in den einzelnen Bereichen erstellen. Da ich leider ziemlich verzwifelt bin, bin ich für jegliche Hilfestellung dankbar.
Meine generelle Zielsetzung besteht darin drei Regressionsmodelle miteinander zu vergleichen. Dabei soll die Genauigkeit von Aktienkursprognosen durch verschiedene Eigenschaften der Personen erklärt werden, die die Prognosen abgeben. Im Grunde genommen soll also deren Leistung erklärt werden.
Der Datensatz umfasst mehrere Jahre und hat insgesamt über 200.000 Beobachtungen. In jedem Jahr sind mindestens 5.000 Beobachtungen vorhanden.
Problem 1: Lineare Regression
Ich führe je Modell eine Regression für den gesamten Datensatz und Regressionen je Jahr durch.
Sicherlich eine häufig gestellte Frage, aber auch bei mir sind die Voraussetzungen für die lineare Regression nicht erfüllt. Ich habe in Foren teilweise gelesen, dass die Normalverteilungsannahme bei großen Stichproben nicht unbedingt erfüllt sein muss. Ist dies korrekt? Leider habe ich keine "zitierfähige" Quelle dazu gefunden.
Eine Transformation der Variablen ist schwierig, da dies in den Arbeiten, die ich nachbilde, ebenfalls nicht gemacht wird. Die Arbeiten gehen kaum auf die erforderlichen Voraussetzungen ein, d.h. sie wenden einfach die OLS-Regression ohne näheres dazu zu schreiben.
Problem 2: Modellvergleich bzgl. der Erklärungskraft
Ich möchte die Qualität der Modelle vergleichen.
Zunächst würde ich dabei auf das adjustierte R² zurückgreifen. Ich weiß allerdings nicht wie ich dabei über augenfällige Vergleichsergebnisse hinaus komme.
Gibt es einen statistischen Test, der feststellt, ob ein signifikanter Unterschied in den R² besteht (für das gesamte Sample)? Ist eine Möglichkeit das R² jedes Jahres zu betrachten und zu testen, ob sich die Mittelwerte (über die Jahre) zwischen den Modellen unterscheiden?
Problem 3: Modellvergleich bzgl. der Vorhersagekraft
Für jedes Modell gehe ich folgendermaßen vor:
Auf Grundlage der geschätzten Koeffizienten eines Jahres, schätze ich die erwartete Genauigkeit (AV) für das Folgejahr. Für jedes Jahr bestimme ich dann eine Rangfolge auf Grundlage der geschätzten Genauigkeit (d.h. ganz oben ist der Analyst, den das Modell als "am genausten" identifiziert; danach kommt der zweitbeste usw.). Ich wähle dann das obere und das untere Dezil dieser Rangfolge.
Zunächst möchte ich für jedes Modell einzeln feststellen, ob sich die tatsächliche Genauigkeit innerhalb dieser beiden Dezile signifikant unterscheidet. Dabei würde ich generell auf einen t-Test zum Mittelwertvergleich zurückgreifen. Ich bin allerdingsunsicher, ob es sich um eine abhängige oder eine unabhängige Stichprobe handelt.
Ich befürchte, dass evtl. noch nicht alles klar geworden ist. Fragt einfach nach, sofern etwas unklar ist.