STATISTIK-FORUM.de

Grünschnabel_ · von **Grünschnabel_** » Do 28. Jan 2016, 11:50

Hallo zusammen,

da ich verschiedene Problem habe, schreibe im allgemeinen Bereich und packe alles in ein Thema. Sofern das unpassend ist, erstelle kann ich natürlich auch gerne in verschiedene Themen in den einzelnen Bereichen erstellen. Da ich leider ziemlich verzwifelt bin, bin ich für jegliche Hilfestellung dankbar.

Meine generelle Zielsetzung besteht darin drei Regressionsmodelle miteinander zu vergleichen. Dabei soll die Genauigkeit von Aktienkursprognosen durch verschiedene Eigenschaften der Personen erklärt werden, die die Prognosen abgeben. Im Grunde genommen soll also deren Leistung erklärt werden.

Der Datensatz umfasst mehrere Jahre und hat insgesamt über 200.000 Beobachtungen. In jedem Jahr sind mindestens 5.000 Beobachtungen vorhanden.

Problem 1: Lineare Regression

Ich führe je Modell eine Regression für den gesamten Datensatz und Regressionen je Jahr durch.

Sicherlich eine häufig gestellte Frage, aber auch bei mir sind die Voraussetzungen für die lineare Regression nicht erfüllt. Ich habe in Foren teilweise gelesen, dass die Normalverteilungsannahme bei großen Stichproben nicht unbedingt erfüllt sein muss. Ist dies korrekt? Leider habe ich keine "zitierfähige" Quelle dazu gefunden.

Eine Transformation der Variablen ist schwierig, da dies in den Arbeiten, die ich nachbilde, ebenfalls nicht gemacht wird. Die Arbeiten gehen kaum auf die erforderlichen Voraussetzungen ein, d.h. sie wenden einfach die OLS-Regression ohne näheres dazu zu schreiben.

Problem 2: Modellvergleich bzgl. der Erklärungskraft

Ich möchte die Qualität der Modelle vergleichen.

Zunächst würde ich dabei auf das adjustierte R² zurückgreifen. Ich weiß allerdings nicht wie ich dabei über augenfällige Vergleichsergebnisse hinaus komme.
Gibt es einen statistischen Test, der feststellt, ob ein signifikanter Unterschied in den R² besteht (für das gesamte Sample)? Ist eine Möglichkeit das R² jedes Jahres zu betrachten und zu testen, ob sich die Mittelwerte (über die Jahre) zwischen den Modellen unterscheiden?

Problem 3: Modellvergleich bzgl. der Vorhersagekraft

Für jedes Modell gehe ich folgendermaßen vor:
Auf Grundlage der geschätzten Koeffizienten eines Jahres, schätze ich die erwartete Genauigkeit (AV) für das Folgejahr. Für jedes Jahr bestimme ich dann eine Rangfolge auf Grundlage der geschätzten Genauigkeit (d.h. ganz oben ist der Analyst, den das Modell als "am genausten" identifiziert; danach kommt der zweitbeste usw.). Ich wähle dann das obere und das untere Dezil dieser Rangfolge.

Zunächst möchte ich für jedes Modell einzeln feststellen, ob sich die tatsächliche Genauigkeit innerhalb dieser beiden Dezile signifikant unterscheidet. Dabei würde ich generell auf einen t-Test zum Mittelwertvergleich zurückgreifen. Ich bin allerdingsunsicher, ob es sich um eine abhängige oder eine unabhängige Stichprobe handelt.

Ich befürchte, dass evtl. noch nicht alles klar geworden ist. Fragt einfach nach, sofern etwas unklar ist.

PonderStibbons · von **PonderStibbons** » Do 28. Jan 2016, 11:58

Vielleicht http://people.duke.edu/~rnau/compare.htm

Sicherlich eine häufig gestellte Frage, aber auch bei mir sind die Voraussetzungen für die lineare Regression nicht erfüllt.

Kommt drauf an welche. Außerdem gelten sie weitgehend für die Signifikanztests, ich weiß nicht, ob die hier relevant sind.

HTH

P.

Grünschnabel_ · von **Grünschnabel_** » Do 28. Jan 2016, 13:08

Zunächst vielen Dank für die schnelle Antwort. Echt klasse, dass man hier so schnell Hilfe bekommt. Es ist leider immer etwas viel Text, aber ich versuche, die Proble möglichst verständlich zu schildern.

Ich versuche nochmal entsprechend der Ordnung im Ausgangspost zu antworten bzw. zu fragen.

Problem 1: Lineare Regression

Die Signifikanztests sind relevant.

Entsprechend des Q-Q-Plots habe ich Probleme mit der Normalverteilung der Residuen. Spielt die Sample-Größe eine Rolle bzgl. dieser Abforderung?

Außerdem habe ich wohl auch Probleme hinsichtlich der Heteroskedastie.
Grundsätzlich enthält das Sample verschiedene Analysen-Unternehmen-Paarungen für verschiedene Jahre. Um die entsprechenden Effekte zu minimieren wird eine Mittelwertadjustierung durchgeführt (Mittelwert aller Analysten für dasselbe Unternehmen im selben Jahr wird subtrahiert). In der Literatur finde ich, dass teilweise zusätzlich eine Fama-MacBeth Regression oder eine Regression mit geclusterten Standardfehlern gemacht wird. Beides habe ich gemacht. Bei Fama-Macbeth geht die Signifikanz zum Teil verloren, bei dem Verfahren mit geclusterten Standardfehlern nicht.
Ist es ok, dies entsprechend festzustellen und dann für die Out-of-Sample Analyse dennoch die mit den OLS Schätzern zu arbeiten?

Problem 2: Modellvergleich bzgl. der Erklärungskraft

Ich habe mir den Link durchgelesen und das adjustierte R² scheint mir als Maß geeignet, da alle Modelle dieselbe AV erklären sollen und jeweils derselbe Datensatz zugrunde liegt. (Außerdem wird R² in dem Aufsatz an dem ich mich orientieren soll als Vergleichsmaßstab verwendet)
Ich betrachte insbesondere unterschiedlich komplexe Modelle, deswegen würde ich zudem AIC und/oder BIC als Vergleichsmaßstab heranziehen, um eine festzustellen, ob die zustäliche Komplexität gerechtfertigt ist.

Ich habe diesbezüglich noch zwei Fragen:
- Spricht irgendetwas gegen diese Vorgehensweise bzw. die zugrunde liegende Argumentation?
- Wie kann ich denn einen (eventuell) signifikanten Unterschied zwischen den Modellen statistisch nachweisen? Natürlich sehe ich generell, ob sich die Maße unterscheiden, aber es ist ja wahrscheinlich ein Signifikanztest empfehlenswert. Für alle drei Modelle habe ich ja jeweils das adjustierte R² und die AIC/BIC sowohl für das gesamte Sample als auch für die einzelnen Jahre. Kann ich dann testen, ob sich z.B. die Mittelwerte der "Jahres-R²" signifikant unterscheiden und daraus folgern ob ein signifikanter Unterschied besteht?

Problem 3: Modellvergleich bzgl. der Vorhersagekraft

Mir bleibt letztendlich keine andere Wahl als das beschriebene Verfahren durchzuführen. Die Frage wäre für mich wohl also eher welches die geeignetsten Tests sind.

Leider ist mir unklar wie es bzgl. der Abhängigkeit der Stichproben aussieht. Wenn ich am Ende den Mittelwert zwischen den Gruppen vergleichen möchte, die ein Modell als am besten (beste 10%) und am schlechtesten (schleteste 10%) vergleichen möchte. Sind diese dann abhängig oder unabhängig? Und gibt es diesbezüglich eine generelle Regel, was man im Zweifelsfall anwenden soll?
Es könnte auf jeden Fall sein, dass in beiden Gruppen identische Analysten (aber anderes Unternehmen) oder identische Unternehmen (aber andere Analysten) sind.

PonderStibbons · von **PonderStibbons** » Do 28. Jan 2016, 13:37

Die Signifikanztests sind relevant.

Wofür?

Entsprechend des Q-Q-Plots habe ich Probleme mit der Normalverteilung der Residuen. Spielt die Sample-Größe eine Rolle bzgl. dieser Abforderung?

Sicher. Allein in dieser Woche ca. 4mal in diesem Forum thematisiert.
Eine ausreichend große Stichprobe sorgt für die korrekte Berechnung
des Standardfehlers, der den Signifikanztests zugrundeliegt, selbst
wenn die Residuen von einer Normalverteilung abweichen.

Ist es ok, dies entsprechend festzustellen und dann für die Out-of-Sample Analyse dennoch die mit den OLS Schätzern zu arbeiten?

Da muss ich leider passen.

Kann ich dann testen, ob sich z.B. die Mittelwerte der "Jahres-R²" signifikant unterscheiden und daraus folgern ob ein signifikanter Unterschied besteht?

Das kann man bei genesteten Modellen, bei non-nested models ist mir diesbezüglich leider
nichts bekannt. Bzw. ich weiß, das gibt es in SAS (d.h. vermutlich auch in R), aber genauer
weiß ich's nicht.

So recht habe ich wohl auch die Studie und die Analyse nicht verstanden.
Der Datensatz umfasst mehrere Jahre und hat insgesamt über 200.000 Beobachtungen. In jedem Jahr sind mindestens 5.000 Beobachtungen vorhanden. (...) Ich führe je Modell eine Regression für den gesamten Datensatz und Regressionen je Jahr durch.
sagt nicht so arg viel aus.

Mit freundlichen Grüßen

P.

folgende User möchten sich bei PonderStibbons bedanken:
Grünschnabel_

Grünschnabel_ · von **Grünschnabel_** » Do 28. Jan 2016, 14:03

PonderStibbons hat geschrieben:[So recht habe ich wohl auch die Studie und die Analyse nicht verstanden.
Der Datensatz umfasst mehrere Jahre und hat insgesamt über 200.000 Beobachtungen. In jedem Jahr sind mindestens 5.000 Beobachtungen vorhanden. (...) Ich führe je Modell eine Regression für den gesamten Datensatz und Regressionen je Jahr durch.
sagt nicht so arg viel aus.

Ich beginne mal an dieser Stelle. Die AV ist die Genauigkeit der Aktienkursprognosen. Diese möchte ich anhand verschiedener Eigenschaften des prognostizierenden Analysten erklären. Ein Modell nutzt beispielsweise dessen Arbeitserfahrung, die Anzahl der von ihm betrachteten Unternehmen etc. als erklärende Variablen. Die anderen beiden nutzen zum Teil einige (aber nicht alle) derselben Variablen und zudem einige andere. Die Modelle müssten also non-nested sein.

Die Beobachtungen sind insbesondere durch den Analysten (der die Prognose abgibt), das Unternehmen (für das die Prognose abgegeben wurde) und das Jahr (auf das sich die Prognose bezieht) identifiziert. Der Datensatz umfasst 10 Jahre, wobei folgendes der Fall ist. Eine Analyst-Unternehmens-Paarung kann in verschiedenen Jahren vorkommen. In jedem Jahr gibt jeder Analyst Prognosen für verschiedene Unternehmen ab. In jedem Jahr geben für jedes Unternehmen verschiedene Analysten eine Prognose ab.

Damit die auftretenden Jahres- und Unternehmenseffekte minimiert werden und ein Vergleich über Unternehmen und Jahre hinweg möglich ist, werden sämtliche Variablen mit dem Mittelwert aller Analysten, die im selben Jahr für dasselbe Unternehmen prognostiziert haben, defferenziert.

Der gesamte Datensatz besteht aus über 200.000 Beobachtungen. Hierfür führe ich eine Pooled Regression durch. Außerdem muss ich Regressionen durchführen, denen jeweils nur die Beobachtungen eines Jahres zugrunde liegen. Dabei liegen für jedes Jahr mindestens 5.000 Beobachtungen vor.

PonderStibbons hat geschrieben:
Die Signifikanztests sind relevant.

Wofür?

Die Signifikanztests werden benötigt, da ich feststellen möchte, ob z.B. die Erfahrung einen signifikanten Einfluss auf die Genauigkeit eines Analysten hat.

PonderStibbons hat geschrieben:
Entsprechend des Q-Q-Plots habe ich Probleme mit der Normalverteilung der Residuen. Spielt die Sample-Größe eine Rolle bzgl. dieser Abforderung?

Sicher. Allein in dieser Woche ca. 4mal in diesem Forum thematisiert.
Eine ausreichend große Stichprobe sorgt für die korrekte Berechnung
des Standardfehlers, der den Signifikanztests zugrundeliegt, selbst
wenn die Residuen von einer Normalverteilung abweichen.

Danke für die nochmalige Klarstellung. Ich bin leider ziemlich unsicher, was den statistischen Teil meiner Arbeit angeht. Dieses Problem werde ich jetzt dann aber als abgehakt erachten.

PonderStibbons hat geschrieben:
Kann ich dann testen, ob sich z.B. die Mittelwerte der "Jahres-R²" signifikant unterscheiden und daraus folgern ob ein signifikanter Unterschied besteht?

Das kann man bei genesteten Modellen, bei non-nested models ist mir diesbezüglich leider
nichts bekannt. Bzw. ich weiß, das gibt es in SAS (d.h. vermutlich auch in R), aber genauer
weiß ich's nicht.

Bei meinen Modellen handelt es sich ja wohl leider um non-nested models. Auf welcher Grundlage wird das R² zwischen verschiedenen Modellen, denn dann üblicherweise verglichen? Schaut man sich das einfach an und sagt, sie sind gleich bzw. das eine ist höher?

Grünschnabel_ · von **Grünschnabel_** » Do 28. Jan 2016, 14:43

Vielleicht zitiere ich zu dem Problem bzgl. des R²-Vergleichs einfach mal das betreffende Paper.

"To ascertain whether model I provides better
estimation results than model II, we can compare
the two models' adjusted R2s (Panel A versus
Panel B). The mean difference between the annual
adjusted R2s is only 0.0013. This mean difference
is insignificantly different from zero."

Diesbezüglich wird nichts genaueres ausgeführt, wobei mir unklar ist, wie man zu einer Signifikanz-Aussage gelangt.

Meine einzige Idee wäre, dass er sozusagen zwei Gruppen bildet. Eine besteht aus den adj. R² der jährlichen Regressionen des eines Modells und die andere aus den adj. R² der jährlichen Regressionen des anderen Modells. Dann vergleicht er die Mittelwerte dieser beiden Gruppen z.B. mittels eines paired t-test.

Es handelt sich übrigens auch um non-nested models.

PonderStibbons · von **PonderStibbons** » Do 28. Jan 2016, 15:01

Auf welcher Grundlage wird das R² zwischen verschiedenen Modellen, denn dann üblicherweise verglichen? Schaut man sich das einfach an und sagt, sie sind gleich bzw. das eine ist höher?

Ich kenne leider wie gesagt nur das Vorgehen bei genesteten Modellen.

Vielleicht kann man auch den outcome heranziehen. Wenn in einem Jahr k Unternehmen
von drei unterschiedlichen Beobachtern (Modellen) eine Prognose erhalten (abhängige
Variable: Differenz zwischen Prognose und Realität), dann kann man mittels Varianzanalyse
für Messwiederholung testen, ob die abhängige Variable sich zwischen den drei
Modellen inferenzstatistisch signifikant unterscheidet. Geht auch unter Einbezug
der 10 einzelnen Jahre als weiteren Messwiederholungsfaktor.

wobei mir unklar ist, wie man zu einer Signifikanz-Aussage gelangt.

insignificant, nicht: not significant. Es handelt sich anscheinend um den
allgemeinsprachliche Gebrauch des Wortes, nicht den inferenzstatistischen.

Mit freundlichen Grüßen

P.

Grünschnabel_ · von **Grünschnabel_** » Do 28. Jan 2016, 17:25

Nochmals vielen Dank. Ich bin wirklich begeistert, dass du dir so viel Zeit nimmst, um mir zu helfen.

Ich befürchte allerdings, dass meine Erklärungen etwas verwirrend waren und versuche alles nochmal an einem fiktiven Beispiel zu erläutern.

Folgende Voraussetzungen seien gegeben:
-Wir haben einen Datensatz der 10 Jahre umfasst (1991 bis 2000).
-Es geht um Testpunktzahl die verschiedene Person in Tests aus verschiedenen Gebieten (z.B. Sprachtest, Mathetest etc.) in verschiedenen Jahren erreichen
-Die Beobachtungen sind durch drei Variablen identifiziert: Die Person (z.B. Person Nr. 1), das Testgebiet (z.B. Mathe) und das Jahr (z.B. 1999). Dabei können grundsätzlich verschiedene Kombinationen dieser identifizierenden Variablen im Datensatz enthalten sein. Z.B. kann dieselbe Person einen Test des gleichen Testgebiets in verschiedenen Jahren ablegen. Es können auch verschiedene Personen denselben Test im gleichen Jahr ablegen. Eine Person kann aber auch innerhalb eines Jahres Tests auf unterschiedlichen Gebieten ablegen.
-Die Tests sind nicht normiert, d.h. bei manchen kann die maximale Punktzahl z.B. 20 sein und bei anderen 100. Außerdem unterscheiden sich die Tests des selben Testgebiets zwischen den Jahren, d.h. die Aufgaben sind unterschiedlich und können daher unterschiedlich schwer sein.

Die Zielsetzung besteht darin die relative Leistung, d.h. die relative Testpunktzahl, der Personen zu erklären. Da sich die Testschwierigkeit zwischen den Testgebieten und/oder zwischen den Jahren unterscheiden kann, wird die abhängige Variable folgendermaßen normiert.

AV=(Testpunktzahl - durschn. Testpunktzahl aller, die denselben Test im gleichen Jahr abgelegt haben)/durschn. Testpunktzahl aller, die denselben Test im gleichen Jahr abgelegt haben

Die erklärenden Variablen (z.B. die Anzahl der Stunden, die eine Person gelernt hat) werden ebnfalls um den Mittelwert differenziert. Eine Division findet jedoch nicht statt.

Nun werden 3 verschiedene Modelle betrachtet:

Modell I: AV = a1*D+a2*F+a3*G+a4*H
Modell II: AV = b1*D+b2*F+b3*V+b4*U+b5*W
Modell III: AV = c1*D+c2*E

Die Modelle enthalten also teilweise die gleichen erklärenden Variablen aber auch unterschiedliche. Die Zielsetzung der Untersuchung besteht letztendlich darin, die Frage zu beantworten, ob sich der Mehraufwand für die Ermittlung einer größeren Anzahl erklärender Variablen lohnt oder ob ein einfacheres Modell vergleichbare Ergebnisse liefert.

Schritt 1

Für alle 3 Modelle wird nun eine Regression für den gesamten Datensatz durchgeführt. An dieser Stelle tritt Problem 1 auf, z.B. die Heteroskedastie. Dem möchte ich dann mit Fama-MacBeth bzw. geclusterten Standardfehlern begegenen. Generell möchte ich auch eine Aussage darüber tätigen, welche erklärenden Variablen einen signifikanten Einfluss haben.

Außerdem wird für alle Modelle für jedes Jahr eine eigene Regression durchgeführt. (wird für die Out of Sample Analyse benötigt)

Zunächst sollen die die Modelle aber in Sample vergleichend bewertet werden. Dabei tritt Problem 2 auf. Eine nicht inferenzstatistische Aussage über das adjustierte R² kann ich natürlich auch treffen. Mir wäre aber natürlich eine Aussage, die durch einen Test fundiert ist, lieber, aber damit muss ich dann wohl leben.
Zudem würde ich, wie bereits erwähnt, wohl noch auf AIC bzw. BIC eingehen. So wie ich das verstehe, würde dies ja auch gerade der Fragestellung hinsichtlich der Modellkomplexität Rechnung tragen.

Schritt 2

Nun kommt es zur Out of Sample Analyse. Für jedes Modell nutze ich die Koeffizienten eines Jahres, um die AV für das nächste Jahr zu schätzen (=Pred_AV). Ich bilde dann für jedes Modell und jedes Jahr eine Rangfolge auf Grundlage der Pred_AV (von der höchsten geschätzen relativen Testpunktzahl bis zur niedrigsten). Von diesen Rangfolgen wähle ich jeweils das oberste und das unterste Dezil, d.h. ich habe für jedes Modell die 10% der Personen für das Modell die beste/schlechteste relative Testpunktzahl erwartet.

Sofern die Modelle gute von schlechten Testteilnehmern unterscheiden können, sollte die tatsächliche relative Testpunktzahl (AV) im obersten Dezil höher ausfallen als im untersten. Dementsprechend würde ich einen t-Test anwenden, der vergleicht, ob sich der Mittelwert der AV in diesen beiden Dezilen unterscheidet (jeweils modell-intern). Dabei tritt nun Problem 3 auf. In beiden extremen Dezilen können dieselben Personen vorkommen (aber in Kombination mit einem unterschiedlichen Testgebiet und/oder einem anderen Jahr). Allerdings werden auch einige Person nur in einem der beiden Dezile enthalten sein. Muss ich hier dann einen paired t-Test anwenden oder einen unpaired t-Test?

Abschließend muss ich auch an dieser Stelle nochmal einen Vergleich zwischen den Modellen durchführen. Zu diesem Zweck würde ich für jedes Jahr und jedes Modell die Differenz der durchschnittlichen Punktzahl im obersten und im untersten Dezil bilden (=spread). Umso größere diese ausfällt umso besser die Schätzung auf Grundlage des Modells. Letztendlich hätte dann für die Jahre 1992 bis 2000 für jedes Modell den Spread.
Um die Modelle vergleichend zu bewerten möchte ich dann schauen, ob sich diese unterscheiden. Dementsprechend würde ich wieder testen, ob sich die Mittelwerte (über die Jahre) der Spreads unterscheiden. Da es sich diesmal um einen Vergleich zwischen 3 Stichproben handelt, werde ich wohl auf ANOVA zurückgreifen müssen. Auch hier tritt letztendlich Problem 3 nochmal auf, denn ich weiß nicht, wie es mit der Abhängigkeit oder der Unabhängigkeit aussieht. Sicherlich werden die verschiedenen Modelle teilwese (aber nicht ausschließlich) dieselben Beobachtungen in die extremen Dezile ordnen.

PonderStibbons · von **PonderStibbons** » Fr 29. Jan 2016, 09:52

Sofern die Modelle gute von schlechten Testteilnehmern unterscheiden können, sollte die tatsächliche relative Testpunktzahl (AV) im obersten Dezil höher ausfallen als im untersten.

Da die Testung eines Modells bereits vorher ergeben hat, ob es einen
linearen Zusammenhang zwischen Vorhersage und tatsächlicher Leistung
gibt, ist das redundant und überflüssig. Vielleicht zur Illustration geeignet
(deskriptivstatistisch).

Mit feundlichen Grüßen

P.

Grünschnabel_ · von **Grünschnabel_** » Fr 29. Jan 2016, 15:05

PonderStibbons hat geschrieben:
Sofern die Modelle gute von schlechten Testteilnehmern unterscheiden können, sollte die tatsächliche relative Testpunktzahl (AV) im obersten Dezil höher ausfallen als im untersten.

Da die Testung eines Modells bereits vorher ergeben hat, ob es einen
linearen Zusammenhang zwischen Vorhersage und tatsächlicher Leistung
gibt, ist das redundant und überflüssig. Vielleicht zur Illustration geeignet
(deskriptivstatistisch).
P.

Ist es nicht gerade die Idee hinter der Out of Sample Prüfung, dass man prüft, ob in der Vergangenheit (in meinem Fall im Vorjahr) festgestellte Zusammenhänge auch in der Bewertungsperiode bestehen?

Es geht mir sozusagen darum, zu sehen, ob die im Vorjahr festgestellten Zusammenhänge helfen, um im aktuellen Jahr die besten (schlechtesten) Testteilnehmer zu identifizieren.

STATISTIK-FORUM.de

Modellvergleich - verschiedene Unklarheiten

Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Re: Modellvergleich - verschiedene Unklarheiten

Wer ist online?