Hallo,
ich hab gleich ein mehrere Fragen. Sie beziehen sich darauf, wie sehr man den Schätzergebnissen vertrauen kann.
Ich möchte auch einen Diskussionsanstoß geben, für Dinge die sich nicht so leicht beantworten lassen. Hier sind erfahrene Statistiker und Anfänger erwünscht.
Dazu einige hypothetische Modelle, die nicht wirklich gemessen wurden, sondern nur das Problem veranschaulichen sollen.
1. eine einfache lineare Regression
Modell: y = const.
Das Ergebnis entspricht dem Mittelwert von y. Hier soll getestet werden, ob dieser Mittelwert auch statistisch signifikant ist.
Dazu habe ich leider nur 10 Beobachtungen. Diese sind bei z.B.: 95% signifikant. Würde ich nun eine weitere Beobachtung i=11 in den Datensatz aufnehmen*, so ist das Modell nur noch bei einem Niveau von z.B.: 88% signifikant. Die Wert der Konstanten variiert dementsprechend. Die Beobachtung i=11 hat im letzten Jahr einen ausgesprochen hohen Wert (z.B.: wegen eines sehr dunklen Oktobers). Damit wird die gesamte Schätzung insignifikant. Gewiss könnte man weitere Kontrollvariablen in das Modell aufnehmen, doch damit wird die Geschichte komplizierter. Mir stellt sich die Frage: Welchem Modell sollte ich mehr Vertrauen schenken? Dem mit i=10 oder dem mit i=11?
*Ich habe da meine Gründe. Es geht nicht ums Schönrechnen, sondern um die rein hypothetische Fragen, wie sehr ich den Ergebnissen vertrauen kann. Um genau zu sein, stammt jede Beobachtung aus einem anderen Jahr und immer demselben Monat. Probleme mit Zeitreihen sind hier allerdings keinesfalls anzunehmen. Als Beispiel kann man sich folgendes denken: y misst die Summe der in allen Haushalten durchgebrannten Glühbirnen in einem kleinen Dorf für den Monat Oktober. y wird jedes Jahr in jedem Oktober neu gemessen.
2. eine linare Regression mit Bedingungen
Modell: y = const. if var_1 == a & var_2 == b
Fall a) i = 10
Fall b) i = 100
Beide Fälle sind statistisch signifikant für bestimmte a und b.
Hier sind var_1 und var_2 Variablen, die durch Festlegung der Werte a und b die Variable y einschränken. Ohne die Bedingung gibt es i = 10000 Beobachtungen. Bei a und b handelt es sich allerdings um Parameter. Durch Kombination dieser Parameter auf bestimmte Werte soll y optimiert werden. Hier soll angenommen werden, dass durch die Bedingung im Fall a) i = 10 wird bzw. im Fall b) i = 100 wird.
Hier könnte man in der Tat von "Schönrechnen" sprechen. Mir stellt sich hier die Frage: Wenn die Ergebnisse von y trotz Selektion von var_1 und var_2 statistisch signifikant sind, was kann dagegen eingewendet werden? Man muss anmerken, dass man sich nicht die besten Werte von y rauspickt, sondern sie durch eine Variation von a und b entstehen. Letztlich bleiben nach jeder Parameterkombination i = 10 Beobachtungen übrig, die mal positiv, mal negativ sind. Im Falle des Optimums sind es natürlich besonders hohe Werte*.
Falls man gegen diese Methode etwas einzuwenden hat stellt sich mir die nächste Frage. Wie viele Beobachtungen sollten vorhanden sein, damit "Schönrechnen" erlaubt ist. Dass ich sagen kann, trotzdem der Selektion durch Parametereinstellungen habe ich genug Beobachtungen, welche durch ihre große Menge das Modell als signifikant bestätigen?
Auch im 2. Modell soll auf die Hauptfrage hinauslaufen: Wie sehr kann ich meinen Ergebnissen vertrauen?
*Als Beispiel könnte man sich vorstellen, dass Amazon seine Preise variiert bis y = jährl. Umsatz größtmöglich ist unter Berücksichtigung von statistischer Signifikanz
Ich bin auch an wissenschaftlichen Artikeln zu diesem Thema interessiert, ebenso zu Themen, wann es sinnvoll ist Konstanten und (quadrierte) Trendvariablen zu verwenden bzw. zu unterdrücken.