STATISTIK-FORUM.de

Chris. · von **Chris.** » Do 13. Okt 2016, 22:45

Hallo,

ich hab gleich ein mehrere Fragen. Sie beziehen sich darauf, wie sehr man den Schätzergebnissen vertrauen kann.
Ich möchte auch einen Diskussionsanstoß geben, für Dinge die sich nicht so leicht beantworten lassen. Hier sind erfahrene Statistiker und Anfänger erwünscht.
Dazu einige hypothetische Modelle, die nicht wirklich gemessen wurden, sondern nur das Problem veranschaulichen sollen.

1. eine einfache lineare Regression
Modell: y = const.

Das Ergebnis entspricht dem Mittelwert von y. Hier soll getestet werden, ob dieser Mittelwert auch statistisch signifikant ist.
Dazu habe ich leider nur 10 Beobachtungen. Diese sind bei z.B.: 95% signifikant. Würde ich nun eine weitere Beobachtung i=11 in den Datensatz aufnehmen*, so ist das Modell nur noch bei einem Niveau von z.B.: 88% signifikant. Die Wert der Konstanten variiert dementsprechend. Die Beobachtung i=11 hat im letzten Jahr einen ausgesprochen hohen Wert (z.B.: wegen eines sehr dunklen Oktobers). Damit wird die gesamte Schätzung insignifikant. Gewiss könnte man weitere Kontrollvariablen in das Modell aufnehmen, doch damit wird die Geschichte komplizierter. Mir stellt sich die Frage: Welchem Modell sollte ich mehr Vertrauen schenken? Dem mit i=10 oder dem mit i=11?

*Ich habe da meine Gründe. Es geht nicht ums Schönrechnen, sondern um die rein hypothetische Fragen, wie sehr ich den Ergebnissen vertrauen kann. Um genau zu sein, stammt jede Beobachtung aus einem anderen Jahr und immer demselben Monat. Probleme mit Zeitreihen sind hier allerdings keinesfalls anzunehmen. Als Beispiel kann man sich folgendes denken: y misst die Summe der in allen Haushalten durchgebrannten Glühbirnen in einem kleinen Dorf für den Monat Oktober. y wird jedes Jahr in jedem Oktober neu gemessen.

2. eine linare Regression mit Bedingungen
Modell: y = const. if var_1 == a & var_2 == b
Fall a) i = 10
Fall b) i = 100
Beide Fälle sind statistisch signifikant für bestimmte a und b.
Hier sind var_1 und var_2 Variablen, die durch Festlegung der Werte a und b die Variable y einschränken. Ohne die Bedingung gibt es i = 10000 Beobachtungen. Bei a und b handelt es sich allerdings um Parameter. Durch Kombination dieser Parameter auf bestimmte Werte soll y optimiert werden. Hier soll angenommen werden, dass durch die Bedingung im Fall a) i = 10 wird bzw. im Fall b) i = 100 wird.
Hier könnte man in der Tat von "Schönrechnen" sprechen. Mir stellt sich hier die Frage: Wenn die Ergebnisse von y trotz Selektion von var_1 und var_2 statistisch signifikant sind, was kann dagegen eingewendet werden? Man muss anmerken, dass man sich nicht die besten Werte von y rauspickt, sondern sie durch eine Variation von a und b entstehen. Letztlich bleiben nach jeder Parameterkombination i = 10 Beobachtungen übrig, die mal positiv, mal negativ sind. Im Falle des Optimums sind es natürlich besonders hohe Werte*.
Falls man gegen diese Methode etwas einzuwenden hat stellt sich mir die nächste Frage. Wie viele Beobachtungen sollten vorhanden sein, damit "Schönrechnen" erlaubt ist. Dass ich sagen kann, trotzdem der Selektion durch Parametereinstellungen habe ich genug Beobachtungen, welche durch ihre große Menge das Modell als signifikant bestätigen?
Auch im 2. Modell soll auf die Hauptfrage hinauslaufen: Wie sehr kann ich meinen Ergebnissen vertrauen?

*Als Beispiel könnte man sich vorstellen, dass Amazon seine Preise variiert bis y = jährl. Umsatz größtmöglich ist unter Berücksichtigung von statistischer Signifikanz

Ich bin auch an wissenschaftlichen Artikeln zu diesem Thema interessiert, ebenso zu Themen, wann es sinnvoll ist Konstanten und (quadrierte) Trendvariablen zu verwenden bzw. zu unterdrücken.

strukturmarionette · von **strukturmarionette** » Sa 15. Okt 2016, 09:03

Hi,

Wie sehr kann ich meinen Ergebnissen vertrauen?

- Grundsätzlich abhängig davon, ob und inwieweit die Theorie, die Methoden (statistische Verfahren) nachvollziehbar und begründet dargestellt sind. Und wie üblich die (mathematisch statistischen) Anwendungsvoraussetzungen für Deine Regressionsmodelle transparent geprüft bzw nachzuprüfen sind.
(u.a.)

Gruß
S.

Chris. · von **Chris.** » Sa 22. Okt 2016, 20:55

Danke für deine Antwort. Leider geht sie in die falsche Richtung.

Das in unserer Welt so gut wie alles relativ ist und es immer mehrere Interpretationen gibt in Abhängigkeit des Interpretierenden, der Umwelt usw. ist ja nichts neues. Ich habe es auch vermieden den Titel "traue keiner Statistik, die du nicht selbst gefälscht hast" zu wählen.

Komplett wiederholen möchte ich mich hier nicht, denn alles Wichtige steht im Eingangspost.
Ich weise allerdings darauf hin, dass mein Posting kein genereller Hilfeersuch war, sondern möchte ich Klarheit schaffen. Eine Antwort à la "das hängt davon ab" schafft keine Klarheit. Sie gibt nicht mal Argumente für die eine oder andere Seite, so dass ich nach Abwägung aller Argumente mich für eine Seite entscheiden kann.
Um nur ein Beispiel aus meinem Eingangspost zu nennen: Wie kann eine Schätzung von Zeitreihen (mit der Annahme einer Zufallsstichprobe) bei i=10 signifikant sein? Nehme ich das jüngste Jahr hinzu also i=11, wird sie insignifikant.
Ich stelle mir hier grundsätzlich die Frage, welchen Zweck dann noch Signifikanzniveaus haben, wenn eine Schätzung so schnell ihre Signifikanz verlieren kann. Pro und Kontra... ? Ich habe nicht genug wissenschaftliche Erfahrung, dass ich die Pros und Kontras kenne. Deshalb frage ich hier. Ein à la "das hängt davon ab" hilft da nicht wirklich.

Damit ihr das nicht falsch versteht. Ich bin euren Antworten sehr dankbar. Noch dankbarer wäre ich aber dann, wenn sie mir auch helfen würden.

Vielleicht findet ja doch eine Diskussion statt, welche auf alle Probleme aus dem Eingangspost eingeht. Falls dazu kein Interesse besteht, seid doch wenigstens so nett und verweist mich auf ein Statistikforum, dass zu dieser Diskussion bereit ist.

bele · von **bele** » Sa 22. Okt 2016, 23:59

Chris. hat geschrieben: Welchem Modell sollte ich mehr Vertrauen schenken? Dem mit i=10 oder dem mit i=11?

Dem zweiten Modell, denn es enthält mehr Information. Dass es Jahre mit sehr dunklen Oktobern gibt, war offensichtlich in der 10er Stichprobe nicht erfasst. Deine Frage würde ich anders angehen: Schau nicht auf den p-Wert, sondern auf das Konfidenzintervall für die geschätzte Konstante. Dann wirst Du in der 10er Stichprobe feststellen, dass es noch sehr breit ist und recht nahe an der Null liegt. Die Betrachtung des Konfidenzintervalls bringt Dich vielleicht näher an Deinen Begriff von Vertrauen.
Das Vorgehen mit den p-Werten die größer oder kleiner als 0,05 sind ist künstlich auf eine Dichotomisierung in Ja/Nein ausgerichtet. "Vertrauen" in Deinem Sinn wird da gezielt ausgeschaltet, indem künstlich eine Entscheidung erzwungen wird. Bedenke auch immer, dass die lineare Regression identisch verteilte Werte als Anwendungsvoraussetzung hast. Wenn das elfte Jahr sich grundsätzlich von den anderen Jahren unterscheidet, dann entstammen dessen Werte vielleicht nicht der identischen Verteilung, sondern einer Oktober-besonders-dunkel-Verteilung. Wann immer so etwas passiert, darfst Du weder dem p-Wert noch dem Konfidenzintervall noch sonst einer Aussage der linearen Regression vertrauen.

Soviel zu Punkt 1. Deine Beschreibung von Punkt 2 habe ich nicht verstanden.

LG,
Bernhard

DHA3000 · von **DHA3000** » Di 25. Okt 2016, 00:32

Chris. hat geschrieben:Ich habe nicht genug wissenschaftliche Erfahrung, dass ich die Pros und Kontras kenne. Deshalb frage ich hier. Ein à la "das hängt davon ab" hilft da nicht wirklich.

Ja, neben wissenschaftlicher Erfahrung fehlt dir anscheinend auch Erfahrung im Umgang mit Forenteilnehmern. :evil:

Oder was soll dieser gehäßige Post?

Der Mittelwert ist bei einer geringen Stichprobe von 10 nicht robust genug gegenüber abnormalen Werten. Daher hilft es dir auch nicht allein einen 11. Wert zu betrachten. Deine Frage ist also von vorherein falsch aufgezogen.
In der Statistik berechnet man für solche geringen Stichproben keine Signifkanzen, da - wie bereits geschrieben - die Standardabweichungen viel zu groß sind.
Siehe auch Zentraler Grenzwertsatz.

STATISTIK-FORUM.de

Ergebnissen veratrauen

Ergebnissen veratrauen

Re: Ergebnissen veratrauen

Re: Ergebnissen veratrauen

Re: Ergebnissen veratrauen

Re: Ergebnissen veratrauen

Wer ist online?