Blech hat geschrieben:Ich bin nicht der Profi, ihr seid es.
Ohne Profi zu sein: Die von Dir aufgeworfene Frage ist hoch komplex und kann nicht mit einem simplen Schema beantwortet werden. Extreme Werte können unsinnig entstandene Werte sein (Messwert falsch auf den Erhebungsbogen übertragen) oder das Ergebnis einer tatsächlichen Streuung der Messgröße sein. In
Fukushima hatte man Mauern gegen 5,5m hohe Wellen gebaut. Dann kam die 10m hohe Welle. Sie war ein Extremwert, aber einer, den das Meer tatsächlich produziert hat. Die 10m Welle war real und es wäre verfälschend, sie aus den Archiven streichen zu wollen. Hätte aber jemand versehentlich eine 10cm Welle als 10m Welle dokumentiert, dann müsste man diesen offensichlich falschen Wert aus den Messungen streichen. Das hat gar nichts damit zu tun, welchen z-Wert eine 10m-Welle vor
Fukushima hat.
Es muss also um die Frage gehen, wie es am wahrscheinlichsten zu den extremen Werten gekommen ist und ob man den kleineren Fehler macht, wenn man sie streicht oder ob man den kleineren Fehler macht, wenn man sie drin lässt (eine zu hohe Mauer für
Fukushima wäre teuer gewesen. Eine zu niedrige war fatal). Ohne Sachkunde in Ozeanographie, Hydrologie, Physik und Katastrophenschutz lässt sich die Frage nach der angemessenen Mauerhöhe nicht beantworten. Auch wir werden Deine Frage nicht beantworten können, ohne die Hintergründe genauestens zu kennen. Ohne sachwissenschaftlichen Hintergrund kann man Dir da nicht anständig raten.
Zum Thema Regression: Kümmere Dich einfach gar nicht um die Frage, ob die Variable normalverteilt ist. Sie interessiert keinen. Zeichne nochmal einen QQ-Plot von den Residuen der Regression. Aber auch da kommt es bei n>1000 nicht so drauf an.
LG,
Bernhard