Ich habe eine Datenbank die als "Grundgesamtheit" angesehen werden kann, da hier alle relevanten Daten bekannt und auszuwerten sind.
Die Übertragung der Analyseergebisse auf weitere/zukünftige Fälle außerhalb Deiner
Datenbank interessiert demnach nicht?
Muss ich hier bei einer ANOVA und einer multiplen Regression die Voraussetzungen trotzdem erfüllen, damit die Auswertung statistisch aussagekräfitg wird (es geht mir besonders um die Normalverteilung)?
Was genau mit statistisch aussagekräftig gemeint ist, weiß ich nicht, aber
da Du keine Inferenzstatistik (Signifikanztests) rechnen willst (Du betrachtest
ja Deine Daten nicht als Stichprobe sondern als Grundgesamtheit und willst
nicht weiter generalisieren), ist Normalverteilung bei Deiner Regression
bzw. Varianzanalyse doch irrelevant - sie berührt (wenn überhaupt)
allenfalls die korrekte Schätzung von Standardfehlern, die Dich wie gesagt
nicht interessieren, hingegen die Schätzung der Parameter (Varianzanaufklärung,
Regressionsgewichte, Mittelwertunterschiede etc.) wird dagegen nicht verzerrt.
dass nach der 'Central limit theorem' (bzw. zentraler Grenzwert) eine große Population immer normalverteilt ist?
Das behauptet das CLT nicht. Eine nicht-normale Verteilung wird ja
nicht normal, nur wei sie auf 100.000 Fällen beruht.
Beim CLT geht es darum, ob die Verteilung von Stichprobenparametern
(z.B. die Verteilung von Stichproben-Mittelwerten, wenn ich unendlich
oft Stichproben derselben Größe aus der Grundgesamtheit ziehe)
korrekt geschätzt wird, selbst wenn die Grundgesamtheit nicht
normalverteilt ist. Wenn die Stichproben groß genug sind, ist diese
Schätzung gemäß dem CLT auch unter diesen Umständen zuverlässig.
Mit freundlichen Grüßen
P.