Vorausetzungen bei vorhandenen Daten zur Grundgesamtheit

Fragen, die sich auf kein spezielles Verfahren beziehen.

Vorausetzungen bei vorhandenen Daten zur Grundgesamtheit

Beitragvon domba » Do 21. Aug 2014, 21:05

Guuuten Abend zusammen!

Ich habe eine Datenbank die als "Grundgesamtheit" angesehen werden kann, da hier alle relevanten Daten bekannt und auszuwerten sind. Muss ich hier bei einer ANOVA und einer multiplen Regression die Voraussetzungen trotzdem erfüllen, damit die Auswertung statistisch aussagekräfitg wird (es geht mir besonders um die Normalverteilung)?

Durch die große Population, 120.000 Datensätze, ist eine Normalverteilung nach den bekannten Tests nicht nachzuweisen (zumindest für mich). Kann ich hier generell behaupten, dass nach der 'Central limit theorem' (bzw. zentraler Grenzwert) eine große Population immer normalverteilt ist?

Ich bedanke mich im Voraus für eure Unterstützung :)

Dominic
domba
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mo 21. Jul 2014, 09:48
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Vorausetzungen bei vorhandenen Daten zur Grundgesamtheit

Beitragvon PonderStibbons » Do 21. Aug 2014, 21:26

Ich habe eine Datenbank die als "Grundgesamtheit" angesehen werden kann, da hier alle relevanten Daten bekannt und auszuwerten sind.

Die Übertragung der Analyseergebisse auf weitere/zukünftige Fälle außerhalb Deiner
Datenbank interessiert demnach nicht?

Muss ich hier bei einer ANOVA und einer multiplen Regression die Voraussetzungen trotzdem erfüllen, damit die Auswertung statistisch aussagekräfitg wird (es geht mir besonders um die Normalverteilung)?

Was genau mit statistisch aussagekräftig gemeint ist, weiß ich nicht, aber
da Du keine Inferenzstatistik (Signifikanztests) rechnen willst (Du betrachtest
ja Deine Daten nicht als Stichprobe sondern als Grundgesamtheit und willst
nicht weiter generalisieren), ist Normalverteilung bei Deiner Regression
bzw. Varianzanalyse doch irrelevant - sie berührt (wenn überhaupt)
allenfalls die korrekte Schätzung von Standardfehlern, die Dich wie gesagt
nicht interessieren, hingegen die Schätzung der Parameter (Varianzanaufklärung,
Regressionsgewichte, Mittelwertunterschiede etc.) wird dagegen nicht verzerrt.

dass nach der 'Central limit theorem' (bzw. zentraler Grenzwert) eine große Population immer normalverteilt ist?

Das behauptet das CLT nicht. Eine nicht-normale Verteilung wird ja
nicht normal, nur wei sie auf 100.000 Fällen beruht.
Beim CLT geht es darum, ob die Verteilung von Stichprobenparametern
(z.B. die Verteilung von Stichproben-Mittelwerten, wenn ich unendlich
oft Stichproben derselben Größe aus der Grundgesamtheit ziehe)
korrekt geschätzt wird, selbst wenn die Grundgesamtheit nicht
normalverteilt ist. Wenn die Stichproben groß genug sind, ist diese
Schätzung gemäß dem CLT auch unter diesen Umständen zuverlässig.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
domba

Re: Vorausetzungen bei vorhandenen Daten zur Grundgesamtheit

Beitragvon domba » Do 21. Aug 2014, 21:36

Hallo PonderStibbons,
danke für die schnelle und ausführliche Antwort!

Aus meiner Grundgesamtheit wäre es schön, wenn ich für zukünftige Ereignisse eine Vorhersage machen kann (entsprechen dem gleichen Muster). Ist dies nur mit der Verknüpfung durch Voraussetzungen möglich? Ist es trotz Verletzung der Voraussetzungen möglich die Regressionsgleichung aufzustellen (möglich ja, aber "erlaubt" bzw. aussagekräftig?)

Bzgl. der CLT hast du Recht, habe es hier eindeutig falsch dargelegt.
domba
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mo 21. Jul 2014, 09:48
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Vorausetzungen bei vorhandenen Daten zur Grundgesamtheit

Beitragvon PonderStibbons » Do 21. Aug 2014, 21:48

Persönlich würde ich an der Stelle mit Begriffen wie Grundgesamtheit
überhaupt nicht jonglieren, bringt doch nix. Falls 120.000
Datensätze meint, 120.000 Fälle (subjects) werden analysiert, ist
Normalverteilung (übrigens sollten nicht Daten normalverteilt sein,
sondern die Vorhersagefehler [Residuen] des Modells, zumindest
wenn n < 50) kein Thema für die Gültigkeit der Tests.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 9 Gäste

cron