lineare Regression große Datenmenge

Alle Verfahren der Regressionanalyse.

lineare Regression große Datenmenge

Beitragvon J0nas » Mo 17. Aug 2015, 15:26

Hallo,

Wenn ich eine Große Datenmenge von ein zwei Millionen Datensätzen habe und darauf eine Multiple lineare Regression mit 10 Variablen berechne, macht es dann Sinn, sich noch das Residuum genauer anzuschauen? Ich habe gehört, dass bei großen Datensätzen eine Verteilungsanalyse schwierig ist.

Vielen Dank!
J0nas
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 9. Jul 2015, 16:32
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: lineare Regression große Datenmenge

Beitragvon mango » Mo 17. Aug 2015, 17:26

Kannst du das ein bißchen konkreter erklären? Die Residuen willst du dir zur Begutachtung der Modellvoraussetzungen anschauen, oder? Vielleicht verstehe ich dich falsch, aber das solltest du immer tun, unabhängig von der Größe deines Datenfiles.
mango
Elite
Elite
 
Beiträge: 330
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 3
Danke bekommen: 55 mal in 55 Posts

Re: lineare Regression große Datenmenge

Beitragvon J0nas » Di 18. Aug 2015, 08:49

Ja, also zum Beispiel: ich habe 2 Millionen Datensätze. D. h. ich habe 2 Millionen Residuen. mit dieser großen Anzahl kann ich doch kein Test au Normalverteilung durchführen , oder doch? Ich habe gelesen das z.b. der Shapiro-Wilk Test ei großen Daten versagt. Glaub beim AD Test trifft dies auch zu? Alternativ kann ich die Residuen auch plotten, aber ich glaube bei 2 Mio Datensätzen erkennt man nicht viel.
Wie kann ich also die Residuen begutachten, oder steh ich auf dem Schlauch :?:
J0nas
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 9. Jul 2015, 16:32
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: lineare Regression große Datenmenge

Beitragvon PonderStibbons » Di 18. Aug 2015, 08:58

Da kannst Du interessehalber einen Q-Q Plot machen, aber Normalverteilung ist bei n > 50 für die Gültoigkeit der F-Testergebnisse eigentlich irrelevant. Es ist ja auch schon fraglich, ob man bei Millionen Fällen noch unbedingt Signifikanztests braucht, der Standardfehler ist derart winzig, wozu dann noch eigens Signifikanztests.

Der Shapiro-Wilks versagt übrigens nicht, sondern er wird auf jeden Fall eine "hochsignifikante" Abweichung von der Normalverteilung anzeigen, womit man aber wenig anfangen kann.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11363
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 8 Gäste

cron