Viele Daten

Fragen, die sich auf kein spezielles Verfahren beziehen.

Viele Daten

Beitragvon Dirk » Mi 12. Dez 2012, 19:31

Hallo,

was macht man eigentlich mit einer hohen Anzahl von Daten (n = ~90.000) statistisch korrekt? Das Histogramm habe ich hier angehangen.

Fasst man die in Klassen zusammen? Welcher Art? Eventuell nach Quantilen (die untersten 30% der Werte sind eher schlecht)? Was mache ich mit der nicht gleichmässigen Verteilung (ca. 800 Werte bei 0)?

Für alle Hinweise bin ich sehr dankbar, weil ich meistens nur Sachen mit n<100 sehe.

Viele grüße
Dirk
Dateianhänge
hist.png
hist.png (23.78 KiB) 1396-mal betrachtet
Dirk
Beobachter
Beobachter
 
Beiträge: 12
Registriert: Mi 12. Dez 2012, 19:23
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Viele Daten

Beitragvon PonderStibbons » Mi 12. Dez 2012, 21:43

was macht man eigentlich mit einer hohen Anzahl von Daten (n = ~90.000) statistisch korrekt?

Das hängt wohl davon ab, um was es sich
handelt und wie die Fragestellung lautet.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Viele Daten

Beitragvon Dirk » Di 23. Apr 2013, 13:33

Hallo,

entschuldigung. Ich dachte eigentlich ich würde eine EMail bekommen, wenn jemand antwortet.

In der Zwischenzeit hat sich einiges getan. Die häufigen Nullwerte (kaum zu erkennen), waren methodische Probleme. D.h. diese können gelöscht werden.

Alle Daten sind Höhenwerte von Pflanzen. Wie gefragt, kann ich davon ausgehen, dass zum Beispiel das 0,3 -Quantil, die schlechtesten 30% aller Werte enthält.

Wenn ich nun den "Grund" für das Wachstum der Pflanzen suche, würde ich diese mit Bodendaten, Hangneigung etc. vergleichen, in dem ich eine sehr große Tabelle in R nutze und bekomme dann ein Ergebnis. Ich folge hier der Anleitung (http://www.gardenersown.co.uk/education ... #lr_models).

Ein nicht so schönes Ergebnis wäre dann:
Code: Alles auswählen
Call:
lm(formula = data09$X0906_0904 ~ data09$X5m_curv + data09$X09.z +
    data09$X5m_slp + data09$X5m_plcur + data09$X5m_prcur + data09$X5m_twi)

Residuals:
     Min       1Q   Median       3Q      Max
-1.12298 -0.02210  0.01365  0.04586  0.48418

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)   
(Intercept)      -4.019e+00  7.784e-02 -51.632   <2e-16 ***
data09$X5m_curv  -2.193e+02  8.232e+02  -0.266   0.7900   
data09$X09.z      4.839e-02  7.546e-04  64.125   <2e-16 ***
data09$X5m_slp   -3.406e-03  1.412e-03  -2.412   0.0159 * 
data09$X5m_plcur  2.194e+02  8.232e+02   0.266   0.7899   
data09$X5m_prcur -2.193e+02  8.232e+02  -0.266   0.7900   
data09$X5m_twi    6.673e-03  3.039e-04  21.961   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1132 on 98650 degrees of freedom
Multiple R-squared: 0.0532,     Adjusted R-squared: 0.05314
F-statistic: 923.8 on 6 and 98650 DF,  p-value: < 2.2e-16


Bedeutet im Prinzip die Wachstumshöhen sind über die gewählten Parameter nicht erklärbar. Was bedeutet das 3fache Sternchen genau? Und wie kann man das einfache Sternchen interpretieren?

Ist die Vorgehensweise generell richtig?
Ist der Weg über Excel M. Regression im Prinzip das Gleiche? (http://cameron.econ.ucdavis.edu/excel/e ... ssion.html)?


Viele Grüße
Dirk
Dirk
Beobachter
Beobachter
 
Beiträge: 12
Registriert: Mi 12. Dez 2012, 19:23
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Viele Daten

Beitragvon PonderStibbons » Di 23. Apr 2013, 14:03

Bedeutet im Prinzip die Wachstumshöhen sind über die gewählten Parameter nicht erklärbar.

Sind sie schon, nur ist der Zusammenhang sehr klein (R²=0,053).
Was bedeutet das 3fache Sternchen genau? Und wie kann man das einfache Sternchen interpretieren?

Steh doch da:
Signif. codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05

Allerdings ist bei einer so gewaltigen Stichprobe der Signifikanztest eigentlich überflüssig,
der Stichprobenfehler ist derart winzig, dass man die geschätzten statistischen Größen direkt
interpretieren kann.

Jedoch kann ich nicht beurteilen, ob die Behandlung aller 98.000 einzelnen Pflanzen als
voneinander unabhängig überhaupt sachgerecht ist. Pflanzen, die ein Feld/Areal/etc.
miteinander teilen, können in manchen Studien eine gemeinsame Beobachtungseinheit bilden.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Viele Daten

Beitragvon Dirk » Di 23. Apr 2013, 14:30

Womit ich wieder bei meiner Ausgangsfrage bin...

Dirk hat geschrieben:
Fasst man die in Klassen zusammen? Welcher Art? Eventuell nach Quantilen (die untersten 30% der Werte sind eher schlecht)? Was mache ich mit der nicht gleichmässigen Verteilung (ca. 800 Werte bei 0)?


bzw. das sind nicht einzelne Pflanzen sondern Pflanzenhöhen pro 20cm². Natürlich lässt sich die letztere Auflösung anpassen.

Generell scheine ich ja richtig zu liegen, und melde mich dann, wenn ich neue Zahlen habe.

VG
Dirk
Dirk
Beobachter
Beobachter
 
Beiträge: 12
Registriert: Mi 12. Dez 2012, 19:23
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Viele Daten

Beitragvon Dirk » Fr 3. Mai 2013, 18:34

Hallo,

mal auf 10 Meter² gerechnet.

Code: Alles auswählen
Call:
lm(formula = data080527$X0807_0805 ~ data080527$X080725_z + data080527$kri080725 +
    data080527$X08curv10 + data080527$X08plancurv + data080527$X08profcurv +
    data080527$X08flowacc1 + data080527$X08slope10 + data080527$bk5)

Residuals:
     Min       1Q   Median       3Q      Max
-0.50228 -0.04824  0.01176  0.07110  0.43631

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)   
(Intercept)            -1.763e+01  1.740e+00 -10.132  < 2e-16 ***
data080527$X080725_z    1.538e-01  1.520e-02  10.117  < 2e-16 ***
data080527$kri080725    9.671e-02  8.053e-03  12.010  < 2e-16 ***
data080527$X08curv10    3.289e+04  2.495e+04   1.318   0.1878   
data080527$X08plancurv -3.289e+04  2.495e+04  -1.318   0.1878   
data080527$X08profcurv  3.289e+04  2.495e+04   1.318   0.1878   
data080527$X08flowacc1  5.875e-04  3.070e-04   1.914   0.0559 . 
data080527$X08slope10  -1.278e-01  1.643e-02  -7.782 1.81e-14 ***
data080527$bk5         -3.955e-04  2.586e-03  -0.153   0.8785   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1117 on 974 degrees of freedom
Multiple R-squared: 0.2421,     Adjusted R-squared: 0.2358
F-statistic: 38.88 on 8 and 974 DF,  p-value: < 2.2e-16


Interpretation: Ich kann auf der Datengrundlage die Varianz von data080527$X0807_0805 nur zum Teil erklären.
Signifikant sind einzelne Werte?!
X080725_z
kri080725
slope10

Richtig?
Noch jemand eine Idee?

Viele Grüße
Dirk
Dirk
Beobachter
Beobachter
 
Beiträge: 12
Registriert: Mi 12. Dez 2012, 19:23
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Viele Daten

Beitragvon aziz » Fr 3. Mai 2013, 20:11

Hallo,

deinem Modell zu folge werden etwa 24% der beobachteten Streuung durch dein Modell erklärt. Ich weiß nicht zu welchem Niveau du testest, aber die von dir angegebenen Parameter sollten signifikant sein.

Gruß
Aziz
aziz
 
Danke gegeben:
Danke bekommen: mal in Post

Re: Viele Daten

Beitragvon Dirk » Mi 8. Mai 2013, 14:57

Hallo,

zusätzliche Fragen: wenn ich nun die Korrelation zwischen den Parametern bestimmen möchte und cor.test auf verschiedenen Parametern ausführe, dann erreiche ich folgendes :
Code: Alles auswählen
Pearson's product-moment correlation

data:  data080527$X0807_0805 and data080527$X08plancurv
t = 6.7795, df = 981, p-value = 2.079e-11
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.1510252 0.2705034
sample estimates:
      cor
0.2115545

Das geringe P-Value besagt doch dann, das der Zusammenhang signifikant ist, oder? Warum ist er das in der obigen Auswertung nicht?

Wenn ich das ganze durch Excel schicke bekomme ich für die Faktoren "curv" auch sehr komische Zahlen zurück (32000+, etc.). Es sind die gleichen Daten wie zuvor.
Code: Alles auswählen
   Koeffizienten   Standardfehler   t-Statistik   P-Wert   Untere 95%   Obere 95%
Schnittpunkt   -16.3946   2.0385   -8.0426   0.0000   -20.3949   -12.3943
080725_z   0.1424   0.0183   7.7986   0.0000   0.1065   0.1782
kri080725   0.0928   0.0086   10.8333   0.0000   0.0760   0.1096
08curv10   32301.6188   24928.6297   1.2958   0.1954   -16618.5760   81221.8135
08plancurv   -32301.2950   24928.6315   -1.2958   0.1954   -81221.4932   16618.9032
08profcurv   32301.5501   24928.6272   1.2958   0.1954   -16618.6398   81221.7400
08_twi10   -0.0007   0.0067   -0.1092   0.9131   -0.0138   0.0123
08flowacc1   0.0006   0.0003   1.9843   0.0475   0.0000   0.0012
08flowdir1   0.0004   0.0002   1.5776   0.1150   -0.0001   0.0008
08slope10   -0.1313   0.0166   -7.8937   0.0000   -0.1639   -0.0987
bk5   -0.0004   0.0026   -0.1447   0.8850   -0.0056   0.0048
bs5   0.0006   0.0006   0.9334   0.3508   -0.0006   0.0017

Warum ist das so? Wenn bei Excel (regressions-funktion) der P-Wert <0.05 ist, dann ist er für 95% signifikant, richtig ?

Viele Grüße
Dirk
Dirk
Beobachter
Beobachter
 
Beiträge: 12
Registriert: Mi 12. Dez 2012, 19:23
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron