STATISTIK-FORUM.de

emats · von **emats** » Mo 13. Jan 2014, 10:55

Hallo,

Ich hänge gerade bei einem, vermutlich eher einfachem Problem, aber komme seit geraumer Zeit einfach nicht weiter. Ich habe Daten über Schäden von WIldtieren in Getreidefeldern.

Der Schaden wurde aufgenommen und in GIS digitalisiert. Viele sehr kleine Schäden wurden als ein großer Schaden aufgenommen und dafür wurde dann der Grad der Schädigung geschätzt (5 Klassen). ZUsätzlich wurden noch alle Fläche eingezeichnet die keinen Schaden aufweisen. Dann wurde über das gesamte Untersuchungsgebiet ein 1x1m Raster gelegt und für jede Zelle wurde die Entfernung zu verschiedenen Strukturen berechnet (Wald, Weizen, Mais, Straßen, etc.)

Frage 1: Da der Grad der Schädigung ein "künstlich" erzeugter Wert ist, wurden die EInträge je nach Grad der Schädigung vervielfacht. Damit erzeuge ich eine "virtuelle" 1/5 x 1/5 m- Auflösung.

Code: Alles auswählen: Intensity 1 (0-20% damage) → mal 1 Intensity 2 (21-40% damage) → mal 2 Intensity 3 (41-60% damage) → mal 3 Intensity 4 (61-80% damage) → mal 4 Intensity 5 (81-100% damage) → mal 5

ein Beispiel:

Code: Alles auswählen: | Intensity | dist_forest | dist_maiz | dist_roads | |1 | 50| 20| 70| |2 | 40| 10| 90| |5 | 20| 20| 40|

das Ergebnis:

Code: Alles auswählen: | Intensity | dist_forest | dist_maiz | dist_roads | |1 | 50| 20| 70| |1 | 50| 20| 70| |1 | 50| 20| 70| |1 | 50| 20| 70| |1 | 50| 20| 70| |2 | 40| 10| 90| |2 | 40| 10| 90| |2 | 40| 10| 90| |2 | 40| 10| 90| |5 | 20| 20| 40|

die nicht-Schadenszellen wurden alle verfünfacht, weil alle eine 100%-Schadensfreiheit aufweisen.

Kann ich so vorgehen oder wird damit die statistische Aussage verfälscht?

Frage 2:
Das obige vorgehen führt zu Daten

Code: Alles auswählen: | damage | dist_forest | dist_maiz | dist_roads | |0 | 30| 20| 70| |0 | 20| 10| 60| |0 | 60| 10| 80| |0 | 40| 70| 10| |0 | 20| 60| 50| |1 | 10| 10| 50| |1 | 05| 20| 30| |1 | 20| 30| 20| |1 | 30| 20| 90| |1 | 40| 10| 10|

die resultierende Tabelle hat 250000 Einträge.

Jetzt möchte ich wissen ob irgendeiner der Parameter (Weizen, Mais, Straße) einen signifikanten Einfluss auf das Auftreten von Schäden hat. Dafür benutzt ich eine binäre logistische Regressin, in R schaut der entsprechende Befehl so aus:

Code: Alles auswählen: glm(damage ~ dist_forest + dist_maiz, dist_roads, family=binomial(logit), data=data)

das Ergebnis ist, dass jeder Parameter signifikant ist und die meisten sogar hoch signifikant (***) sind. Wo kann dabei der Fehler leigen, wie würde ein besseres Vorgehen aussehen (Ich kann die Daten gerene auch zur Verfügung stellen)?

Übrigens: Die Stichprobengröße ist in Wirklichkeit nicht besonders groß, nur die Auflösung von 1x1m erzeugt eine so große Datengrundlage

Vielen Dank für eure hoffentlich Hilfe!

PonderStibbons · von **PonderStibbons** » Mo 13. Jan 2014, 11:34

Übrigens: Die Stichprobengröße ist in Wirklichkeit nicht besonders groß, nur die Auflösung von 1x1m erzeugt eine so große Datengrundlage

Na eben. Mit der auf diesem Wege künstlich von n Feldern auf auf 250.000 1x1-Areale
gebrachten Stichprobengröße sind "hochsignifikante" Effekte vorprogrammiert. Ich habe
die Studienanlage nicht nachvollziehen können, ebensowenig die Begründung für die
künstliche Aufblähung, aber ich bin sicher, dass wenn Du so verfährst, Du die Abhängigkeit
der einzelnen 1x1 Meter Areale hättest berücksichtigen müssen.

Mit freundlichen Grüßen

P.

STATISTIK-FORUM.de

Logistische Regression alle Parameter hoch siginifikant

Logistische Regression alle Parameter hoch siginifikant

Re: Logistische Regression alle Parameter hoch siginifikant

Wer ist online?