Ich hänge gerade bei einem, vermutlich eher einfachem Problem, aber komme seit geraumer Zeit einfach nicht weiter. Ich habe Daten über Schäden von WIldtieren in Getreidefeldern.
Der Schaden wurde aufgenommen und in GIS digitalisiert. Viele sehr kleine Schäden wurden als ein großer Schaden aufgenommen und dafür wurde dann der Grad der Schädigung geschätzt (5 Klassen). ZUsätzlich wurden noch alle Fläche eingezeichnet die keinen Schaden aufweisen. Dann wurde über das gesamte Untersuchungsgebiet ein 1x1m Raster gelegt und für jede Zelle wurde die Entfernung zu verschiedenen Strukturen berechnet (Wald, Weizen, Mais, Straßen, etc.)
Frage 1: Da der Grad der Schädigung ein "künstlich" erzeugter Wert ist, wurden die EInträge je nach Grad der Schädigung vervielfacht. Damit erzeuge ich eine "virtuelle" 1/5 x 1/5 m- Auflösung.
- Code: Alles auswählen
Intensity 1 (0-20% damage) → mal 1
Intensity 2 (21-40% damage) → mal 2
Intensity 3 (41-60% damage) → mal 3
Intensity 4 (61-80% damage) → mal 4
Intensity 5 (81-100% damage) → mal 5
ein Beispiel:
- Code: Alles auswählen
| Intensity | dist_forest | dist_maiz | dist_roads |
|1 | 50| 20| 70|
|2 | 40| 10| 90|
|5 | 20| 20| 40|
das Ergebnis:
- Code: Alles auswählen
| Intensity | dist_forest | dist_maiz | dist_roads |
|1 | 50| 20| 70|
|1 | 50| 20| 70|
|1 | 50| 20| 70|
|1 | 50| 20| 70|
|1 | 50| 20| 70|
|2 | 40| 10| 90|
|2 | 40| 10| 90|
|2 | 40| 10| 90|
|2 | 40| 10| 90|
|5 | 20| 20| 40|
die nicht-Schadenszellen wurden alle verfünfacht, weil alle eine 100%-Schadensfreiheit aufweisen.
Kann ich so vorgehen oder wird damit die statistische Aussage verfälscht?
Frage 2:
Das obige vorgehen führt zu Daten
- Code: Alles auswählen
| damage | dist_forest | dist_maiz | dist_roads |
|0 | 30| 20| 70|
|0 | 20| 10| 60|
|0 | 60| 10| 80|
|0 | 40| 70| 10|
|0 | 20| 60| 50|
|1 | 10| 10| 50|
|1 | 05| 20| 30|
|1 | 20| 30| 20|
|1 | 30| 20| 90|
|1 | 40| 10| 10|
die resultierende Tabelle hat 250000 Einträge.
Jetzt möchte ich wissen ob irgendeiner der Parameter (Weizen, Mais, Straße) einen signifikanten Einfluss auf das Auftreten von Schäden hat. Dafür benutzt ich eine binäre logistische Regressin, in R schaut der entsprechende Befehl so aus:
- Code: Alles auswählen
glm(damage ~ dist_forest + dist_maiz, dist_roads, family=binomial(logit), data=data)
das Ergebnis ist, dass jeder Parameter signifikant ist und die meisten sogar hoch signifikant (***) sind. Wo kann dabei der Fehler leigen, wie würde ein besseres Vorgehen aussehen (Ich kann die Daten gerene auch zur Verfügung stellen)?
Übrigens: Die Stichprobengröße ist in Wirklichkeit nicht besonders groß, nur die Auflösung von 1x1m erzeugt eine so große Datengrundlage
Vielen Dank für eure hoffentlich Hilfe!