Logistische Regression alle Parameter hoch siginifikant

Alle Verfahren der Regressionanalyse.

Logistische Regression alle Parameter hoch siginifikant

Beitragvon emats » Mo 13. Jan 2014, 10:55

Hallo,

Ich hänge gerade bei einem, vermutlich eher einfachem Problem, aber komme seit geraumer Zeit einfach nicht weiter. Ich habe Daten über Schäden von WIldtieren in Getreidefeldern.

Der Schaden wurde aufgenommen und in GIS digitalisiert. Viele sehr kleine Schäden wurden als ein großer Schaden aufgenommen und dafür wurde dann der Grad der Schädigung geschätzt (5 Klassen). ZUsätzlich wurden noch alle Fläche eingezeichnet die keinen Schaden aufweisen. Dann wurde über das gesamte Untersuchungsgebiet ein 1x1m Raster gelegt und für jede Zelle wurde die Entfernung zu verschiedenen Strukturen berechnet (Wald, Weizen, Mais, Straßen, etc.)

Frage 1: Da der Grad der Schädigung ein "künstlich" erzeugter Wert ist, wurden die EInträge je nach Grad der Schädigung vervielfacht. Damit erzeuge ich eine "virtuelle" 1/5 x 1/5 m- Auflösung.
Code: Alles auswählen
Intensity 1 (0-20% damage)    → mal 1
Intensity 2 (21-40% damage)  →  mal 2
Intensity 3 (41-60% damage)  → mal 3
Intensity 4 (61-80% damage)  → mal 4
Intensity 5 (81-100% damage) → mal 5


ein Beispiel:
Code: Alles auswählen
| Intensity | dist_forest | dist_maiz | dist_roads |
|1             |             50|             20|              70|     
|2             |             40|             10|              90|     
|5             |             20|             20|              40|     


das Ergebnis:

Code: Alles auswählen
| Intensity | dist_forest | dist_maiz | dist_roads |
|1             |             50|             20|              70|     
|1             |             50|             20|              70|     
|1             |             50|             20|              70|     
|1             |             50|             20|              70|     
|1             |             50|             20|              70|     
|2             |             40|             10|              90|     
|2             |             40|             10|              90|     
|2             |             40|             10|              90|     
|2             |             40|             10|              90|     
|5             |             20|             20|              40|     


die nicht-Schadenszellen wurden alle verfünfacht, weil alle eine 100%-Schadensfreiheit aufweisen.

Kann ich so vorgehen oder wird damit die statistische Aussage verfälscht?


Frage 2:
Das obige vorgehen führt zu Daten
Code: Alles auswählen
| damage  | dist_forest | dist_maiz | dist_roads |
|0             |             30|             20|              70|   
|0             |             20|             10|              60|   
|0             |             60|             10|              80|   
|0             |             40|             70|              10|   
|0             |             20|             60|              50|   
|1             |             10|             10|              50|   
|1             |             05|             20|              30|   
|1             |             20|             30|              20|   
|1             |             30|             20|              90|   
|1             |             40|             10|              10|   


die resultierende Tabelle hat 250000 Einträge.

Jetzt möchte ich wissen ob irgendeiner der Parameter (Weizen, Mais, Straße) einen signifikanten Einfluss auf das Auftreten von Schäden hat. Dafür benutzt ich eine binäre logistische Regressin, in R schaut der entsprechende Befehl so aus:
Code: Alles auswählen
glm(damage ~ dist_forest + dist_maiz, dist_roads, family=binomial(logit), data=data)

das Ergebnis ist, dass jeder Parameter signifikant ist und die meisten sogar hoch signifikant (***) sind. Wo kann dabei der Fehler leigen, wie würde ein besseres Vorgehen aussehen (Ich kann die Daten gerene auch zur Verfügung stellen)?

Übrigens: Die Stichprobengröße ist in Wirklichkeit nicht besonders groß, nur die Auflösung von 1x1m erzeugt eine so große Datengrundlage

Vielen Dank für eure hoffentlich Hilfe!
Zuletzt geändert von emats am Mo 13. Jan 2014, 12:01, insgesamt 1-mal geändert.
emats
Einmal-Poster
Einmal-Poster
 
Beiträge: 1
Registriert: Mo 13. Jan 2014, 10:35
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression alle Parameter hoch siginifikant

Beitragvon PonderStibbons » Mo 13. Jan 2014, 11:34

Übrigens: Die Stichprobengröße ist in Wirklichkeit nicht besonders groß, nur die Auflösung von 1x1m erzeugt eine so große Datengrundlage

Na eben. Mit der auf diesem Wege künstlich von n Feldern auf auf 250.000 1x1-Areale
gebrachten Stichprobengröße sind "hochsignifikante" Effekte vorprogrammiert. Ich habe
die Studienanlage nicht nachvollziehen können, ebensowenig die Begründung für die
künstliche Aufblähung, aber ich bin sicher, dass wenn Du so verfährst, Du die Abhängigkeit
der einzelnen 1x1 Meter Areale hättest berücksichtigen müssen.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste

cron