Multiple Regressionsanalyse - Sehr hohe P Werte

Alle Verfahren der Regressionanalyse.

Multiple Regressionsanalyse - Sehr hohe P Werte

Beitragvon Relssuak » Sa 6. Aug 2022, 19:51

Guten Abend,

Ich sitze gerade an eienr multiplen Regressionsanalyse und hätte gerne die ein oder andere Meinung und / oder erläuterungen dazu. Es eilt nicht, da diese Daten eher eine Art Zusatz in meiner Arbeit darstellen.

Um was geht es?
Im Rahmen eine Untersuchung der Vitalität eines Waldes, sind Bilddaten einer Drohnenbefliegugn ausgewertet worden. Es wurde der Vitalitätszustand des nahezu Reinbestandes (hauptsächlich eine Baumart) mit insgesamt 163 Stichproben erfasst. Dieser wurde in 3 Klassen eingeteilt (gesund, beschädigt, abgestorben).
Für diese Stichprobenkreise wurden weitere Parameter erfasst, um deren Auswirkung auf den Gesundheitszustand des Waldes zu analysieren: Hangneigung (in °), Exposition (in °), Baumdichte (in B pro ha), Mischbaumanteil (in %), Mittlere Baumhöhe (in m).

Dies erhoffte ich über eine Multiple Korrelationsanalyse / Regression zu erreichen, habe aber etwas unerwartete Ergebisse erhalten. Der prozentuale Anteil der gesunden Bäume pro Stichprobenkreis stellt die Abhängige Variable dar, die erklärt werden soll.
Die Daten wurden standardisiert als auch deren Heteroskedastizität durch Robuste Standardfehler HC3 behoben. Multikollinearität sollte mit VIF Werten unter 2 ebenfalls nicht vorliegen.
Die Exposition in ° habe ich manuell transformiert - Da diese Gradangabe sich auf die 360° Eines Kreises bezieht, wobei 0 / 360 ° Norden und 180° Süden ist. Unter der annahme, dass eine Südausrichtung am schlechtesten für die Gesundheit des Waldes ist und die Nordausrichtung am besten, habe ich einfach 180 von den gemessenen Werten abgezogen und einen Betragswert daraus gemacht (Da - vereinfacht dargestellt eine Nord West Ausrichtung (315°) und eine Nord Ost Ausrichtung (45°) sich identisch Auswirken.

DIe Analyse habe ich einmal mit allen 6, 5 und dann noch nur mit 3 UV durchgeführt, da Ich mir eine gegenseitige Abhängigkeit speziell in meinem Datensatz vorstellen kann (z.B. Hangneigung und Exposition). Die Werte sind in folgenden Bildern einzusehen:
Das Erste Bild zeigt noch Beispiels weise meinen Datensatz vor der z-Transformation, um sich davon auch ein Bild zu machen.
Bild
Bild
Bild
Bild
Meine Gedanken dazu:
Wie kommt es, dass bei der Berechnung mit 6 Variablen die Hangneigung Hoch signifikant ist, die Exposition jedoch überhaupt nicht? (Anmerkung: Der Wald weißt einen Nordhang auf mit relativ starker Hangneigung aber auch den Nord Expositionen - Dort ist die Vitalität sichtlich höher als z.B. auf Südhängen - ich habe hier einen deutlich größeren Einfluss der Exposition erwaret). Auch ist der Multiple Korrelationskoeffizient noch in dem Rahmen wo ich Ihn erwartet habe, da die Vitalität durch viele weitere Faktoren beeinflusst werden und somit nicht nur durch die hier verwendeten Prädiktoren gänzlich erklärt werden können.
Allgemein überraschen mich die sehr hohen P Werte der anderen Variablen abseits der Hangneigung. Ich bräuchte für eine Regression mit signifikanz wohl eine DEUTLICH größerer Stichprobe, sehe ich das richtig?

Lasse ich die Hangneigung weg, da diese im Zusammenhang mit der Exposition steht und auch in meinem Untersuchungsgebiet ein BIAS aufweist (Flache Neigung in Südlicher Richtung, Hohe Neigugn zur Nordseite), so sinkt der M. Korrelationskoeffizient deutlich in sehr geringe Bereiche, als auch die p Werte durch die Bank nicht signifikant sind.

Bei der Berechnung mit 3 UV sind die p Werte zwar näher dran an der Signifikanz, aber wie zuvor auch nur mit einem sehr geringen M. Korrelationskoeffizient. Diese 3 Variablen wären aus meienr subjektiven Sicht die Faktoren, bei denen ich die größen Auswirkungen auf den Gesundheitszustand erwartet hätte. Hier hat die Exposition auch eine deutlich größeren Koeffizient.


Besteht die Möglichkeit, dass die unterschiedlichen Datenformate der Variablen sich negativ Auswirken? Ich bin mir eben nicht sicher ob meine "Umrechung" bei der Exposition in ° statistisch betrachtet unproblematisch ist.
Gäbe es möglichkeiten, um bei diesem Datensatz die Auswirkungen der Parameter auf die Vitalität der Bäume mit signifikanten Ergebnissen zu erklären (auch wenn diese dann keinen Zusammenhang attestieren)?

Vielen Dank schonmal für euren Input :)
Relssuak
Einmal-Poster
Einmal-Poster
 
Beiträge: 1
Registriert: Sa 6. Aug 2022, 17:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regressionsanalyse - Sehr hohe P Werte

Beitragvon PonderStibbons » Sa 6. Aug 2022, 20:55

Relssuak hat geschrieben:DIe Analyse habe ich einmal mit allen 6, 5 und dann noch nur mit 3 UV durchgeführt, da Ich mir eine gegenseitige Abhängigkeit speziell in meinem Datensatz vorstellen kann

Warum vorstellen? Du kannst doch eine Korrelationsmatrix mit allen Prädiktoren erstellen und die Koeffizienten betrachten.
(z.B. Hangneigung und Exposition). Die Werte sind in folgenden Bildern einzusehen:

Oh mein Gott.
Ich würde vorschlagen, Excel dazu zu bringen, nicht 9 Stellen hinter dem Komma auszugeben.

Wie kommt es, dass bei der Berechnung mit 6 Variablen die Hangneigung Hoch signifikant ist, die Exposition jedoch überhaupt nicht?
Allgemein überraschen mich die sehr hohen P Werte der anderen Variablen abseits der Hangneigung. Ich bräuchte für eine Regression mit signifikanz wohl eine DEUTLICH größerer Stichprobe, sehe ich das richtig?

Du hast ein Modell, in dem nur 1 Variable eine vom Zufall unterscheidbare Vorhersageleistung erbringt. Lässt man
diese eine Variable weg, dann gibt es immer noch keinen nachweisbaren Zusammenhang zwischen einer der übrigen
Variablen und dem Kriterium. Ich würde mich nicht an die p-Werte klammern, sondern auch beachten, dass die
entsprechenden Koeffizienten niedrig sind. Eine "Signfikanz" erst mit einer sehr großen Stichprobe ist vielleicht
praktisch nicht relevant. "Signfikanz" heißt ja bloß, dass eine Effekt in der Grundgesamtheit nicht exakt = 0,000000
ist.

Ob ein Methodenproblem vorliegt, oder die anderen Variablen tatsächlich nicht relevant sind (in den Grenzen, wie
sie hier vorliegen), kann ich nicht beurteilen.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 13 Gäste