STATISTIK-FORUM.de

Rota · von **Rota** » Mo 28. Feb 2022, 15:28

Hallo,

ich möchte in R untersuchen, welche meiner Prädiktorvariablen (UV) einen signifikanten Effekt auf die AV haben; da ich sehr viele multifaktorielle UVs habe, kann ich mit der Summary der linearen Regression leider für diese Frage nichts anfangen, da ich keine Aussage über die Gesamtsignifikanz von Faktorvariablen auf die AV erhalte, sondern einen separaten p-Wert für jedes Faktorlevel im Vergleich mit einem Referenzlevel. Daher möchte ich eine Anova nutzen, um die Gesamtsignifikanz auch für Faktorprädiktoren zu erhalten.

Ich habe gelesen, dass es für die Bestimmung des durch jeden Prädiktor erklärten Anteils der AV-Varianz eine Rolle spielt, ob man eine Typ I, Typ II oder Typ III Anova verwendet; nun frage ich mich, ob das für die Untersuchung der Signifikanzen jedes Prädiktors insgesamt auch eine Rolle spielt oder nicht.

Für meinen Datensatz erhalte ich je nach verwendetem Anova-Typ unterschiedliche Signifikanzen:

Typ I (über Funktion> anova aus dem Basispaket in R):

Code: Alles auswählen: > anova(lmModell) Analysis of Variance Table Response: Modell$AV Df Sum Sq Mean Sq F value Pr(>F) UV1 3 2.001 0.6669 8.4130 1.575e-05 *** UV2 3 12.996 4.3319 54.6505 < 2.2e-16 *** UV3 1 8.425 8.4252 106.2913 < 2.2e-16 *** UV4 3 0.094 0.0315 0.3972 0.7550099 UV5 2 4.613 2.3064 29.0980 4.926e-13 *** UV6 2 1.420 0.7101 8.9582 0.0001385 *** UV7 2 5.688 2.8439 35.8787 8.226e-16 *** UV8 3 2.590 0.8634 10.8921 4.737e-07 *** UV9 3 4.488 1.4962 18.8754 6.183e-12 *** UV10 3 0.441 0.1470 1.8547 0.1355436 UV11 1 0.195 0.1952 2.4628 0.1168618 UV12 3 1.025 0.3417 4.3107 0.0049469 ** UV13 3 10.389 3.4631 43.6896 < 2.2e-16 *** UV14 1 0.089 0.0893 1.1268 0.2887065 UV15 2 10.109 5.0543 63.7648 < 2.2e-16 *** UV16 4 1.225 0.3062 3.8624 0.0040205 ** UV17 2 2.589 1.2945 16.3314 1.030e-07 *** UV18 3 0.485 0.1617 2.0395 0.1066585 UV19 2 0.035 0.0177 0.2238 0.7995388 UV20 1 1.597 1.5967 20.1439 7.955e-06 *** UV21 2 0.240 0.1200 1.5141 0.2204804 UV22 4 0.456 0.1139 1.4367 0.2196980 Residuals 1077 85.368 0.0793 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Typ 2 (über Paket "car", Funktion "Anova (type = "II")")

Code: Alles auswählen: > Anova(lmModell, type = "II") Anova Table (Type II tests) Response: Modell$AV Sum Sq Df F value Pr(>F) UV1 0.307 3 1.2900 0.2764422 UV2 0.958 3 4.0276 0.0073111 ** UV3 1.050 1 13.2485 0.0002858 *** UV4 0.032 3 0.1342 0.9396948 UV5 0.432 2 2.7232 0.0661163 . UV6 0.047 2 0.2939 0.7454143 UV7 1.310 2 8.2611 0.0002751 *** UV8 1.013 3 4.2614 0.0052960 ** UV9 3.182 3 13.3800 1.408e-08 *** UV10 0.020 3 0.0834 0.9690890 UV11 0.011 1 0.1411 0.7072455 UV12 0.415 3 1.7466 0.1557486 UV13 4.993 3 20.9958 3.190e-13 *** UV14 0.004 1 0.0483 0.8260234 UV15 7.038 2 44.3928 < 2.2e-16 *** UV16 1.734 4 5.4685 0.0002326 *** UV17 2.843 2 17.9325 2.182e-08 *** UV18 0.161 3 0.6763 0.5666550 UV19 0.025 2 0.1581 0.8537611 UV20 1.349 1 17.0160 3.992e-05 *** UV21 0.219 2 1.3818 0.2515651 UV22 0.456 4 1.4367 0.2196980 Residuals 85.368 1077 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Typ III (über Paket "car", Funktion "Anova (..., type = "III")")

Code: Alles auswählen: > Anova(lmModell, type = "III") Anova Table (Type III tests) Response: Modell$AV Sum Sq Df F value Pr(>F) (Intercept) 0.253 1 3.1976 0.0740284 . UV1 0.307 3 1.2900 0.2764422 UV2 0.958 3 4.0276 0.0073111 ** UV3 1.050 1 13.2485 0.0002858 *** UV4 0.032 3 0.1342 0.9396948 UV5 0.432 2 2.7232 0.0661163 . UV6 0.047 2 0.2939 0.7454143 UV7 1.310 2 8.2611 0.0002751 *** UV8 1.013 3 4.2614 0.0052960 ** UV9 3.182 3 13.3800 1.408e-08 *** UV10 0.020 3 0.0834 0.9690890 UV11 0.011 1 0.1411 0.7072455 UV12 0.415 3 1.7466 0.1557486 UV13 4.993 3 20.9958 3.190e-13 *** UV14 0.004 1 0.0483 0.8260234 UV15 7.038 2 44.3928 < 2.2e-16 *** UV16 1.734 4 5.4685 0.0002326 *** UV17 2.843 2 17.9325 2.182e-08 *** UV18 0.161 3 0.6763 0.5666550 UV19 0.025 2 0.1581 0.8537611 UV20 1.349 1 17.0160 3.992e-05 *** UV21 0.219 2 1.3818 0.2515651 UV22 0.456 4 1.4367 0.2196980 Residuals 85.368 1077 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Im Internet sehe ich ständig Verwendungen der >anova oder >aov Funktionen aus dem R-Basispaket, die laut meiner Recherchen den Typ I Anova berechnen, um die Signifikanzen von Prädiktoren in einer multiplen Regression zu bestimmen.
Ich frage mich deshalb, ob die Typ I Anova der beiden Befehle >anova oder >aov für meinen Datensatz angemessen ist.

Danke für eure Hilfe!

bele · von **bele** » Mo 28. Feb 2022, 17:59

Hallo Rota,

vorneweg: Wenn Du im Rahmen Deiner Recherche mal einen wirklich guten Text oder auch nur ein richtig gutes Youtube-Video findest, der oder das das mit den Typ 1, 2 und 3 Fehlern mal richtig gut erklärt, poste bitte hier einen Link. Ich suche auch immer noch und finde bislang nichts, was die folgenden zwei Kriterien erfüllt: (1) ich verstehe es und (2) es hilft wirklich bei der Auswahl.

Wenn R die type 1 errors und SPSS die type 3 errors als Standardvorgabe macht, dann schließe ich daraus, dass es vielleicht nicht die eine richtige und die eine falsche Antwort gibt, auf die sich alle einigen können. Vielmehr scheinen auch Profis verschiedene Meinungen zu haben. Da ich nicht schlau genug für eine eigene Meinung finde bin und solange bis mir das jemand mal so richtig gut erklärt, würde ich mir erlauben, mich der Sache ganz hemdsärmelig zu nähern:

Mit Typ I sind die p-Werte abhängig davon, in welcher Reihenfolge Du die einzelnen Variablen ins Modell aufnimmst. Wenn Du eine solche Reihenfolge sinnvoll bilden kannst, dann mag das sinnvoll für Dich sein. In Deinem Beispiel oben ist UV1 mit Typ I signifikant, weil es sie als erste berücksichtigt wird. Wenn dieses "zuerst berücksichtigen" für Deine Fragestellung sinnvoll ist und Du die Reihenfolge diskutieren und begründen willst, mag das für Dich richtig sein. Wenn Du hingegen die UVs einfach alphabetisch oder sonstwie beliebig eingeschlossen hast, wenn sie einfach alle gleichzeitig nebeneinander stehen sollen und gleich behandelt werden sollen, dann ist Typ I eine Büchse der Pandora.
Alle die SPSS-Nutzer da draußen haben einfach Typ 3 Fehler und müssen sich daher um die Reihenfolge keine Gedanken machen. Noch nie habe ich in einem Material- und Methodenteil eine Rechtfertigung gelesen, welches Modell sie sich entschieden haben. Rein pragmatisch: Auf welcher Seite möchtest Du stehen?

Das ist keine akademisch befriedigende Antwort. Soviel weiß ich auch. Ich würde Dir auch wünschen, dass jemand eine bessere Antwort postet. Bis dahin kann ich Dir nicht mehr als die obige pragmatische Einschätzung und den folgenden Link bieten: https://www.middleprofessor.com/files/a ... ables.html

HTH,
Bernhard

STATISTIK-FORUM.de

Spielt Anova-Typ eine Rolle bei Bestimmung der Signifikanz?

Spielt Anova-Typ eine Rolle bei Bestimmung der Signifikanz?

Re: Spielt Anova-Typ eine Rolle bei Bestimmung der Signifika

Wer ist online?