ich möchte in R untersuchen, welche meiner Prädiktorvariablen (UV) einen signifikanten Effekt auf die AV haben; da ich sehr viele multifaktorielle UVs habe, kann ich mit der Summary der linearen Regression leider für diese Frage nichts anfangen, da ich keine Aussage über die Gesamtsignifikanz von Faktorvariablen auf die AV erhalte, sondern einen separaten p-Wert für jedes Faktorlevel im Vergleich mit einem Referenzlevel. Daher möchte ich eine Anova nutzen, um die Gesamtsignifikanz auch für Faktorprädiktoren zu erhalten.
Ich habe gelesen, dass es für die Bestimmung des durch jeden Prädiktor erklärten Anteils der AV-Varianz eine Rolle spielt, ob man eine Typ I, Typ II oder Typ III Anova verwendet; nun frage ich mich, ob das für die Untersuchung der Signifikanzen jedes Prädiktors insgesamt auch eine Rolle spielt oder nicht.
Für meinen Datensatz erhalte ich je nach verwendetem Anova-Typ unterschiedliche Signifikanzen:
Typ I (über Funktion> anova aus dem Basispaket in R):
- Code: Alles auswählen
> anova(lmModell)
Analysis of Variance Table
Response: Modell$AV
Df Sum Sq Mean Sq F value Pr(>F)
UV1 3 2.001 0.6669 8.4130 1.575e-05 ***
UV2 3 12.996 4.3319 54.6505 < 2.2e-16 ***
UV3 1 8.425 8.4252 106.2913 < 2.2e-16 ***
UV4 3 0.094 0.0315 0.3972 0.7550099
UV5 2 4.613 2.3064 29.0980 4.926e-13 ***
UV6 2 1.420 0.7101 8.9582 0.0001385 ***
UV7 2 5.688 2.8439 35.8787 8.226e-16 ***
UV8 3 2.590 0.8634 10.8921 4.737e-07 ***
UV9 3 4.488 1.4962 18.8754 6.183e-12 ***
UV10 3 0.441 0.1470 1.8547 0.1355436
UV11 1 0.195 0.1952 2.4628 0.1168618
UV12 3 1.025 0.3417 4.3107 0.0049469 **
UV13 3 10.389 3.4631 43.6896 < 2.2e-16 ***
UV14 1 0.089 0.0893 1.1268 0.2887065
UV15 2 10.109 5.0543 63.7648 < 2.2e-16 ***
UV16 4 1.225 0.3062 3.8624 0.0040205 **
UV17 2 2.589 1.2945 16.3314 1.030e-07 ***
UV18 3 0.485 0.1617 2.0395 0.1066585
UV19 2 0.035 0.0177 0.2238 0.7995388
UV20 1 1.597 1.5967 20.1439 7.955e-06 ***
UV21 2 0.240 0.1200 1.5141 0.2204804
UV22 4 0.456 0.1139 1.4367 0.2196980
Residuals 1077 85.368 0.0793
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Typ 2 (über Paket "car", Funktion "Anova (type = "II")")
- Code: Alles auswählen
> Anova(lmModell, type = "II")
Anova Table (Type II tests)
Response: Modell$AV
Sum Sq Df F value Pr(>F)
UV1 0.307 3 1.2900 0.2764422
UV2 0.958 3 4.0276 0.0073111 **
UV3 1.050 1 13.2485 0.0002858 ***
UV4 0.032 3 0.1342 0.9396948
UV5 0.432 2 2.7232 0.0661163 .
UV6 0.047 2 0.2939 0.7454143
UV7 1.310 2 8.2611 0.0002751 ***
UV8 1.013 3 4.2614 0.0052960 **
UV9 3.182 3 13.3800 1.408e-08 ***
UV10 0.020 3 0.0834 0.9690890
UV11 0.011 1 0.1411 0.7072455
UV12 0.415 3 1.7466 0.1557486
UV13 4.993 3 20.9958 3.190e-13 ***
UV14 0.004 1 0.0483 0.8260234
UV15 7.038 2 44.3928 < 2.2e-16 ***
UV16 1.734 4 5.4685 0.0002326 ***
UV17 2.843 2 17.9325 2.182e-08 ***
UV18 0.161 3 0.6763 0.5666550
UV19 0.025 2 0.1581 0.8537611
UV20 1.349 1 17.0160 3.992e-05 ***
UV21 0.219 2 1.3818 0.2515651
UV22 0.456 4 1.4367 0.2196980
Residuals 85.368 1077
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Typ III (über Paket "car", Funktion "Anova (..., type = "III")")
- Code: Alles auswählen
> Anova(lmModell, type = "III")
Anova Table (Type III tests)
Response: Modell$AV
Sum Sq Df F value Pr(>F)
(Intercept) 0.253 1 3.1976 0.0740284 .
UV1 0.307 3 1.2900 0.2764422
UV2 0.958 3 4.0276 0.0073111 **
UV3 1.050 1 13.2485 0.0002858 ***
UV4 0.032 3 0.1342 0.9396948
UV5 0.432 2 2.7232 0.0661163 .
UV6 0.047 2 0.2939 0.7454143
UV7 1.310 2 8.2611 0.0002751 ***
UV8 1.013 3 4.2614 0.0052960 **
UV9 3.182 3 13.3800 1.408e-08 ***
UV10 0.020 3 0.0834 0.9690890
UV11 0.011 1 0.1411 0.7072455
UV12 0.415 3 1.7466 0.1557486
UV13 4.993 3 20.9958 3.190e-13 ***
UV14 0.004 1 0.0483 0.8260234
UV15 7.038 2 44.3928 < 2.2e-16 ***
UV16 1.734 4 5.4685 0.0002326 ***
UV17 2.843 2 17.9325 2.182e-08 ***
UV18 0.161 3 0.6763 0.5666550
UV19 0.025 2 0.1581 0.8537611
UV20 1.349 1 17.0160 3.992e-05 ***
UV21 0.219 2 1.3818 0.2515651
UV22 0.456 4 1.4367 0.2196980
Residuals 85.368 1077
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Im Internet sehe ich ständig Verwendungen der >anova oder >aov Funktionen aus dem R-Basispaket, die laut meiner Recherchen den Typ I Anova berechnen, um die Signifikanzen von Prädiktoren in einer multiplen Regression zu bestimmen.
Ich frage mich deshalb, ob die Typ I Anova der beiden Befehle >anova oder >aov für meinen Datensatz angemessen ist.
Danke für eure Hilfe!